Chatterbox:开源的高性能TTS模型,支持23种语言零样本克隆与情感语音合成
Chatterbox是由Resemble AI团队打造的一款开源生产级文本转语音(TTS)模型家族,并非单一模型,而是三款针对性优化的先进TTS模型组合,整体以轻量化架构实现了媲美商业闭源...
Chatterbox是由Resemble AI团队打造的一款开源生产级文本转语音(TTS)模型家族,并非单一模型,而是三款针对性优化的先进TTS模型组合,整体以轻量化架构实现了媲美商业闭源...
AudioGPT是由AIGC-Audio团队开源的多模态音频智能处理项目,其核心定位是“音频领域的全栈式解决方案”——通过整合业界成熟的基础模型,实现对语音、音乐、通用声音的“理...
Supertonic是一款开源的文本转语音(TTS)系统,由韩国科技公司Supertone Inc.研发并开源,核心目标是解决传统TTS系统“依赖云服务、延迟高、隐私风险、资源占用大”等痛点...
知意配音是一款基于人工智能技术打造的在线文字转语音服务平台,致力于为用户提供高质量、多语种、多音色的语音合成服务。该平台通过先进的深度学习算法与自然语言处理技术...
Fish Speech(后更名OpenAudio)是由fishaudio团队开发的开源文本转语音(TTS)解决方案,核心基于OpenAudio-S1系列模型,提供高质量语音合成、跨语言语音克隆、情感语气控...
DiaMoE-TTS 是由巨人网络联合清华大学开发的开源多方言文本到语音(TTS)框架,该框架基于 F5-TTS 架构扩展,通过统一国际音标(IPA)前端实现跨方言语音表示标准化,结合混...
Real-Time-Voice-Cloning 是一个基于深度学习的开源语音克隆框架,能够通过几秒钟的音频样本克隆说话人的声音,并基于任意文本生成该说话人的语音。该项目实现了 SV2TTS架构...
NeuTTS Air 是一个开源文本转语音项目,专注于设备端部署和即时语音克隆功能。它采用先进的 LM+codec 架构,在保持轻量级和高效率的同时,提供高质量、超写实的语音合成。仅...
UntitledPen 是一款基于先进人工智能技术打造的多模态内容创作平台,专注于将文字转化为高度拟人化、自然流畅的语音内容。该平台融合了当前最先进的GPT模型与音频生成技术,...
Spark-TTS 是一个基于大语言模型(LLM)架构的高效文本到语音(TTS)系统,由 SparkAudio 团队开发并开源。该项目最大的特点是不依赖额外的声码器,直接通过 LLM 预测语音的...
MeloTTS 是由 MyShell AI 开发的开源文本转语音(TTS)项目,基于先进的深度学习技术,提供高质量、多语言的语音合成能力。该项目支持英语、中文、日语、韩语等多种语言,可...
MiMo-Audio是小米公司开发并开源的音频语言模型项目,旨在通过大规模预训练和创新的模型架构,实现音频领域的少样本学习能力。该项目依托超过1亿小时的多语言、多场景音频数...
VoxCPM是一款创新型无分词器文本转语音(TTS)系统。该系统采用端到端的扩散自回归架构,能够直接从文本生成连续的语音表示,彻底摆脱了传统TTS系统中离散分词的限制,重新...