Fish Speech:开源文本转语音解决方案,支持高质量语音合成与跨语言语音克隆
Fish Speech(后更名OpenAudio)是由fishaudio团队开发的开源文本转语音(TTS)解决方案,核心基于OpenAudio-S1系列模型,提供高质量语音合成、跨语言语音克隆、情感语气控...
Fish Speech(后更名OpenAudio)是由fishaudio团队开发的开源文本转语音(TTS)解决方案,核心基于OpenAudio-S1系列模型,提供高质量语音合成、跨语言语音克隆、情感语气控...
DiaMoE-TTS 是由巨人网络联合清华大学开发的开源多方言文本到语音(TTS)框架,该框架基于 F5-TTS 架构扩展,通过统一国际音标(IPA)前端实现跨方言语音表示标准化,结合混...
Real-Time-Voice-Cloning 是一个基于深度学习的开源语音克隆框架,能够通过几秒钟的音频样本克隆说话人的声音,并基于任意文本生成该说话人的语音。该项目实现了 SV2TTS架构...
NeuTTS Air 是一个开源文本转语音项目,专注于设备端部署和即时语音克隆功能。它采用先进的 LM+codec 架构,在保持轻量级和高效率的同时,提供高质量、超写实的语音合成。仅...
UntitledPen 是一款基于先进人工智能技术打造的多模态内容创作平台,专注于将文字转化为高度拟人化、自然流畅的语音内容。该平台融合了当前最先进的GPT模型与音频生成技术,...
Spark-TTS 是一个基于大语言模型(LLM)架构的高效文本到语音(TTS)系统,由 SparkAudio 团队开发并开源。该项目最大的特点是不依赖额外的声码器,直接通过 LLM 预测语音的...
MeloTTS 是由 MyShell AI 开发的开源文本转语音(TTS)项目,基于先进的深度学习技术,提供高质量、多语言的语音合成能力。该项目支持英语、中文、日语、韩语等多种语言,可...
MiMo-Audio是小米公司开发并开源的音频语言模型项目,旨在通过大规模预训练和创新的模型架构,实现音频领域的少样本学习能力。该项目依托超过1亿小时的多语言、多场景音频数...
VoxCPM是一款创新型无分词器文本转语音(TTS)系统。该系统采用端到端的扩散自回归架构,能够直接从文本生成连续的语音表示,彻底摆脱了传统TTS系统中离散分词的限制,重新...