语音合成

Supertonic：开源的超高速设备端文本转语音工具

Supertonic是一款开源的文本转语音（TTS）系统，由韩国科技公司Supertone Inc.研发并开源，核心目标是解决传统TTS系统“依赖云服务、延迟高、隐私风险、资源占用大”等痛点...

7个月前 AI新闻

330

知意配音：AI智能文字转语音，高效便捷的在线配音工具

知意配音是一款基于人工智能技术打造的在线文字转语音服务平台，致力于为用户提供高质量、多语种、多音色的语音合成服务。该平台通过先进的深度学习算法与自然语言处理技术...

7个月前 AI音频制作

71

Fish Speech：开源文本转语音解决方案，支持高质量语音合成与跨语言语音克隆

Fish Speech（后更名OpenAudio）是由fishaudio团队开发的开源文本转语音（TTS）解决方案，核心基于OpenAudio-S1系列模型，提供高质量语音合成、跨语言语音克隆、情感语气控...

8个月前 AI新闻

101

DiaMoE-TTS：巨人网络联合清华大学开源的跨方言语音合成框架，支持 11 种方言与多语言兼容

DiaMoE-TTS 是由巨人网络联合清华大学开发的开源多方言文本到语音（TTS）框架，该框架基于 F5-TTS 架构扩展，通过统一国际音标（IPA）前端实现跨方言语音表示标准化，结合混...

8个月前 AI新闻

133

Real-Time-Voice-Cloning：基于深度学习的实时语音克隆框架，实现高质量语音合成与个性化声音定制

Real-Time-Voice-Cloning 是一个基于深度学习的开源语音克隆框架，能够通过几秒钟的音频样本克隆说话人的声音，并基于任意文本生成该说话人的语音。该项目实现了 SV2TTS架构...

8个月前 AI新闻

123

NeuTTS Air：开源超写实文本转语音框架，支持设备端部署与即时语音克隆

NeuTTS Air 是一个开源文本转语音项目，专注于设备端部署和即时语音克隆功能。它采用先进的 LM+codec 架构，在保持轻量级和高效率的同时，提供高质量、超写实的语音合成。仅...

8个月前 AI新闻

146

UntitledPen：AI语音生成平台，智能写作+自然语音合成一键搞定

UntitledPen 是一款基于先进人工智能技术打造的多模态内容创作平台，专注于将文字转化为高度拟人化、自然流畅的语音内容。该平台融合了当前最先进的GPT模型与音频生成技术，...

8个月前 AI音频制作

149

Spark-TTS：开源的文本到语音合成(TTS)系统，支持高质量语音克隆与多语言合成

Spark-TTS 是一个基于大语言模型（LLM）架构的高效文本到语音（TTS）系统，由 SparkAudio 团队开发并开源。该项目最大的特点是不依赖额外的声码器，直接通过 LLM 预测语音的...

9个月前 AI新闻

43

MeloTTS：MyShell AI 推出的开源多语言文本转语音引擎

MeloTTS 是由 MyShell AI 开发的开源文本转语音（TTS）项目，基于先进的深度学习技术，提供高质量、多语言的语音合成能力。该项目支持英语、中文、日语、韩语等多种语言，可...

9个月前 AI新闻

129

MiMo-Audio：小米公司开源的多功能AI音频处理模型

MiMo-Audio是小米公司开发并开源的音频语言模型项目，旨在通过大规模预训练和创新的模型架构，实现音频领域的少样本学习能力。该项目依托超过1亿小时的多语言、多场景音频数...

9个月前 AI新闻

94

VoxCPM：开源无分词器文本转语音系统，端到端实现高逼真语音合成

VoxCPM是一款创新型无分词器文本转语音（TTS）系统。该系统采用端到端的扩散自回归架构，能够直接从文本生成连续的语音表示，彻底摆脱了传统TTS系统中离散分词的限制，重新...

9个月前 AI新闻

92

语音合成新闻、工具、教程及资源推荐

Supertonic：开源的超高速设备端文本转语音工具

知意配音：AI智能文字转语音，高效便捷的在线配音工具

Fish Speech：开源文本转语音解决方案，支持高质量语音合成与跨语言语音克隆

DiaMoE-TTS：巨人网络联合清华大学开源的跨方言语音合成框架，支持 11 种方言与多语言兼容

Real-Time-Voice-Cloning：基于深度学习的实时语音克隆框架，实现高质量语音合成与个性化声音定制

NeuTTS Air：开源超写实文本转语音框架，支持设备端部署与即时语音克隆

UntitledPen：AI语音生成平台，智能写作+自然语音合成一键搞定

Spark-TTS：开源的文本到语音合成(TTS)系统，支持高质量语音克隆与多语言合成

MeloTTS：MyShell AI 推出的开源多语言文本转语音引擎

MiMo-Audio：小米公司开源的多功能AI音频处理模型

VoxCPM：开源无分词器文本转语音系统，端到端实现高逼真语音合成