tts

Qwen-Audio-3.0-TTS：阿里通义千问推出的工业化语音合成模型

Qwen-Audio-3.0-TTS 是阿里巴巴 Token Foundry 团队研发的工业化高质量语音合成模型，归属通义千问音频系列。模型面向真实生产场景打造，主打高保真音色克隆、多语种与汉语...

3天前 AI新闻

70

ViiTorVoice-NAR：开源本地AI语音克隆与音频局部编辑工具

ViiTorVoice-NAR是viitor-ai开源非自回归语音生成工具，支持零样本音色克隆、文本局部音频修改、60ms超低延迟推理，提供Gradio可视化、gRPC微服务、Docker容器部署，原生中...

2周前 AI新闻

88

Confucius4-TTS：网易有道开源的多语种TTS语音合成引擎

Confucius4-TTS是网易有道推出基于LLM架构的开源跨语种零样本语音合成引擎，支持14种语言免参考文本音色克隆、无口音跨语种语音迁移、音频情感同步复刻，提供在线Gradio演示...

3周前 AI新闻

93

ChatTTS：面向LLM对话场景的开源中英文AI文本转语音工具

ChatTTS 是当前对话交互赛道极具优势的开源 AI 语音合成工具，核心优势是专为 LLM 对话场景优化、完整开源可本地部署、双语免费在线试用，兼顾普通创作者轻量化配音与技术人...

2周前 AI音频制作

91

Realtime TTS-2：Inworld推出的AI实时对话语音合成模型，低延迟情绪自适应多语言TTS

Inworld Realtime TTS-2 是由 Inworld AI 官方推出的第二代实时语音合成模型，专为真人实时多轮对话场景深度定制，区别于传统面向有声书、旁白播报的通用TTS产品。

2个月前 AI新闻

157

MOSS-TTS-Nano：轻量级多语言零样本TTS模型，CPU实时语音合成

MOSS-TTS-Nano 是由 OpenMOSS 团队开源的一款超轻量级多语言文本转语音（TTS）模型，依托 MOSS 大模型生态构建，主打小体积、低延迟、低硬件门槛与高音质输出，是面向端侧设...

3个月前 AI新闻

196

Voicebox：开源本地AI语音合成工具，本地运行零样本语音克隆与多轨编辑

Voicebox是一款开源本地优先AI语音合成工具，主打隐私安全、全功能语音创作与跨平台高性能运行。作为免费的 ElevenLabs 开源替代方案，它支持零样本语音克隆、7款TTS引擎、...

3个月前 AI新闻

443

StepAudio 2.5 TTS：阶跃星辰推出的高精度文本转语音模型

StepAudio 2.5 TTS是阶跃星辰推出的新一代AI文本转语音模型，以全局语境控制、文中语境精细调节、零样本音色复刻为核心能力，支持自然语言描述式情感与风格调控，延迟低、音...

3个月前 AI新闻

156

OmniVoice：小米开源的646种语言零样本文本转语音（TTS）系统

OmniVoice是k2-fsa团队（小米Kaldi团队）开源的超大规模多语言零样本文本转语音（TTS）系统，基于创新单阶段离散非自回归扩散语言模型架构，支持646种语言的高质量语音生成...

3个月前 AI新闻

1144

Listnr AI：支持142种语言与1000种声音的AI语音生成与文本转语音平台

Listnr AI是一款基于生成式人工智能技术的在线文本转语音（Text-to-Speech）与语音生成平台。该平台的核心功能是将用户输入的文字内容，转换为高度拟人化、自然流畅的语音音...

3个月前 AI音频制作

95

LongCat-AudioDiT：美团开源的高保真零样本语音克隆与文本转语音模型

LongCat-AudioDiT是美团LongCat开源的基于扩散模型的高保真文本转语音（TTS）与零样本语音克隆模型，是当前语音合成领域的SOTA（State-of-the-Art）方案之一。该模型彻底革...

3个月前 AI新闻

177

Voxtral TTS：Mistral AI开源的多语言语音合成模型，3秒克隆音色+超低延迟生成自然语音

Voxtral TTS是法国AI公司Mistral AI于2026年3月发布的首款开源文本转语音（Text-to-Speech, TTS）模型，也是业界首个专为企业级应用设计、具备前沿质量的开放权重TTS模型。

3个月前 AI新闻

294

AnySpeech ：支持100+种声音与50+种语言的AI文本转语音工具

AnySpeech是一个面向全球内容创作者的专业AI文本转语音（Text-to-Speech, TTS）平台。该平台的核心功能是将用户输入的文字内容，通过人工智能技术，转换为高质量、自然逼真...

3个月前 AI音频制作

154

Ming-omni-tts：开源统一音频生成模型，精准可控语音/音乐/音效一体化合成

Ming-omni-tts是inclusionAI开源的高性能端到端统一音频生成模型，依托自研12.5Hz连续音频Tokenizer与Patch-by-Patch压缩策略，实现语音、音乐、环境音效单通道联合生成，支...

5个月前 AI新闻

262

MLX-Audio：面向Apple Silicon的开源本地AI语音文字互转与语音转换工具

MLX-Audio是基于苹果MLX框架深度开发、专为Apple Silicon M系列芯片优化的开源音频处理库，完整覆盖文本转语音、语音转文本、语音转语音三大核心能力，支持多语言、多主流模...

5个月前 AI新闻

354

tts新闻、工具、教程及资源推荐

Qwen-Audio-3.0-TTS：阿里通义千问推出的工业化语音合成模型

ViiTorVoice-NAR：开源本地AI语音克隆与音频局部编辑工具

Confucius4-TTS：网易有道开源的多语种TTS语音合成引擎

ChatTTS：面向LLM对话场景的开源中英文AI文本转语音工具

Realtime TTS-2：Inworld推出的AI实时对话语音合成模型，低延迟情绪自适应多语言TTS

MOSS-TTS-Nano：轻量级多语言零样本TTS模型，CPU实时语音合成

Voicebox：开源本地AI语音合成工具，本地运行零样本语音克隆与多轨编辑

StepAudio 2.5 TTS：阶跃星辰推出的高精度文本转语音模型

OmniVoice：小米开源的646种语言零样本文本转语音（TTS）系统

Listnr AI：支持142种语言与1000种声音的AI语音生成与文本转语音平台

LongCat-AudioDiT：美团开源的高保真零样本语音克隆与文本转语音模型

Voxtral TTS：Mistral AI开源的多语言语音合成模型，3秒克隆音色+超低延迟生成自然语音

AnySpeech ：支持100+种声音与50+种语言的AI文本转语音工具

Ming-omni-tts：开源统一音频生成模型，精准可控语音/音乐/音效一体化合成

MLX-Audio：面向Apple Silicon的开源本地AI语音文字互转与语音转换工具