语音合成

MOSS-TTS-Nano：轻量级多语言零样本TTS模型，CPU实时语音合成

MOSS-TTS-Nano 是由 OpenMOSS 团队开源的一款超轻量级多语言文本转语音（TTS）模型，依托 MOSS 大模型生态构建，主打小体积、低延迟、低硬件门槛与高音质输出，是面向端侧设...

2个月前 AI新闻

169

StepAudio 2.5 TTS：阶跃星辰推出的高精度文本转语音模型

StepAudio 2.5 TTS是阶跃星辰推出的新一代AI文本转语音模型，以全局语境控制、文中语境精细调节、零样本音色复刻为核心能力，支持自然语言描述式情感与风格调控，延迟低、音...

2个月前 AI新闻

149

MMX-CLI：MiniMax官方全模态AI命令行工具，一键解锁文本/图像/视频/语音/音乐生成能力

MMX-CLI是MiniMax-AI官方开源的全模态AI命令行工具，专为AI Agent与开发者设计，集成文本对话、图像生成、视频创作、语音合成、音乐制作、视觉理解、网络搜索等核心能力，通...

2个月前 AI新闻

437

悦音配音：制片帮旗下AI仿真人情感配音工具

悦音配音是深圳制片帮网络科技有限公司研发的AI智能配音工具，主打AI仿真人情感配音功能，提供网页端与APP端双平台服务，平台依托自研ANN-Turb训练引擎，实现高度拟人化的语...

2个月前 AI音频制作

107

Voxtral TTS：Mistral AI开源的多语言语音合成模型，3秒克隆音色+超低延迟生成自然语音

Voxtral TTS是法国AI公司Mistral AI于2026年3月发布的首款开源文本转语音（Text-to-Speech, TTS）模型，也是业界首个专为企业级应用设计、具备前沿质量的开放权重TTS模型。

2个月前 AI新闻

248

逗哥配音：一站式短视频配音创作工具箱，集成文案提取与人声分离

逗哥配音是一款集智能配音、音频处理与短视频创作辅助于一体的全流程AI语音合成工具平台。其核心功能是将用户输入的文字文本，通过先进的语音合成大模型技术，转化为高度拟...

2个月前 AI音频制作

112

KokoClone：开源快速语音克隆工具，支持文本生成与音频转换双模式

KokoClone是依托Kokoro-ONNX快速神经TTS引擎与Kanade语音转换架构打造的开源实时多语种语音克隆系统，具备文本克隆、音频克隆两大核心能力，仅需3-10秒参考音频即可实现零样...

3个月前 AI新闻

174

Fun-CineForge：阿里通义实验室推出的AI电影配音工具与数据集生产流水线

Fun-CineForge是阿里通义实验室FunAudioLLM团队开源的影视级零样本电影配音全栈项目，包含端到端大规模配音数据集构建流水线与多模态配音模型，配套首个大规模中文影视配音...

3个月前 AI新闻

164

Ming-omni-tts：开源统一音频生成模型，精准可控语音/音乐/音效一体化合成

Ming-omni-tts是inclusionAI开源的高性能端到端统一音频生成模型，依托自研12.5Hz连续音频Tokenizer与Patch-by-Patch压缩策略，实现语音、音乐、环境音效单通道联合生成，支...

4个月前 AI新闻

225

PaddleSpeech：百度飞桨开源的全栈语音 AI 工具包，覆盖识别合成翻译克隆全场景

PaddleSpeech是基于百度飞桨（PaddlePaddle）深度学习框架打造的开源一站式语音与音频全功能处理工具包，该项目的核心定位是降低语音技术的使用与开发门槛，打通从数据处理...

4个月前 AI新闻

178

MLX-Audio：面向Apple Silicon的开源本地AI语音文字互转与语音转换工具

MLX-Audio是基于苹果MLX框架深度开发、专为Apple Silicon M系列芯片优化的开源音频处理库，完整覆盖文本转语音、语音转文本、语音转语音三大核心能力，支持多语言、多主流模...

4个月前 AI新闻

305

Qwen3-TTS：通义千问开源的AI语音合成模型，实现多语种语音生成与定制化音色创作

Qwen3-TTS是通义千问开源的一站式多语言语音生成模型全家桶，基于自研Qwen3大模型体系构建，采用离散多码本LM架构与Dual-Track双轨流式生成技术，实现语音克隆、语音设计、...

5个月前 AI新闻

457

VoiceSculptor：开源语音定制合成框架，自然语言指令驱动的音色设计与语音克隆工具

VoiceSculptor 是由西北工业大学音频语音与语言处理研究组主导开发并开源的语音智能处理类开源项目，是一款专注于「自然语言可控的语音定制与语音合成」的全链路工具框架，...

5个月前 AI新闻

216

Chatterbox：开源的高性能TTS模型，支持23种语言零样本克隆与情感语音合成

Chatterbox是由Resemble AI团队打造的一款开源生产级文本转语音（TTS）模型家族，并非单一模型，而是三款针对性优化的先进TTS模型组合，整体以轻量化架构实现了媲美商业闭源...

6个月前 AI新闻

142

AudioGPT：开源多模态音频处理工具，一站式实现语音、音乐、声音生成与理解

AudioGPT是由AIGC-Audio团队开源的多模态音频智能处理项目，其核心定位是“音频领域的全栈式解决方案”——通过整合业界成熟的基础模型，实现对语音、音乐、通用声音的“理...

7个月前 AI新闻

163

语音合成新闻、工具、教程及资源推荐

MOSS-TTS-Nano：轻量级多语言零样本TTS模型，CPU实时语音合成

StepAudio 2.5 TTS：阶跃星辰推出的高精度文本转语音模型

MMX-CLI：MiniMax官方全模态AI命令行工具，一键解锁文本/图像/视频/语音/音乐生成能力

悦音配音：制片帮旗下AI仿真人情感配音工具

Voxtral TTS：Mistral AI开源的多语言语音合成模型，3秒克隆音色+超低延迟生成自然语音

逗哥配音：一站式短视频配音创作工具箱，集成文案提取与人声分离

KokoClone：开源快速语音克隆工具，支持文本生成与音频转换双模式

Fun-CineForge：阿里通义实验室推出的AI电影配音工具与数据集生产流水线

Ming-omni-tts：开源统一音频生成模型，精准可控语音/音乐/音效一体化合成

PaddleSpeech：百度飞桨开源的全栈语音 AI 工具包，覆盖识别合成翻译克隆全场景

MLX-Audio：面向Apple Silicon的开源本地AI语音文字互转与语音转换工具

Qwen3-TTS：通义千问开源的AI语音合成模型，实现多语种语音生成与定制化音色创作

VoiceSculptor：开源语音定制合成框架，自然语言指令驱动的音色设计与语音克隆工具

Chatterbox：开源的高性能TTS模型，支持23种语言零样本克隆与情感语音合成

AudioGPT：开源多模态音频处理工具，一站式实现语音、音乐、声音生成与理解