AI语音生成

LongCat-AudioDiT：美团开源的高保真零样本语音克隆与文本转语音模型

LongCat-AudioDiT是美团LongCat开源的基于扩散模型的高保真文本转语音（TTS）与零样本语音克隆模型，是当前语音合成领域的SOTA（State-of-the-Art）方案之一。该模型彻底革...

2个月前 AI新闻

157

Gemini 3.1 Flash Live：谷歌推出的实时语音生成模型，低延迟高精度赋能全场景语音交互

Gemini 3.1 Flash Live是谷歌于2026年3月发布的高性能实时语音生成模型，作为Gemini体系中专注实时音频交互的核心产品，它以毫秒级低延迟、高精度语音理解与生成、长上下文...

2个月前 AI新闻

214

AnySpeech ：支持100+种声音与50+种语言的AI文本转语音工具

AnySpeech是一个面向全球内容创作者的专业AI文本转语音（Text-to-Speech, TTS）平台。该平台的核心功能是将用户输入的文字内容，通过人工智能技术，转换为高质量、自然逼真...

2个月前 AI音频制作

149

FineVoice：一站式AI语音生成与视频配音平台，30秒快速复制任何声音

FineVoice是一款多功能、一体化的AI语音生成与视频配音平台。它旨在通过先进的人工智能技术，为用户提供从文本到语音、语音克隆、变声、音效生成到视频配音的全套音频解决方...

3个月前 AI音频制作

130

本地部署IndexTTS2全流程详解：从环境配置到WebUI启动

本文提供B站开源工业级零样本文本转语音模型IndexTTS2的完整本地部署教程，涵盖Ubuntu系统环境搭建、依赖安装、模型下载、国内镜像加速技巧及WebUI可视化界面启动步骤。支持...

5个月前 AI教程

1035

CosyVoice：阿里通义开源的多语言低延迟 TTS 框架，支持跨语言克隆与流式语音合成

CosyVoice是由阿里通义实验室打造的开源TTS项目，其核心定位是面向“野外”真实场景的高质量、高灵活性语音合成框架。作为基于LLM架构的TTS工具，CosyVoice不仅支持基础的文...

6个月前 AI新闻

224

Luvvoice：AI语音生成平台，轻松实现多语言文本转自然语音

Luvvoice 是一款基于深度学习与人工智能技术的先进文本转语音TTS在线工具，致力于为全球用户提供高质量、自然流畅的人工智能语音生成服务。它不仅支持超过70种语言和200种A...

7个月前 AI音频制作

88

SoulX-Podcast：Soul开源的多轮对话 TTS 工具，实现播客级语音生成与跨方言克隆

SoulX-Podcast 是由 Soul 开源的语音生成项目，聚焦播客风格的多轮、多说话人对话语音合成，同时兼容传统独白式 TTS 任务。该项目支持普通话、英语及四川话、河南话、粤语等...

7个月前 AI新闻

240

UntitledPen：AI语音生成平台，智能写作+自然语音合成一键搞定

UntitledPen 是一款基于先进人工智能技术打造的多模态内容创作平台，专注于将文字转化为高度拟人化、自然流畅的语音内容。该平台融合了当前最先进的GPT模型与音频生成技术，...

8个月前 AI音频制作

149

MiMo-Audio：小米公司开源的多功能AI音频处理模型

MiMo-Audio是小米公司开发并开源的音频语言模型项目，旨在通过大规模预训练和创新的模型架构，实现音频领域的少样本学习能力。该项目依托超过1亿小时的多语言、多场景音频数...

9个月前 AI新闻

94

AI语音生成新闻、工具、教程及资源推荐