MOSS-TTS-Nano:轻量级多语言零样本TTS模型,CPU实时语音合成
MOSS-TTS-Nano 是由 OpenMOSS 团队开源的一款超轻量级多语言文本转语音(TTS)模型,依托 MOSS 大模型生态构建,主打小体积、低延迟、低硬件门槛与高音质输出,是面向端侧设...
MOSS-TTS-Nano 是由 OpenMOSS 团队开源的一款超轻量级多语言文本转语音(TTS)模型,依托 MOSS 大模型生态构建,主打小体积、低延迟、低硬件门槛与高音质输出,是面向端侧设...
Voicebox是一款开源本地优先AI语音合成工具,主打隐私安全、全功能语音创作与跨平台高性能运行。作为免费的 ElevenLabs 开源替代方案,它支持零样本语音克隆、7款TTS引擎、...
StepAudio 2.5 TTS是阶跃星辰推出的新一代AI文本转语音模型,以全局语境控制、文中语境精细调节、零样本音色复刻为核心能力,支持自然语言描述式情感与风格调控,延迟低、音...
OmniVoice是k2-fsa团队(小米Kaldi团队)开源的超大规模多语言零样本文本转语音(TTS)系统,基于创新单阶段离散非自回归扩散语言模型架构,支持646种语言的高质量语音生成...
Listnr AI是一款基于生成式人工智能技术的在线文本转语音(Text-to-Speech)与语音生成平台。该平台的核心功能是将用户输入的文字内容,转换为高度拟人化、自然流畅的语音音...
LongCat-AudioDiT是美团LongCat开源的基于扩散模型的高保真文本转语音(TTS)与零样本语音克隆模型,是当前语音合成领域的SOTA(State-of-the-Art)方案之一。该模型彻底革...
Voxtral TTS是法国AI公司Mistral AI于2026年3月发布的首款开源文本转语音(Text-to-Speech, TTS)模型,也是业界首个专为企业级应用设计、具备前沿质量的开放权重TTS模型。
AnySpeech是一个面向全球内容创作者的专业AI文本转语音(Text-to-Speech, TTS)平台。该平台的核心功能是将用户输入的文字内容,通过人工智能技术,转换为高质量、自然逼真...
Ming-omni-tts是inclusionAI开源的高性能端到端统一音频生成模型,依托自研12.5Hz连续音频Tokenizer与Patch-by-Patch压缩策略,实现语音、音乐、环境音效单通道联合生成,支...
MLX-Audio是基于苹果MLX框架深度开发、专为Apple Silicon M系列芯片优化的开源音频处理库,完整覆盖文本转语音、语音转文本、语音转语音三大核心能力,支持多语言、多主流模...
Qwen3-TTS是通义千问开源的一站式多语言语音生成模型全家桶,基于自研Qwen3大模型体系构建,采用离散多码本LM架构与Dual-Track双轨流式生成技术,实现语音克隆、语音设计、...
FlowSpeech是一款先进的AI语音生成器,致力于提供接近真人的专业TTS配音服务。通过深度理解上下文并支持停顿与情绪控制,FlowSpeech能够生成高度逼真的语音,适用于各种项目...
VoiceSculptor 是由西北工业大学音频语音与语言处理研究组 主导开发并开源的语音智能处理类开源项目,是一款专注于「自然语言可控的语音定制与语音合成」的全链路工具框架,...
Voicemaker 是一款基于人工智能技术打造的多功能语音生成与处理平台,专注于为用户提供从文本转语音(Text-to-Speech, TTS)、语音到语音转换(Speech-to-Speech)、语音克...
Chatterbox是由Resemble AI团队打造的一款开源生产级文本转语音(TTS)模型家族,并非单一模型,而是三款针对性优化的先进TTS模型组合,整体以轻量化架构实现了媲美商业闭源...