MOSS-TTS-Nano:轻量级多语言零样本TTS模型,CPU实时语音合成
MOSS-TTS-Nano 是由 OpenMOSS 团队开源的一款超轻量级多语言文本转语音(TTS)模型,依托 MOSS 大模型生态构建,主打小体积、低延迟、低硬件门槛与高音质输出,是面向端侧设...
MOSS-TTS-Nano 是由 OpenMOSS 团队开源的一款超轻量级多语言文本转语音(TTS)模型,依托 MOSS 大模型生态构建,主打小体积、低延迟、低硬件门槛与高音质输出,是面向端侧设...
StepAudio 2.5 TTS是阶跃星辰推出的新一代AI文本转语音模型,以全局语境控制、文中语境精细调节、零样本音色复刻为核心能力,支持自然语言描述式情感与风格调控,延迟低、音...
MMX-CLI是MiniMax-AI官方开源的全模态AI命令行工具,专为AI Agent与开发者设计,集成文本对话、图像生成、视频创作、语音合成、音乐制作、视觉理解、网络搜索等核心能力,通...
悦音配音是深圳制片帮网络科技有限公司研发的AI智能配音工具,主打AI仿真人情感配音功能,提供网页端与APP端双平台服务,平台依托自研ANN-Turb训练引擎,实现高度拟人化的语...
Voxtral TTS是法国AI公司Mistral AI于2026年3月发布的首款开源文本转语音(Text-to-Speech, TTS)模型,也是业界首个专为企业级应用设计、具备前沿质量的开放权重TTS模型。
逗哥配音是一款集智能配音、音频处理与短视频创作辅助于一体的全流程AI语音合成工具平台。其核心功能是将用户输入的文字文本,通过先进的语音合成大模型技术,转化为高度拟...
KokoClone是依托Kokoro-ONNX快速神经TTS引擎与Kanade语音转换架构打造的开源实时多语种语音克隆系统,具备文本克隆、音频克隆两大核心能力,仅需3-10秒参考音频即可实现零样...
Fun-CineForge是阿里通义实验室FunAudioLLM团队开源的影视级零样本电影配音全栈项目,包含端到端大规模配音数据集构建流水线与多模态配音模型,配套首个大规模中文影视配音...
Ming-omni-tts是inclusionAI开源的高性能端到端统一音频生成模型,依托自研12.5Hz连续音频Tokenizer与Patch-by-Patch压缩策略,实现语音、音乐、环境音效单通道联合生成,支...
PaddleSpeech是基于百度飞桨(PaddlePaddle)深度学习框架打造的开源一站式语音与音频全功能处理工具包,该项目的核心定位是降低语音技术的使用与开发门槛,打通从数据处理...
MLX-Audio是基于苹果MLX框架深度开发、专为Apple Silicon M系列芯片优化的开源音频处理库,完整覆盖文本转语音、语音转文本、语音转语音三大核心能力,支持多语言、多主流模...
Qwen3-TTS是通义千问开源的一站式多语言语音生成模型全家桶,基于自研Qwen3大模型体系构建,采用离散多码本LM架构与Dual-Track双轨流式生成技术,实现语音克隆、语音设计、...
VoiceSculptor 是由西北工业大学音频语音与语言处理研究组 主导开发并开源的语音智能处理类开源项目,是一款专注于「自然语言可控的语音定制与语音合成」的全链路工具框架,...
Chatterbox是由Resemble AI团队打造的一款开源生产级文本转语音(TTS)模型家族,并非单一模型,而是三款针对性优化的先进TTS模型组合,整体以轻量化架构实现了媲美商业闭源...
AudioGPT是由AIGC-Audio团队开源的多模态音频智能处理项目,其核心定位是“音频领域的全栈式解决方案”——通过整合业界成熟的基础模型,实现对语音、音乐、通用声音的“理...