KokoClone:开源快速语音克隆工具,支持文本生成与音频转换双模式
KokoClone是依托Kokoro-ONNX快速神经TTS引擎与Kanade语音转换架构打造的开源实时多语种语音克隆系统,具备文本克隆、音频克隆两大核心能力,仅需3-10秒参考音频即可实现零样...
KokoClone是依托Kokoro-ONNX快速神经TTS引擎与Kanade语音转换架构打造的开源实时多语种语音克隆系统,具备文本克隆、音频克隆两大核心能力,仅需3-10秒参考音频即可实现零样...
Fun-CineForge是阿里通义实验室FunAudioLLM团队开源的影视级零样本电影配音全栈项目,包含端到端大规模配音数据集构建流水线与多模态配音模型,配套首个大规模中文影视配音...
Ming-omni-tts是inclusionAI开源的高性能端到端统一音频生成模型,依托自研12.5Hz连续音频Tokenizer与Patch-by-Patch压缩策略,实现语音、音乐、环境音效单通道联合生成,支...
PaddleSpeech是基于百度飞桨(PaddlePaddle)深度学习框架打造的开源一站式语音与音频全功能处理工具包,该项目的核心定位是降低语音技术的使用与开发门槛,打通从数据处理...
MLX-Audio是基于苹果MLX框架深度开发、专为Apple Silicon M系列芯片优化的开源音频处理库,完整覆盖文本转语音、语音转文本、语音转语音三大核心能力,支持多语言、多主流模...
Qwen3-TTS是通义千问开源的一站式多语言语音生成模型全家桶,基于自研Qwen3大模型体系构建,采用离散多码本LM架构与Dual-Track双轨流式生成技术,实现语音克隆、语音设计、...
VoiceSculptor 是由西北工业大学音频语音与语言处理研究组 主导开发并开源的语音智能处理类开源项目,是一款专注于「自然语言可控的语音定制与语音合成」的全链路工具框架,...
Chatterbox是由Resemble AI团队打造的一款开源生产级文本转语音(TTS)模型家族,并非单一模型,而是三款针对性优化的先进TTS模型组合,整体以轻量化架构实现了媲美商业闭源...
AudioGPT是由AIGC-Audio团队开源的多模态音频智能处理项目,其核心定位是“音频领域的全栈式解决方案”——通过整合业界成熟的基础模型,实现对语音、音乐、通用声音的“理...
Supertonic是一款开源的文本转语音(TTS)系统,由韩国科技公司Supertone Inc.研发并开源,核心目标是解决传统TTS系统“依赖云服务、延迟高、隐私风险、资源占用大”等痛点...
知意配音是一款基于人工智能技术打造的在线文字转语音服务平台,致力于为用户提供高质量、多语种、多音色的语音合成服务。该平台通过先进的深度学习算法与自然语言处理技术...
Fish Speech(后更名OpenAudio)是由fishaudio团队开发的开源文本转语音(TTS)解决方案,核心基于OpenAudio-S1系列模型,提供高质量语音合成、跨语言语音克隆、情感语气控...
DiaMoE-TTS 是由巨人网络联合清华大学开发的开源多方言文本到语音(TTS)框架,该框架基于 F5-TTS 架构扩展,通过统一国际音标(IPA)前端实现跨方言语音表示标准化,结合混...
Real-Time-Voice-Cloning 是一个基于深度学习的开源语音克隆框架,能够通过几秒钟的音频样本克隆说话人的声音,并基于任意文本生成该说话人的语音。该项目实现了 SV2TTS架构...
NeuTTS Air 是一个开源文本转语音项目,专注于设备端部署和即时语音克隆功能。它采用先进的 LM+codec 架构,在保持轻量级和高效率的同时,提供高质量、超写实的语音合成。仅...