MiMo-Audio:小米公司开源的多功能AI音频处理模型 MiMo-Audio是小米公司开发并开源的音频语言模型项目,旨在通过大规模预训练和创新的模型架构,实现音频领域的少样本学习能力。该项目依托超过1亿小时的多语言、多场景音频数... 9小时前 AI新闻 9
VoxCPM:开源无分词器文本转语音系统,端到端实现高逼真语音合成 VoxCPM是一款创新型无分词器文本转语音(TTS)系统。该系统采用端到端的扩散自回归架构,能够直接从文本生成连续的语音表示,彻底摆脱了传统TTS系统中离散分词的限制,重新... 10小时前 AI新闻 8