语音大模型

Seeduplex是字节跳动基于Seed基座研发的行业首个规模化落地原生全双工语音大模型，实现倾听、理解、生成、输出同步并行，端到端延迟低至500ms内，支持实时打断、精准抗干扰...

Covo-Audio是腾讯AI Lab开源的70亿参数端到端大型音频语言模型（LALM），采用统一架构直接处理连续音频输入并生成音频输出，无需ASR、LLM、TTS多模块拼接。模型具备层级三模...

MOSS-Speech是由复旦大学邱锡鹏教授领衔的OpenMOSS团队（国内知名AI开源团队，曾推出MOSS大模型系列）研发的原生语音到语音（Speech-to-Speech, S2S）开源大模型，旨在打破...

语音大模型新闻、工具、教程及资源推荐