Covo-Audio:腾讯开源7B端到端音频大模型,原生全双工对话与智能音色解耦
一、Covo-Audio是什么
Covo-Audio是腾讯AI Lab研发并开源的7B参数端到端大型音频语言模型,定位为统一处理“听-说-思”的全栈语音交互基座。它打破传统语音系统“ASR+LLM+TTS”串联拼接的架构,在单一模型内完成音频输入、语义理解、逻辑推理、语音生成全流程,支持半双工对话、全双工实时交互、情感共情、音色灵活定制等能力,是面向产业级语音交互的轻量化开源方案。
该项目包含三个核心版本:
Covo-Audio-Base:基础预训练模型,具备通用语音-文本跨模态能力
Covo-Audio-Chat:对话版,面向多轮口语交互、指令遵循、情感回应
Covo-Audio-Chat-FD:全双工版,原生支持边听边说、打断、插话等人类自然对话行为
项目核心目标是:用中等参数规模实现高自然度、低延迟、高鲁棒性的语音交互,降低端到端语音系统的研发与部署门槛。
二、功能特色
1. 端到端统一架构,无中间文本损耗
传统语音系统需要经过“语音转文本→大模型推理→文本转语音”三次转换,每一步都存在信息丢失与延迟。Covo-Audio直接以连续音频为输入、音频为输出,语义与韵律全程保留,交互更连贯、延迟更低。
2. 原生全双工语音交互
支持人类式自然对话:
边听边说,实时感知用户输入
支持中途打断(Barge-in)
支持插话回应(Backchanneling)
智能判断说话结束与停顿
低延迟、流畅自然
3. 智能-说话人解耦,低成本音色定制
模型将“对话智能”与“语音音色”分离,只需少量TTS数据即可迁移音色,无需重新训练对话模型,兼顾个性化与工程效率。
4. 层级三模态融合,兼顾语义与韵律
融合连续声学特征、离散语音令牌、自然语言文本三种模态,细粒度对齐韵律,全局保持语义逻辑,生成语音更自然、理解更准确。
5. 强情感共情能力
支持喜悦、愤怒、悲伤、恐惧、厌恶、抑郁、焦虑七类情感识别与适配回应,在中文情感对话基准上达到SOTA。
6. 高鲁棒性与多任务通用
支持口音、噪声、内容变体等复杂场景,同时覆盖语音识别、语音翻译、音频问答、口语对话、全双工交互等多任务。
7. 轻量化易部署
7B参数可在单卡GPU运行,提供完整推理脚本与环境配置,开箱即用。
三、技术细节
1. 整体架构
Covo-Audio采用音频编码器→音频适配器→LLM骨干→语音令牌器→语音解码器的统一链路:
音频编码器:Whisper-large-v3,输出50Hz声学特征
音频适配器:3层下采样,压缩到6.25Hz适配LLM时序
LLM骨干:Qwen2.5-7B-Base扩展,支持音频-文本混合序列
语音令牌器:WavLM-large+VQ,码本16384,输出25Hz离散令牌
语音解码器:Flow-Matching+BigVGAN,生成24kHz高保真语音
2. 层级三模态交织策略
短语级交织:声学片段与词汇细粒度对齐,保证韵律自然
句子级交织:全局语义连贯,避免逻辑断裂
三模态统一编码:支持A2A、A2T、T2A、T2T全向转换
3. 智能-说话人解耦技术
多说话人预训练,分离智能与音色
伪对话数据构建,用TTS数据实现音色迁移
推理阶段动态切换音色,对话能力几乎无损
4. 全双工交互实现
流式音频编码器,实时分块处理
用户流与模型流1:4块交织,实现边听边说
THINK/SHIFT/BREAK控制令牌精准管理对话状态
5. 两阶段预训练+专项后训练
Stage1:模态桥接,20万小时多语言ASR数据对齐音频与LLM
Stage2:模态融合,800万小时音频+3T文本,多任务联合训练
后训练:口语对话、情感共情、语音理解、音频理解四大方向强化
6. 性能基准(同规模领先)
| 任务 | 核心指标 | 表现 |
|---|---|---|
| 口语对话 | URO-Bench | 中文/英文多轮对话领先 |
| 全双工交互 | 打断成功率 | 96.81% |
| 情感共情 | VStyle | 中文愤怒/悲伤/焦虑接近满分 |
| 语音识别 | Aishell-1 | WER=1.07% |
| 音频理解 | MMSU | 平均准确率66.64% |
四、应用场景
1. 智能语音助手
支持全双工自然对话、复杂指令、多轮问答、情感陪伴,替代传统机械助手。
2. 智能客服与呼叫中心
实时语音交互、抗噪、多轮理解、用户打断处理,提升接通率与满意度。
3. 车载语音交互
低延迟、视线无关、全双工交互,支持导航、空调、娱乐、电话并行控制。
4. 虚拟人/数字人/AI主播
快速定制音色,情感化语音输出,口型与韵律对齐,降低制作成本。
5. 教育与语言学习
口语对话练习、发音纠正、情感化陪伴教学、多语种交互。
6. 医疗健康与心理疏导
语音问诊、情感支持、慢病管理、无障碍语音交互。
7. 智能家居与物联网
远场语音、抗噪、全屋设备语音控制,自然对话无需唤醒词。
8. 无障碍辅助
听障/视障人士语音交互、实时语音转写、语音指令控制。

五、使用方法
1. 环境要求
Python ≥ 3.11
CUDA 11.7+
推荐GPU:≥16GB显存(单卡可运行)
2. 安装步骤
# 克隆仓库 git clone https://github.com/Tencent/Covo-Audio.git cd Covo-Audio # 创建环境 conda create -n covoaudio python=3.11 conda activate covoaudio # 安装依赖 pip install -r requirements.txt # 下载模型(HuggingFace) pip install huggingface-hub hf download tencent/Covo-Audio-Chat --local-dir ./covoaudio
3. 快速推理
修改example.sh中的模型路径与音频文件路径,执行:
bash example.sh
4. 自定义交互
在example.py中替换音频路径,支持:
单轮语音对话
多轮上下文对话
全双工交互(FD版本)
音色切换(解耦版本)
六、常见问题解答(FAQ)
Covo-Audio与传统ASR+LLM+TTS方案有什么区别?
Covo-Audio是端到端统一模型,不需要拆分模块,没有中间文本转换损耗,延迟更低、交互更自然、鲁棒性更强,还支持全双工与音色解耦。
Covo-Audio支持全双工对话吗?
支持,Covo-Audio-Chat-FD是原生全双工版本,可边听边说、处理打断与插话。
模型需要什么配置才能运行?
7B版本建议16GB以上显存单卡GPU,支持FP16推理,消费级显卡可运行。
可以自定义音色吗?
可以,通过智能-说话人解耦技术,只需少量TTS数据即可迁移音色,无需重训对话模型。
支持哪些语言?
主支持中文与英文,项目采用多语言预训练,可扩展其他语种。
支持实时流式交互吗?
支持,全双工版本采用流式编码器,可低延迟实时语音对话。
部署难度高吗?
不高,项目提供完整环境、依赖、推理脚本,开箱即用,适合二次开发与产业落地。
模型有商用限制吗?
遵循开源协议,具体可查看仓库LICENSE文件,支持研究与商用。
如何处理背景噪音?
模型基于Whisper编码器,具备强抗噪能力,适配远场、车载、家居等噪声场景。
Covo-Audio-Chat和Covo-Audio-Chat-FD怎么选?
普通多轮对话用Chat版本;需要实时全双工、自然对话、车载/客服等场景用FD版本。
七、相关链接
GitHub开源仓库:https://github.com/Tencent/Covo-Audio
HuggingFace模型:https://huggingface.co/tencent/Covo-Audio-Chat
腾讯AI Lab官网:https://ai.tencent.com
八、总结
Covo-Audio是腾讯AI Lab面向产业语音交互需求开源的7B参数端到端音频语言模型,以统一架构替代传统拼接方案,实现了从音频输入到音频输出的全链路建模,凭借层级三模态融合、智能-说话人解耦、原生全双工交互三大核心创新,在口语对话、语音理解、音频理解、情感共情、实时交互等维度达到同规模模型领先水平,具备低延迟、高鲁棒、易部署、可定制音色等工程优势,可广泛落地于智能助手、客服、车载、虚拟人、教育、医疗、智能家居等场景,为开发者与企业提供了轻量化、高自然度、可直接商用的语音交互开源基座。
版权及免责申明:本文由@dotaai原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/covo-audio.html

