Covo-Audio:腾讯开源7B端到端音频大模型,原生全双工对话与智能音色解耦

原创 发布日期:
60

一、Covo-Audio是什么

Covo-Audio是腾讯AI Lab研发并开源的7B参数端到端大型音频语言模型,定位为统一处理“听-说-思”的全栈语音交互基座。它打破传统语音系统“ASR+LLM+TTS”串联拼接的架构,在单一模型内完成音频输入、语义理解、逻辑推理、语音生成全流程,支持半双工对话、全双工实时交互、情感共情、音色灵活定制等能力,是面向产业级语音交互的轻量化开源方案。

该项目包含三个核心版本:

  • Covo-Audio-Base:基础预训练模型,具备通用语音-文本跨模态能力

  • Covo-Audio-Chat:对话版,面向多轮口语交互、指令遵循、情感回应

  • Covo-Audio-Chat-FD:全双工版,原生支持边听边说、打断、插话等人类自然对话行为

项目核心目标是:用中等参数规模实现高自然度、低延迟、高鲁棒性的语音交互,降低端到端语音系统的研发与部署门槛。

二、功能特色

1. 端到端统一架构,无中间文本损耗

传统语音系统需要经过“语音转文本→大模型推理→文本转语音”三次转换,每一步都存在信息丢失与延迟。Covo-Audio直接以连续音频为输入、音频为输出,语义与韵律全程保留,交互更连贯、延迟更低。

2. 原生全双工语音交互

支持人类式自然对话:

  • 边听边说,实时感知用户输入

  • 支持中途打断(Barge-in)

  • 支持插话回应(Backchanneling)

  • 智能判断说话结束与停顿

  • 低延迟、流畅自然

3. 智能-说话人解耦,低成本音色定制

模型将“对话智能”与“语音音色”分离,只需少量TTS数据即可迁移音色,无需重新训练对话模型,兼顾个性化与工程效率。

4. 层级三模态融合,兼顾语义与韵律

融合连续声学特征、离散语音令牌、自然语言文本三种模态,细粒度对齐韵律,全局保持语义逻辑,生成语音更自然、理解更准确。

5. 强情感共情能力

支持喜悦、愤怒、悲伤、恐惧、厌恶、抑郁、焦虑七类情感识别与适配回应,在中文情感对话基准上达到SOTA。

6. 高鲁棒性与多任务通用

支持口音、噪声、内容变体等复杂场景,同时覆盖语音识别、语音翻译、音频问答、口语对话、全双工交互等多任务。

7. 轻量化易部署

7B参数可在单卡GPU运行,提供完整推理脚本与环境配置,开箱即用。

三、技术细节

1. 整体架构

Covo-Audio采用音频编码器→音频适配器→LLM骨干→语音令牌器→语音解码器的统一链路:

  • 音频编码器:Whisper-large-v3,输出50Hz声学特征

  • 音频适配器:3层下采样,压缩到6.25Hz适配LLM时序

  • LLM骨干:Qwen2.5-7B-Base扩展,支持音频-文本混合序列

  • 语音令牌器:WavLM-large+VQ,码本16384,输出25Hz离散令牌

  • 语音解码器:Flow-Matching+BigVGAN,生成24kHz高保真语音

2. 层级三模态交织策略

  • 短语级交织:声学片段与词汇细粒度对齐,保证韵律自然

  • 句子级交织:全局语义连贯,避免逻辑断裂

  • 三模态统一编码:支持A2A、A2T、T2A、T2T全向转换

3. 智能-说话人解耦技术

  • 多说话人预训练,分离智能与音色

  • 伪对话数据构建,用TTS数据实现音色迁移

  • 推理阶段动态切换音色,对话能力几乎无损

4. 全双工交互实现

  • 流式音频编码器,实时分块处理

  • 用户流与模型流1:4块交织,实现边听边说

  • THINK/SHIFT/BREAK控制令牌精准管理对话状态

5. 两阶段预训练+专项后训练

  • Stage1:模态桥接,20万小时多语言ASR数据对齐音频与LLM

  • Stage2:模态融合,800万小时音频+3T文本,多任务联合训练

  • 后训练:口语对话、情感共情、语音理解、音频理解四大方向强化

6. 性能基准(同规模领先)

任务 核心指标 表现
口语对话 URO-Bench 中文/英文多轮对话领先
全双工交互 打断成功率 96.81%
情感共情 VStyle 中文愤怒/悲伤/焦虑接近满分
语音识别 Aishell-1 WER=1.07%
音频理解 MMSU 平均准确率66.64%

四、应用场景

1. 智能语音助手

支持全双工自然对话、复杂指令、多轮问答、情感陪伴,替代传统机械助手。

2. 智能客服与呼叫中心

实时语音交互、抗噪、多轮理解、用户打断处理,提升接通率与满意度。

3. 车载语音交互

低延迟、视线无关、全双工交互,支持导航、空调、娱乐、电话并行控制。

4. 虚拟人/数字人/AI主播

快速定制音色,情感化语音输出,口型与韵律对齐,降低制作成本。

5. 教育与语言学习

口语对话练习、发音纠正、情感化陪伴教学、多语种交互。

6. 医疗健康与心理疏导

语音问诊、情感支持、慢病管理、无障碍语音交互。

7. 智能家居与物联网

远场语音、抗噪、全屋设备语音控制,自然对话无需唤醒词。

8. 无障碍辅助

听障/视障人士语音交互、实时语音转写、语音指令控制。

Covo-Audio:腾讯开源7B端到端音频大模型,原生全双工对话与智能音色解耦

五、使用方法

1. 环境要求

  • Python ≥ 3.11

  • CUDA 11.7+

  • 推荐GPU:≥16GB显存(单卡可运行)

2. 安装步骤

# 克隆仓库
git clone https://github.com/Tencent/Covo-Audio.git
cd Covo-Audio

# 创建环境
conda create -n covoaudio python=3.11
conda activate covoaudio

# 安装依赖
pip install -r requirements.txt

# 下载模型(HuggingFace)
pip install huggingface-hub
hf download tencent/Covo-Audio-Chat --local-dir ./covoaudio

3. 快速推理

修改example.sh中的模型路径与音频文件路径,执行:

bash example.sh

4. 自定义交互

example.py中替换音频路径,支持:

  • 单轮语音对话

  • 多轮上下文对话

  • 全双工交互(FD版本)

  • 音色切换(解耦版本)

六、常见问题解答(FAQ)

Covo-Audio与传统ASR+LLM+TTS方案有什么区别?

Covo-Audio是端到端统一模型,不需要拆分模块,没有中间文本转换损耗,延迟更低、交互更自然、鲁棒性更强,还支持全双工与音色解耦。

Covo-Audio支持全双工对话吗?

支持,Covo-Audio-Chat-FD是原生全双工版本,可边听边说、处理打断与插话。

模型需要什么配置才能运行?

7B版本建议16GB以上显存单卡GPU,支持FP16推理,消费级显卡可运行。

可以自定义音色吗?

可以,通过智能-说话人解耦技术,只需少量TTS数据即可迁移音色,无需重训对话模型。

支持哪些语言?

主支持中文与英文,项目采用多语言预训练,可扩展其他语种。

支持实时流式交互吗?

支持,全双工版本采用流式编码器,可低延迟实时语音对话。

部署难度高吗?

不高,项目提供完整环境、依赖、推理脚本,开箱即用,适合二次开发与产业落地。

模型有商用限制吗?

遵循开源协议,具体可查看仓库LICENSE文件,支持研究与商用。

如何处理背景噪音?

模型基于Whisper编码器,具备强抗噪能力,适配远场、车载、家居等噪声场景。

Covo-Audio-Chat和Covo-Audio-Chat-FD怎么选?

普通多轮对话用Chat版本;需要实时全双工、自然对话、车载/客服等场景用FD版本。

七、相关链接

八、总结

Covo-Audio是腾讯AI Lab面向产业语音交互需求开源的7B参数端到端音频语言模型,以统一架构替代传统拼接方案,实现了从音频输入到音频输出的全链路建模,凭借层级三模态融合、智能-说话人解耦、原生全双工交互三大核心创新,在口语对话、语音理解、音频理解、情感共情、实时交互等维度达到同规模模型领先水平,具备低延迟、高鲁棒、易部署、可定制音色等工程优势,可广泛落地于智能助手、客服、车载、虚拟人、教育、医疗、智能家居等场景,为开发者与企业提供了轻量化、高自然度、可直接商用的语音交互开源基座。

打赏
THE END
作者头像
dotaai
正在和我的聊天机器人谈恋爱,它很会捧场。