MMAE：开源大规模多任务音频编辑评测基准，自动化量化AI音频模型综合性能

原创发布日期：2026-06-20

一、MMAE是什么

MMAE 全称 MASSIVE MULTITASK AUDIO EDITING BENCHMARK，中文译为大规模多任务音频编辑评测基准，是全球首个面向通用指令式AI音频编辑的完整标准化评测开源项目。项目核心包含2000条人工+AI协同筛选的高保真音频样本，独创细则式打分体系，搭配基于Qwen3-Omni全模态大模型的自动化评测工具链，可实现无人工干预、细粒度批量评测音频生成/编辑模型。

该项目2026年5月开源初始化，配套完整数据集、元数据、自动化打分流水线、评估脚本，专门用于量化各类AI音频编辑模型的综合能力，解决行业缺少统一、多维度、真实场景音频编辑测试标准的痛点。

二、功能特色

全场景多模态覆盖
覆盖7大类音频模态：纯音效、单人语音、多人对话、纯音乐、人声伴奏混合、环境音混合、复杂多层混音，完全贴合短视频、播客、影视配乐、录音修复等真实生产场景。
多层级任务难度分类
搭建6级任务复杂度体系：简单单步修改、多元素微调、多条件约束编辑、多段音频联动、多轮迭代编辑、复杂逻辑推理编辑；同时划分2档编辑粒度（粗粒度全局修改、细粒度局部片段修改），8类基础编辑操作，全面覆盖AI音频编辑全部需求。
首创细粒度量化打分体系
摒弃传统主观打分，将所有自由文本编辑指令拆解为17741条可核验客观标准，从指令遵循率、上下文一致性、精确匹配率三大维度量化模型表现，结果可复现、可横向对比。
端到端自动化评测流水线
内置完整Python评估代码，依托vLLM部署Qwen3-Omni作为判分模型，支持批量并行打分、失败重试、超时保护，无需人工听辨即可输出标准化统计报告。
标准化统一输出指标
自动生成三类结构化结果文件，支持单样本明细、分维度聚合、按模态/难度/操作分类统计，方便科研人员快速绘制实验对比图表。
开源轻量化部署
采用MIT开源协议，代码以Python（92.9%）为主、配套Shell启动脚本，依赖清单清晰，硬件门槛可控，支持单机多卡分布式推理打分。

三、技术细节

3.1 数据集构建技术流程

采用五阶段标准化数据生产流水线，保障样本多样性与音质精度：

需求头脑风暴：梳理全行业音频编辑真实指令场景；
分类体系搭建：确定模态、难度、粒度、操作四维分类框架；
指令导向数据采集：采集原生高保真音频素材，搭配自然语言编辑指令；
细则标注：人工拆解每条指令对应的核验标准，形成17741条客观评判规则；
多轮质检：人工复核+AI初筛双重校验，剔除低音质、歧义指令样本，最终保留2000条标准样本。

3.2 自动化评测底层技术

判分模型底座：Qwen3-Omni
依托阿里开源全模态大模型，具备音频深度理解、文本指令解析、跨模态对比能力，可同步读取原始音频、模型输出音频、编辑指令完成逐条标准打分；支持张量并行多卡部署，项目提供一键启动脚本launch_qwen3_omni.sh，8卡环境可启动2个推理服务实例（单实例4卡张量并行），端口8001、8002对外提供API服务。
数据交互规范
统一采用ChatML对话JSON格式存储测试样本与模型推理结果，对话结构包含用户文本指令、原始音频路径、模型输出音频路径，支持绝对/相对音频路径自动解析，兼容绝大多数开源音频模型输出格式。
打分引擎核心参数
并发打分、重试次数、最大请求尝试、单次请求超时均可自定义；默认每条评判标准采集3轮模型打分结果，降低单一模型主观偏差，保证评测稳定性。
结果文件存储结构

results.jsonl：单条细则原始打分日志，含3轮模型输出、选择分值、失败记录；
per_sample.json：单样本聚合三大核心指标（IFR指令遵循率、CR一致性保留率、EMR精确匹配率）；
taxonomy.json：按模态、难度、操作类型分组汇总得分，用于分维度性能分析。

3.3 仓库工程结构

assets：项目文档、素材、示例资源；
eval：完整自动化评测Python代码、启动脚本；
MMAE-meta.json：2000条测试样本全局元数据；
requirements.txt：项目运行依赖库清单；
README.md：完整部署、评测教程；
LICENSE：MIT开源协议文件。

MMAE：开源大规模多任务音频编辑评测基准，自动化量化AI音频模型综合性能

四、应用场景

AI音频模型研发评测
音频编辑大模型、语音分离模型、音乐生成模型、音效修复模型研发阶段，统一基准横向对比不同版本模型性能，精准定位模型短板（如多混音编辑、复杂指令执行缺陷）。
学术论文实验基准
音频生成、多模态音频大模型相关顶会论文标准化测试集，统一实验环境与指标，保证不同论文结果具备公平对比性。
企业AI音频产品验收
短视频AI剪辑、智能配音、播客自动处理、影视音频后期工具厂商，用于产品迭代自动化灰度测试，替代人工听辨，大幅降低测评人力成本。
高校/科研机构教学实验
音频信号处理、多模态大模型课程配套数据集，用于学生训练、复现音频编辑相关实验。
开源模型公平榜单搭建
行业第三方测评平台统一测试基准，客观输出各类音频AI模型综合排名，为开发者选型提供参考。

五、完整使用方法

步骤1：环境准备与代码拉取

克隆MMAE项目仓库

git clone https://github.com/ddlBoJack/MMAE.git
cd MMAE
pip install -r requirements.txt

部署判分模型Qwen3-Omni
克隆千问官方仓库，使用项目内置Shell脚本启动多卡推理服务：

git clone https://github.com/QwenLM/Qwen3-Omni.git
# 修改launch_qwen3_omni.sh内MODEL_DIR为本地模型权重路径
bash launch_qwen3_omni.sh

脚本自动启动2个vLLM推理实例，服务地址：http://localhost:8001/v1、http://localhost:8002/v1。

步骤2：准备待评测模型推理结果

运行自研音频编辑模型，在MMAE基准样本上推理输出音频，按照标准ChatML格式构造predictions.json文件，示例结构：

[
 {
 "id": "样本唯一ID",
 "messages": [
 {"role": "user","content": [{"type":"text","text":"编辑指令"},{"type":"audio","audio_url":"原始音频路径"}]},
 {"role": "assistant","content": [{"type":"audio","audio_url":"模型输出音频路径"}]}
 ]
 }
]

步骤3：执行自动化打分脚本

python -m eval.score \
 --predictions path/to/predictions.json \
 --base_urls "http://localhost:8001/v1,http://localhost:8002/v1" \
 --audio_root 音频文件根目录 \
 --output_dir outputs/模型名称 \
 --concurrency 8

执行完成后，output_dir目录自动生成三类标准化结果文件，可直接用于数据分析。

六、竞品对比

选取当前音频编辑领域主流评测基准REALEDIT、MMAU、MMAE进行多维度对比：

对比维度	MMAE	REALEDIT	MMAU
项目定位	通用多任务音频编辑全场景评测基准	单一语音编辑专用数据集	通用音频理解基础任务基准
样本总量	2000条高保真全类型音频	310条纯语音样本	千级混合音频理解样本
覆盖音频模态	7类（语音/音乐/音效/混合音全覆盖）	仅单人朗读语音	语音、环境音效，无复杂混音、音乐编辑任务
任务分层体系	6级难度+2档粒度+8类编辑操作	仅基础增删改替换语音操作	无编辑任务，仅音频分类、识别、描述
打分方式	17741条客观细则自动化打分（Qwen3-Omni判分）	人工主观听辨打分	传统客观指标（WER、分类准确率）
自动化评测流水线	内置完整开箱即用打分代码	无配套自动化评估工具	仅基础识别评估脚本，不支持编辑效果测评
适用场景	AI音频编辑、混音、音乐生成、录音修复模型	语音替换、短句语音编辑模型	音频识别、音频分类基础大模型
开源配套资源	数据集、元数据、评估脚本、部署教程	仅数据集样本	数据集+简单识别评测代码

七、常见问题解答（FAQ）

Q1：MMAE只能评测音乐编辑模型吗？

A1：不可以，MMAE覆盖7大类音频模态，包含纯语音、多人对话、环境音效、多层混音、音乐等全类型音频素材，既能评测语音修复、语音替换模型，也能测试音乐分离、混音调整、音效增减类音频编辑模型，是通用型评测基准。

Q2：运行MMAE评测必须8张GPU吗？

A2：不是硬性要求。项目提供的启动脚本默认配置8卡分布式部署以提升打分速度，若硬件资源不足，可修改launch_qwen3_omni.sh脚本，调整tensor-parallel参数，使用4卡、2卡甚至单卡部署Qwen3-Omni，仅并行打分速度会下降，不影响评测结果准确性。

Q3：MMAE的打分模型能否替换成其他大模型？

A3：理论上支持替换，但官方仅适配Qwen3-Omni作为标准判分模型。更换其他多模态模型需要自行修改eval打分逻辑，适配新模型的音频输入、多轮对比输出格式，且不同模型评判标准存在偏差，跨模型评测结果无法横向对比，不建议随意替换。

Q4：MMAE数据集音频文件在哪里下载？

A4：项目README提供HuggingFace音频下载入口，打开对应链接即可批量获取全部2000条基准音频素材，配套MMAE-meta.json元数据文件一一对应样本ID、指令、分类标签。

Q5：执行打分脚本出现请求超时报错如何解决？

A5：有三种处理方案：①调大命令行--timeout参数数值（默认300秒）；②降低--concurrency并发参数，减少同时请求判分模型的样本数量；③检查vLLM推理服务是否正常运行，确认base_url地址端口无误。

Q6：EMR精确匹配率指标数值普遍偏低代表什么？

A6：EMR是最严苛指标，要求样本全部细则标准全部达标才算满分，现有主流SOTA音频编辑模型EMR普遍不足5%，说明当前AI音频模型难以完美执行复杂多约束编辑指令，存在细节修改遗漏、无关音频内容破坏等普遍缺陷，MMAE可精准暴露这类模型短板。

Q7：MMAE是否支持Windows系统本地运行？

A7：项目原生适配Linux系统，Windows可通过WSL2子系统部署vLLM与Python环境，纯Windows原生环境存在GPU推理兼容性问题，官方推荐Ubuntu 20.04/22.04系统。

八、相关链接

GitHub开源仓库：https://github.com/ddlBoJack/MMAE
arXiv论文链接：https://arxiv.org/pdf/2606.07229

九、总结

MMAE是业内首个覆盖全模态、多难度层级、多操作类型的标准化指令式音频编辑评测开源基准，通过2000条高保真真实音频样本与上万条客观评判细则搭建公平可复现的评估体系，配套基于Qwen3-Omni的完整自动化打分流水线，填补了通用AI音频编辑领域缺少统一测试工具的行业空白，完整开源的数据集、元数据与评估代码能够为音频模型研发、学术实验、企业产品验收提供标准化、轻量化、可批量执行的性能测试方案，清晰量化模型在指令跟随、音频内容保留、复杂编辑精准度三大核心维度的真实能力。