AudioX-Turbo：开源统一多模态音频生成框架，4 步极速文生音乐与视频配乐 AI 工具

原创发布日期：2026-06-26

一、AudioX-Turbo是什么

AudioX-Turbo是由香港科技大学、NoizAI联合开源的统一高效全模态音频生成框架（Anything-to-Audio），基于师生蒸馏扩散架构打造，一套模型兼容文本、视频双模态输入，可生成音效、背景音乐两大类音频内容。

项目依托前置基础模型AudioX-Base（教师模型）做分布匹配蒸馏，将传统扩散模型数十至上百步采样压缩至仅4步，推理算力消耗降低约25倍；配套自建920万样本高质量多模态数据集IF-caps-Pro，在文生音频、视频配乐任务上综合性能超越同期主流开源音频模型，同时提供完整训练、推理、可视化Demo全套开源代码，模型权重托管于Hugging Face，开源协议为CC-BY-NC 4.0，内置水印，仅允许非商业学术、个人创作使用。

二、核心功能特色

全模态统一生成，6类任务一套模型
无需切换模型，仅通过置空输入参数即可切换任务，覆盖文生音效(T2A)、文生音乐(T2M)、视频生成音效(V2A)、视频生成配乐(V2M)、文本+视频联合音效(TV2A)、文本+视频联合配乐(TV2M)六大场景，支持图文视听联合控制音频风格、乐器、场景氛围。
4步极速推理，算力消耗大幅降低
传统音频扩散模型普遍需要50~200次采样迭代，AudioX-Turbo经蒸馏优化后仅4步即可完成生成，单卡RTX4090生成10秒音频仅需0.24秒，函数评估次数(NFE)相比基线减少25倍，兼顾音质与实时生成能力。
高保真多模态特征对齐
内置Multimodal Adaptive Fusion多模态自适应融合模块，搭配Synchformer视频同步特征提取器，保证视频画面时序与生成音频精准同步，解决普通模型音画脱节、音乐节奏不匹配画面的痛点。
开箱即用双部署方案
提供Gradio可视化网页Demo与Python原生API两套推理方案，新手可一键启动网页交互，开发者可接入代码实现二次开发；同时完整开放训练蒸馏脚本，支持自定义数据集微调模型。
完整配套工程化工具链
内置FFmpeg音视频封装工具，生成音频后可自动将音轨合并回原视频输出带音效/配乐的MP4；自动缓存CLIP、T5文本视觉编码器，支持离线推理模式。
大规模训练数据集支撑
自建IF-caps-Pro数据集，总计920万条图文音视频配对样本，经过两阶段采集、清洗、标注流程，大幅提升模型指令跟随能力，对复杂场景、乐器、情绪描述理解精度更高。

三、技术细节

3.1 整体师生蒸馏架构

整体分为教师模型AudioX-Base与学生模型AudioX-Turbo（推理主模型）两层：

教师模型AudioX-Base
骨干为Multimodal Diffusion Transformer（MMDiT多模态扩散Transformer），搭载多模态自适应融合模块，统一对齐文本(T5-base)、图像/视频(CLIP)、音频三类异构特征，负责输出高保真音频作为蒸馏标准，是模型音质基准。
学生模型AudioX-Turbo
采用适配流匹配的分布匹配蒸馏(DMD) 算法完成知识迁移，额外叠加扩散判别器做对抗监督，强制4步少采样输出逼近教师模型百步采样效果；通过流匹配损失优化采样路径，消除少步生成带来的音质模糊、细节丢失问题。

3.2 核心辅助组件

VAE音频潜空间编码器：将原始波形压缩至低维潜空间，降低扩散计算量，提升生成稳定性；
Synchformer视频同步编码器：提取视频时序视觉特征，实现画面动作、镜头切换与音频节奏精准同步；
文本/视觉预编码器：自动加载OpenAI CLIP-vit-base-patch32、T5-base，负责文本提示词、视频画面语义编码。

3.3 训练与推理底层配置

训练策略：默认采用DeepSpeed多卡分布式训练，支持单卡调试、双GPU并行蒸馏；内置环境变量可自定义批次大小、迭代步数、对抗训练权重；
推理逻辑：固定4步采样，无分类器自由引导，原生支持10秒固定时长音频输出，可通过代码自定义音频时长；
数据管线：内置小样例数据集train_manifest_10.jsonl，下载仓库后无需额外数据即可调试训练流程。

3.4 硬件与软件依赖

系统环境：Python 3.8.20，CUDA 12.1；训练推荐A100/H800，推理最低支持RTX4090/3090；
媒体依赖：FFmpeg、libsndfile，DeepSpeed完整训练需本地CUDA Toolkit；
权重文件：分为推理权重（学生模型、VAE、Synchformer）、训练专用教师权重两类，支持huggingface-cli、wget两种下载方式。

AudioX-Turbo：开源统一多模态音频生成框架，4 步极速文生音乐与视频配乐 AI 工具

四、应用场景

短视频自媒体创作
短视频剪辑自动配乐、画面匹配环境音效，无需手动找版权BGM，输入视频+风格文本一键生成适配背景音乐，自动合成带音频的成片。
影视、动画、游戏音效制作
独立动画、短片、小型游戏场景音效生成，环境音、打斗音效、场景配乐快速产出，降低小型工作室音频制作成本。
多媒体教学课件制作
课程演示视频配套背景音、环境音效，课堂动画素材自动匹配音频，提升课件视听表现力。
AI内容研发二次开发
开发者可基于Python API集成到自有AI工具、剪辑软件插件，搭建私有音频生成服务；科研人员可使用蒸馏脚本做多模态音频模型相关实验。
虚拟数字人、VR场景配套音频
虚拟场景画面同步生成环境音效、背景音乐，适配实时交互VR内容低延迟音频生成需求。

五、完整使用方法

5.1 环境安装步骤

克隆项目仓库

git clone https://github.com/NoizAI/AudioX-Turbo.git
cd AudioX-Turbo

创建conda虚拟环境

conda create -n audiox-turbo python=3.8.20
conda activate audiox-turbo

安装媒体依赖与项目包

conda install -c conda-forge ffmpeg libsndfile
pip install -r requirements.txt
pip install -e . --no-deps
pip install soundfile==0.12.1

5.2 模型权重下载

两种下载方式任选其一：

Huggingface-cli一键下载（推荐）

pip install -U "huggingface_hub[cli]"
# 推理必备权重
huggingface-cli download HKUSTAudio/AudioX-Turbo audiox_turbo/audiox_turbo.ckpt pretransform/vae.ckpt synchformer/synchformer_state_dict.pth --local-dir checkpoints
# 训练额外下载教师模型
huggingface-cli download HKUSTAudio/AudioX-Turbo pretrained_ckpt/pretrained_ckpt.ckpt --local-dir checkpoints

wget命令分文件下载，对应存放至checkpoints分层目录。

5.3 可视化Gradio网页推理（新手首选）

本地启动网页服务，访问http://localhost:7860操作；添加--share参数生成公网临时链接：

# 本地网页
python run_gradio.py
# 公网分享链接
python run_gradio.py --share

网页内可上传视频、输入文字提示词，一键生成音频并下载wav、合成带音频视频。

5.4 Python API代码推理（开发者使用）

内置完整示例代码，支持自定义输入模态：文本仅生成、视频+文本联合生成，输出音频文件并自动合并音视频，核心流程包含模型加载、视频特征编码、音频条件构造、4步扩散生成、波形导出。

5.5 模型蒸馏训练

默认双GPU训练脚本，可通过环境变量自定义单卡、迭代步数、批次大小：

# 默认双卡完整训练
bash scripts/train_audiox_turbo.sh
# 单卡快速调试测试
AUDIOX_TURBO_MAX_STEPS=1 BATCH_SIZE=1 STRATEGY=auto NUM_GPUS=1 CUDA_VISIBLE_DEVICES=0 bash scripts/train_audiox_turbo.sh

AudioX-Turbo：开源统一多模态音频生成框架，4 步极速文生音乐与视频配乐 AI 工具

六、竞品对比

选取业内三款主流开源音频生成模型Stable Audio Open、Meta AudioCraft(MusicGen)、MMAudio与AudioX-Turbo横向对比，覆盖模态支持、推理速度、采样步数、视频同步、商用权限核心维度：

对比维度	AudioX-Turbo	Stable Audio Open	Meta AudioCraft(MusicGen)	MMAudio
支持输入模态	文本+视频双模态，支持联合条件	仅文本	仅文本，部分版本支持旋律参考	文本+视频
标准采样步数	4步	100步	自回归逐帧生成，数百步	20~50步流匹配
10秒音频推理速度(RTX4090)	0.24秒	3~5秒	8~12秒	1.23秒
视频音画同步能力	内置Synchformer时序同步，精准对齐画面	不支持视频输入	无视频处理模块	基础同步，无多模态融合模块
支持任务	文生音效、文生音乐、视频配乐、图文联合生成	仅文生短音效	文生音乐、旋律引导音乐	文生音效、视频音效
训练数据集规模	920万IF-caps-Pro多模态样本	48.6万纯音频样本	2万小时纯音乐音频	百万级视听配对样本
商用授权限制	CC-BY-NC 4.0，禁止商用，模型带水印	CC0/CC-BY，生成内容可商用	MIT协议，商用需规避训练版权风险	开源无明确商用限制
是否提供完整训练蒸馏代码	是，师生蒸馏全套脚本	仅推理代码，无蒸馏训练流程	仅推理、微调代码	基础训练脚本，无少步蒸馏优化

七、常见问题解答（FAQ）

Q1：AudioX-Turbo可以商用吗？

A：不可以。项目开源协议为CC-BY-NC 4.0，模型内置水印，官方明确规定仅允许学术研究、个人非商业创作，禁止用于付费服务、商业短视频生产、付费音乐制作等盈利场景。

Q2：运行模型最低需要什么显卡？

A：推理最低推荐16G显存RTX 3090/4090；完整蒸馏训练建议A100/H800 40G以上显存显卡，单卡仅能做小批量调试，大规模训练需要双GPU并行。

Q3：运行时报错缺少ffmpeg/libsndfile怎么解决？

A：执行conda安装命令conda install -c conda-forge ffmpeg libsndfile，Windows系统需额外配置FFmpeg系统环境变量，Linux/macOS conda安装后可直接识别。

Q4：模型权重下载缓慢/失败怎么办？

A：两种解决方案，一是配置HF国内镜像环境变量加速Hugging Face Hub下载；二是使用文档提供的wget直链分文件下载，手动放入checkpoints对应文件夹，首次运行会自动离线加载缓存。

Q5：仅需要文生音乐，不上传视频该如何设置？

A：Gradio页面直接不上传视频文件；Python API中将video_path=None，模型会自动忽略视频模态，仅根据文本提示词生成音乐。

Q6：生成音频时长只能是10秒吗，能否自定义？

A：默认示例代码固定10秒，修改代码中seconds_total变量数值即可自定义时长，受硬件显存限制，不建议单次生成超过30秒音频。

Q7：第一次启动代码自动下载CLIP/T5模型，能否离线运行？

A：可以。提前手动下载clip-vit-base-patch32、t5-base至checkpoints/huggingface/hub目录，启动前设置环境变量HF_HUB_OFFLINE=1，程序会跳过在线下载直接读取本地缓存。

Q8：训练脚本必须使用两张GPU吗？单卡能否训练？

A：不是必须。通过环境变量NUM_GPUS=1、STRATEGY=auto即可切换单卡训练模式，无需DeepSpeed与完整CUDA Toolkit，适合本地小数据集调试。

AudioX-Turbo：开源统一多模态音频生成框架，4 步极速文生音乐与视频配乐 AI 工具

八、相关链接

GitHub仓库地址：https://github.com/NoizAI/AudioX-Turbo
Hugging Face仓库：https://huggingface.co/HKUSTAudio/AudioX-Turbo
学术论文arXiv地址：https://arxiv.org/abs/2606.12555

九、总结

AudioX-Turbo是当前兼顾多模态通用性与推理速度的开源音频生成框架，依托师生蒸馏+对抗判别器技术突破传统扩散模型采样效率瓶颈，一套模型打通文本、视频两类主流输入模态，覆盖音效、配乐全品类音频生成需求，配套完整可落地的安装、推理、训练代码与可视化交互界面，920万自建多模态数据集大幅提升指令跟随与音画同步效果，虽受非商用协议约束，但为学术研究、个人创作者、AI开发者提供了低成本、高性能的多模态音频生成开源解决方案，在短视频配乐、影视音效、多模态AIGC研发场景具备显著技术优势。