AudioFly：科大讯飞开源的高性能文本到音频生成模型

原创发布日期：2025-09-27

一、AudioFly是什么

AudioFly是由科大讯飞开源的文本驱动音频生成模型，基于Latent Diffusion Model架构构建，具备10亿参数规模。该模型可依据文本描述合成采样率为44.1kHz的高质量音效，在单事件与多事件场景中均能实现生成音频与文本提示的精准对齐。其训练数据涵盖AudioSet、AudioCaps、TUT等开源数据集及专有内部数据，在AudioCaps数据集评估中，FD、KL、CLAP三项核心指标表现优于AudioLDM2-48kHz、Stable Audio系列等主流基线模型。

不同于传统音频生成工具依赖预设素材拼接或简单参数调整，AudioFly基于先进的扩散模型技术，能够理解文本中的场景、物体、动作等关键信息，生成与描述高度匹配的原创音频。

从技术属性来看，AudioFly属于生成式AI领域的音频生成范畴，依托10亿参数规模与多样化训练数据，实现了“文本输入→语义理解→音频生成”的端到端流程。其最显著的特点是高保真音质与强文本对齐性：采样率达到44.1kHz（符合CD级音质标准），可满足专业音频场景需求；同时，无论是单事件描述（如“雨滴落在玻璃窗上”）还是多事件组合描述（如“海浪拍打礁石，伴随海鸥鸣叫与风声”），生成的音频都能准确还原文本中的元素与场景氛围。

二、功能特色

AudioFly的功能特色围绕“高质量、高对齐、高适配”三大核心展开，具体可通过以下维度详细说明：

特色类别	具体表现	优势说明
高保真音质输出	支持44.1kHz采样率生成	采样率是衡量音频质量的核心指标之一，44.1kHz为行业主流的高保真标准（如CD、专业音频设备常用该采样率），生成的音频无明显失真、噪音低，可直接用于影视、游戏、播客等专业场景
强文本-音频对齐	单事件/多事件场景精准匹配	针对“单一音效描述”（如“钢琴弹奏C大调”）和“复杂场景描述”（如“森林中鸟鸣、树叶沙沙作响、小溪流水”），均能准确识别文本中的关键元素，生成逻辑连贯、元素完整的音频，避免“文本描述与音频脱节”的问题
优异的评估性能	在AudioCaps数据集上全面领先基线模型	对比AudioLDM2-48kHz、Stable Audio系列等主流音频生成模型，AudioFly在FD（频率失真，数值越低越好）、KL（KL散度，数值越低越好）、CLAP（文本-音频匹配度，数值越高越好）三项核心指标上表现更优，证明其技术成熟度与可靠性
灵活的开源授权	基于Apache 2.0协议开源	支持商业使用（如集成到企业级音频生成产品）、二次开发（如针对特定场景优化模型参数）、免费分发（如分享修改后的模型版本），无商业授权门槛，降低开发者使用成本
简洁的使用流程	提供完整配置文件与Quickstart示例	无需复杂的环境配置步骤，通过“安装依赖→加载配置→加载模型→输入文本→生成音频”的简单流程即可完成音频生成，即使是非专业AI开发者也能快速上手

三、技术细节

1. 模型架构

AudioFly采用Latent Diffusion Model（潜在扩散模型，LDM）架构，这是当前生成式AI领域主流的高质量生成架构之一，其核心优势是通过“在潜在空间而非原始像素/音频空间进行扩散过程”，大幅降低计算成本的同时保证生成质量。

具体来说，LDM架构的工作流程分为三步：

编码阶段：通过编码器将原始音频数据压缩到低维度的潜在空间，减少数据维度与冗余信息；
扩散阶段：在潜在空间中，模型通过逐步“去噪”过程，从随机噪声中学习文本提示对应的潜在特征，实现“噪声→潜在特征”的转化；
解码阶段：通过解码器将学习到的潜在特征还原为高维度的原始音频数据，最终输出与文本匹配的44.1kHz采样率音频。

此外，AudioFly的模型参数规模达到10亿，庞大的参数体量为模型学习“文本语义与音频特征的复杂映射关系”提供了基础，使其能够处理更精细的文本描述（如“低沉的雷声伴随远处的闪电噼啪声”），生成更丰富的音频细节。

2. 训练数据

模型的训练数据是决定音频生成质量的关键因素之一，AudioFly的训练语料库具有“规模大、多样性高”的特点，具体包含两类数据：

开源数据集：涵盖AudioSet、AudioCaps、TUT三大主流音频数据集，这些数据集包含大量标注清晰的音频样本与对应文本描述，为模型提供基础的“文本-音频”配对学习数据：

AudioSet：由Google发布的大型音频事件数据集，包含超过200万条音频片段，涵盖“动物叫声”“乐器声音”“环境音效”等527类音频事件；
AudioCaps：专门用于文本-音频生成任务的数据集，包含约4.5万条音频样本与对应的自然语言描述，是评估文本-音频生成模型的标准数据集之一；
TUT：由芬兰坦佩雷理工大学发布的环境音频数据集，包含“城市环境”“自然环境”“室内环境”等场景的高质量音频样本，丰富模型对不同场景音效的学习。

专有内部数据：科大讯飞积累的专属音频数据，这类数据在“行业特定场景”（如“智能设备交互音效”“影视后期特效音效”）上具有更强的针对性，能够补充开源数据集的不足，进一步提升模型在实际应用场景中的适配性。

3. 评估性能（基于AudioCaps数据集）

为验证模型性能，AudioFly在AudioCaps数据集上与主流基线模型进行对比测试，评估过程严格遵循STABLE AUDIO OPEN的评估方法，确保结果的一致性与可比性。评估核心指标包括FD、KL、CLAP，具体数据如下表所示：

模型名称（Model）	FD（频率失真，↓）	KL（KL散度，↓）	CLAP（文本-音频匹配度，↑）
AudioLDM2-48kHz	101.11	2.04	0.37
AudioGen-medium	186.53	1.42	0.45
Stable Audio 1.0	103.66	2.89	0.24
Stable Audio 2.0	110.62	2.70	0.23
Stable Audio Open	78.24	2.14	0.29
AudioFly	40.1	1.35	0.45

对指标的解读与AudioFly的优势分析：

FD（频率失真）：衡量生成音频与真实音频在频率分布上的差异，数值越低表示频率失真越小、音质越接近真实。AudioFly的FD值为40.1，仅为AudioLDM2-48kHz的39.6%、Stable Audio Open的51.2%，是所有对比模型中最低的，说明其生成音频的频率分布更接近真实场景，音质更保真；
KL（KL散度）：衡量生成音频分布与真实音频分布的差异，数值越低表示模型生成的音频分布越接近真实数据分布。AudioFly的KL值为1.35，略低于表现次优的AudioGen-medium（1.42），远低于Stable Audio系列（2.30-2.89），证明其对真实音频分布的学习更充分；
CLAP（文本-音频匹配度）：衡量生成音频与文本提示的语义匹配程度，数值越高表示对齐性越强。AudioFly的CLAP值为0.45，与AudioGen-medium持平，且是Stable Audio 2.0（0.23）的1.96倍、Stable Audio Open（0.29）的1.55倍，说明其在“理解文本语义并转化为对应音频”的能力上处于行业领先水平。

AudioFly：科大讯飞开源的高性能文本到音频生成模型

四、应用场景

基于“文本驱动、高质量、高对齐”的核心能力，AudioFly可广泛应用于多个领域，具体场景及应用方式如下：

1. 影视与视频制作

场景需求：影视、短视频、纪录片等内容制作中，常需要为画面匹配“场景音效”（如“古代战场的马蹄声、兵器碰撞声”）或“氛围音效”（如“悬疑场景的低沉背景音乐、心跳声”），传统方式需从音效库中筛选、剪辑，耗时且难以精准匹配画面情节；
AudioFly应用方式：制作人员仅需输入文本描述（如“深夜空无一人的走廊，脚步声缓慢回响，伴随灯泡闪烁的电流声”），模型即可生成专属音效，无需手动剪辑，且音效与画面情节、氛围高度匹配，提升制作效率与内容质感。

2. 游戏开发

场景需求：游戏场景中需要大量“交互音效”（如“角色拾取道具的声音、开门的吱呀声”）、“环境音效”（如“雪山场景的风声、洞穴中的滴水声”），不同游戏场景、角色动作需对应不同音效，传统开发需大量定制化制作，成本较高；
AudioFly应用方式：游戏开发者可根据“场景类型+交互动作”编写文本描述（如“角色踩在雪地中，脚步声伴随积雪挤压的咯吱声”），通过模型批量生成不同场景、动作的音效，降低定制化制作成本，同时支持快速迭代（如调整文本描述即可生成新音效）。

3. 智能助手与物联网设备

场景需求：智能音箱、智能家居控制面板等设备需要“交互反馈音效”（如“指令接收成功的提示音、设备故障的报警音”），这类音效需简洁、清晰且具有辨识度，以提升用户交互体验；
AudioFly应用方式：设备开发者可输入文本描述（如“轻快的叮咚声，节奏短促，用于提示指令已接收”），生成符合设备定位与用户习惯的交互音效，无需依赖第三方音效库，同时支持根据不同品牌风格定制音效（如“儿童智能设备的卡通风格提示音”）。

4. 教育培训与内容创作

场景需求：在线课程、有声书、儿童故事等内容中，需要“场景还原音效”（如“历史课程中古代集市的喧闹声、科学实验的试管碰撞声”），以增强内容的趣味性与沉浸感；
AudioFly应用方式：内容创作者输入文本描述（如“热带雨林中，猴子的叫声、昆虫的鸣叫声、树叶摩擦的沙沙声”），生成沉浸式场景音效，搭配讲解或故事内容，提升受众的理解与参与度。

5. 科研与学术研究

场景需求：音频生成、自然语言处理（文本语义理解）、扩散模型等领域的科研工作中，需要开源、高性能的模型作为研究基础，用于对比实验、算法优化等；
AudioFly应用方式：科研人员可基于AudioFly的开源代码与模型参数，开展“文本-音频对齐算法优化”“扩散模型效率提升”等研究，同时可利用其评估数据（如AudioCaps数据集上的指标）作为对比基准，验证新算法的有效性。

五、使用方法

AudioFly基于PyTorch框架开发，用户需按照“环境搭建→模型加载→文本输入→音频生成”的流程操作，具体步骤如下：

1. 前置条件

硬件要求：由于模型参数规模为10亿，且生成过程涉及扩散计算，建议使用配备NVIDIA GPU（显存≥16GB）的设备，以保证模型加载与生成速度；若使用CPU，可能出现加载缓慢、生成耗时过长的问题。
软件要求：已安装Python 3.8-3.10版本（建议3.9版本，兼容性最佳）、PyTorch 1.12.0及以上版本（需支持CUDA，以启用GPU加速）、yaml（用于读取配置文件）等基础依赖库。

2. 环境搭建（步骤详解）

步骤1：下载项目代码与配置文件

首先从ModelScope平台（https://modelscope.cn/models/iflytek/AudioFly）下载AudioFly的项目压缩包，解压后得到项目根目录（假设路径为`/path/to/AudioFly`），目录中包含`config`（配置文件目录）、`models`（模型权重目录）、`ldm`（模型核心代码目录）等关键文件夹。

步骤2：安装依赖库

打开终端，进入项目根目录，执行以下命令安装依赖库（依赖列表已包含在requirements.txt文件中，无需手动安装单个库）：

cd /path/to/AudioFly
pip install -r requirements.txt

注意：若安装过程中出现“PyTorch CUDA版本不匹配”的错误，需根据GPU型号重新安装对应CUDA版本的PyTorch（如pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118）。

步骤3：配置PYTHONPATH环境变量

为确保Python能正确识别项目中的自定义模块（如ldm.utils.util），需将项目根目录添加到PYTHONPATH环境变量中，执行以下命令：

# Linux/Mac系统
export PYTHONPATH=/path/to/AudioFly:$PYTHONPATH

# Windows系统（cmd命令行）
set PYTHONPATH=C:\path\to\AudioFly;%PYTHONPATH%

# Windows系统（PowerShell）
$env:PYTHONPATH="C:\path\to\AudioFly;$env:PYTHONPATH"

3. 快速生成音频（Quickstart）

完成环境搭建后，可通过以下Python代码快速生成音频，代码已包含关键参数说明，无需额外修改核心配置：

# 1. 导入必要的库与模块
import yaml
import torch
from ldm.utils.util import instantiate_from_config

# 2. 加载模型配置文件
# 配置文件（config.yaml）包含模型架构、训练参数等信息，无需手动修改
configs = yaml.load(open('./config/config.yaml', "r"), Loader=yaml.FullLoader)

# 3. 初始化模型
model = instantiate_from_config(configs["model"])

# 4. 加载模型权重（.ckpt文件为预训练权重，需确保路径正确）
checkpoint = torch.load('./models/ldm/model.ckpt')
model.load_state_dict(checkpoint, strict=False) # strict=False避免权重加载时的轻微不匹配报错

# 5. 设置模型为评估模式（关闭训练时的随机化操作，如Dropout）
model.eval()

# 6. 启用GPU加速（若没有GPU，可删除该行，使用CPU运行）
model = model.cuda()

# 7. 定义输入文本与输出配置
text = 'Fierce winds howl through the valley' # 文本描述（可替换为任意场景描述）
name = 'result' # 生成音频文件的基础名称
savedir = './result' # 音频文件的保存目录（若目录不存在，模型会自动创建）

# 8. 生成音频
# 关键参数说明：
# - cfg=3.5：引导尺度，控制音频与文本的匹配程度，不建议修改（值过小会导致匹配度低，值过大可能导致音频失真）
# - ddim_steps=200：扩散过程的去噪步数，不建议修改（步数过少会导致音频质量低，步数过多会增加生成时间）
model.generate_sample(
  textlist=[text], # 文本列表，支持同时输入多个文本（批量生成）
  name=name,
  cfg=3.5,
  ddim_steps=200,
  outputdir=f"{savedir}"
)

4. 结果查看

运行代码后，模型会在./result目录下生成音频文件（格式为WAV，默认采样率44.1kHz），文件名称为result_0.wav（若批量生成多个文本，文件名称会依次为result_0.wav、result_1.wav等）。用户可通过音频播放器（如Windows Media Player、VLC）打开文件，查看生成音频的质量与文本匹配度。

六、常见问题解答（FAQ）

1. 运行代码时提示“ModuleNotFoundError: No module named 'ldm'”，如何解决？

原因：未正确配置PYTHONPATH环境变量，导致Python无法找到项目中的ldm模块。
解决方案：重新执行“环境搭建”中的步骤3，确保PYTHONPATH包含项目根目录（如/path/to/AudioFly）。若使用Windows系统，需注意路径分隔符为\（需转义为\\）；若使用IDE（如PyCharm），可在“项目设置→Python解释器→环境变量”中手动添加PYTHONPATH，避免终端命令失效的问题。

2. 加载模型时提示“CUDA out of memory”（CUDA内存不足），如何解决？

原因：GPU显存不足以加载10亿参数的模型（默认情况下，模型加载需约12-16GB显存）。
解决方案：

方案1：使用显存更大的GPU（如RTX 3090、RTX 4090等，显存≥24GB）；
方案2：启用模型的“半精度加载”，修改模型加载代码，在model = model.cuda()前添加model = model.half()，减少显存占用（需注意：半精度加载可能轻微降低音频质量，但影响较小）；
方案3：使用CPU运行（删除model = model.cuda()代码），但生成时间会显著增加（如单个音频生成可能需要10-20分钟，具体取决于CPU性能）。

3. 生成的音频与文本描述匹配度低（如输入“鸟鸣声”，生成的是“风声”），如何调整？

原因：引导尺度（cfg参数）过小，导致模型生成时对文本的依赖度降低，随机性增加。
解决方案：在model.generate_sample()函数中适当提高cfg参数值（如从3.5调整为4.0-5.0），但需注意：cfg值过大可能导致音频出现“杂音”或“失真”，建议逐步调整并测试效果，找到“匹配度”与“音质”的平衡值。

4. 能否生成超过30秒的长音频？当前代码生成的音频时长较短。

原因：默认配置下，模型的扩散步数（ddim_steps=200）与潜在空间维度限制了音频时长，主要针对“短音效”（如5-10秒）生成优化。
解决方案：目前官方未提供长音频生成的直接配置，若需生成更长音频，可尝试：

批量生成多个短音频片段，通过音频编辑工具（如Audacity）拼接；
修改模型配置文件（./config/config.yaml）中的“音频长度参数”（需具备一定的扩散模型知识，避免修改后导致模型报错）。建议关注ModelScope项目页面，后续若有长音频生成功能更新，官方会同步更新配置文件。

七、相关链接

项目主页：https://modelscope.cn/models/iflytek/AudioFly

八、总结

AudioFly是科大讯飞开源的一款高性能文本到音频生成模型，基于Latent Diffusion Model架构构建，具备10亿参数规模，可生成44.1kHz采样率的高质量音效，在单事件与多事件场景中均能实现音频与文本的精准对齐；其训练数据涵盖AudioSet、AudioCaps、TUT等开源数据集及专有内部数据，在AudioCaps数据集评估中，FD、KL、CLAP三项核心指标表现优于AudioLDM2-48kHz、Stable Audio系列等主流基线模型，技术成熟度与可靠性处于行业领先水平。该模型采用Apache 2.0许可协议，支持商用与二次开发，用户可通过PyTorch环境及提供的配置文件快速搭建运行环境，适用于影视音效制作、游戏音频开发、智能助手交互、教育培训等多个领域；同时，官方提供了完整的使用文档与讨论区，可帮助用户解决环境配置、模型使用中的常见问题，为音频生成相关需求提供了低门槛、高性价比的开源解决方案。

文字生成音频 AI模型开源项目

打赏

版权及免责申明：本文由@人工智能研究所原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/audiofly.html

THE END

人工智能研究所

发现AI神器，探索AI技术！

+ 关注

AudioFly：科大讯飞开源的高性能文本到音频生成模型

文章目录

一、AudioFly是什么

二、功能特色

三、技术细节

1. 模型架构

2. 训练数据

3. 评估性能（基于AudioCaps数据集）

四、应用场景

1. 影视与视频制作

2. 游戏开发

3. 智能助手与物联网设备

4. 教育培训与内容创作

5. 科研与学术研究

五、使用方法

1. 前置条件

2. 环境搭建（步骤详解）

步骤1：下载项目代码与配置文件

步骤2：安装依赖库

步骤3：配置PYTHONPATH环境变量

3. 快速生成音频（Quickstart）

4. 结果查看

六、常见问题解答（FAQ）

七、相关链接

八、总结

相关文章