LongCat-Audio-Codec：美团开源音频编解码方案，为 Speech LLM 提供超低比特率高保真令牌生成与解码

原创发布日期：2025-10-20

一、LongCat-Audio-Codec是什么？

LongCat-Audio-Codec是由美团LongCat团队开发并开源的音频处理工具，核心定位是为语音大语言模型（Speech LLM） 提供端到端的“编码-解码”支持，本质是一套“音频令牌生成与还原”系统。

它的核心工作逻辑是：将输入音频拆解为两类关键信息——语义令牌（描述音频的核心含义，如语音中的文字内容、情感倾向）和声学令牌（描述音频的物理特征，如音调、音色、节奏），两类令牌并行生成后，可用于Speech LLM的输入处理（如语音理解、语音生成任务）；后续通过解码器，又能从这两类令牌中重建出高质量音频，且整个过程能在超低比特率（比特率越低，数据传输/存储成本越低）下实现“高保真”（音频清晰度、可懂度接近原始音频）。

从开发背景来看，当前Speech LLM在处理音频时，常面临“高音质与低资源消耗”的矛盾——若保留高音质，需传输/处理大量音频数据，增加带宽与算力成本；若压缩数据（降低比特率），又会导致音质劣化。LongCat-Audio-Codec正是为解决这一矛盾而生，同时通过“低延迟”“超分辨率”等设计，进一步拓展了在实际场景中的适用性。

二、核心功能特色

LongCat-Audio-Codec的功能设计围绕“适配Speech LLM”“平衡质量与成本”“提升实际场景可用性”三个核心目标展开，具体包含四大特色：

1. 超低比特率下的高保真音频重建

这是该方案最核心的优势之一。作为音频编码器，它能在“极低比特率”（文档未明确具体数值，但通过对比演示可知远低于传统音频编码格式如MP3）下，依然实现“高可懂度”的音频重建——即便是压缩后的音频，听众仍能清晰识别语音内容、情感，且无明显杂音或失真。

这一特性的价值在于：大幅降低Speech LLM处理音频时的数据传输与存储成本。例如，在远程语音交互场景中，使用该方案编码的音频，可在5G/4G甚至物联网（IoT）的低带宽网络下快速传输，同时保证Speech LLM能准确解析语音含义，且重建后的音频质量不影响用户体验。

2. 低帧率并行提取语义与声学令牌

传统音频令牌生成工具常需较高帧率（如每秒数十帧），导致计算量较大；而LongCat-Audio-Codec以16.6Hz的低帧率（即每秒仅生成约17组令牌），并行完成“语义令牌”与“声学令牌”的提取——两类令牌同步生成，无需先后等待，既降低了计算延迟，也减少了算力消耗。

更灵活的是，它支持声学码本配置自定义：开发者可根据下游任务需求，调整声学码本的数量（如1个、3个）——码本数量越多，声学细节保留越丰富（音质越好），但比特率与计算成本也越高；反之则成本更低，适合对音质要求不高的轻量化场景（如语音指令识别）。

3. 低延迟流式解码器

针对实时语音交互场景（如智能音箱、在线会议），该方案配备了专门设计的流式解码器——与传统“需等待完整音频数据才能解码”的模式不同，它仅需“少量未来信息”（即无需等到音频结束，接收部分数据即可开始解码），就能实时输出高质量音频，延迟极低。

例如，在在线会议中，当发言人说完一句话的前半段时，解码器已能基于已接收的音频片段开始解码，听众几乎无需等待就能听到重建后的语音，避免了“说话后卡顿1-2秒才出声音”的问题，提升实时交互体验。

4. 集成音频超分辨率能力

LongCat-Audio-Codec的解码器内置音频超分辨率处理模块——即能生成“采样率高于原始输入”的音频。例如，若输入的是16kHz（常见语音采样率）的低质量音频，解码器可输出24kHz（更高清晰度，接近音乐级采样率）的音频，且音质细节（如语音中的呼吸声、背景音层次感）会显著提升。

这一特性尤其适合“旧音频优化”场景：例如，将早期录制的16kHz语音数据（如历史会议录音、旧语音文件）输入该方案，通过超分辨率处理后，可得到更高质量的音频，再用于Speech LLM的训练或推理，能提升模型对语音细节的识别精度。

为更直观展示功能特色与应用场景的对应关系，下表整理了核心功能、优势及典型用途：

核心功能	核心优势	典型应用场景
超低比特率高保真重建	降低数据传输/存储成本，保留音频核心质量	低带宽远程语音交互、IoT设备语音传输
低帧率并行令牌提取	减少计算延迟与算力消耗，支持灵活配置	Speech LLM实时输入处理、轻量化语音任务
低延迟流式解码	无需等待完整音频，实时输出重建结果	智能音箱、在线会议、实时语音翻译
音频超分辨率	提升原始音频采样率与音质细节	旧音频优化、高质量语音生成

LongCat-Audio-Codec：美团开源音频编解码方案，为 Speech LLM 提供超低比特率高保真令牌生成与解码

三、关键技术细节

要理解LongCat-Audio-Codec的实现逻辑，需从“核心组件”“技术参数”“关键技术”三个维度拆解：

1. 核心组件构成

该方案的技术架构围绕“编码-解码”两大环节展开，包含四大核心组件，各组件功能与技术亮点如下表所示：

核心组件	功能描述	技术亮点
语义编码器（Semantic Encoder）	提取音频中的语义令牌，反映语音核心含义	需配合CMVN（倒谱均值方差归一化）系数使用，提升语义提取准确性；采用Kmeans量化技术优化令牌生成效率
声学编码器（Acoustic Encoder）	提取音频中的声学令牌，反映音调、音色等特征	支持多码本配置（1-3个），可灵活平衡音质与成本
流式解码器（Streaming Detokenizer）	将语义+声学令牌重建为音频，支持实时输出	仅需少量未来信息，延迟低；适配16k/24k两种采样率
超分辨率模块（Super-Resolution Module）	提升重建音频的采样率与音质细节	集成于解码器中，无需额外调用独立工具；支持从16k提升至24k

2. 关键技术参数

技术参数决定了方案的硬件适配性与场景兼容性，核心参数如下：

令牌帧率：固定16.6Hz，每秒生成约17组令牌；
支持采样率：编码器输入支持16kHz/24kHz音频，解码器可输出对应或更高采样率（如16k输入→24k输出）；
码本配置：语义码本固定1个（核心语义不可删减），声学码本可配置1-3个（根据需求选择）；
音频长度限制：当前版本仅支持单通道音频，且输入音频长度需≤30秒（超过需手动分割为30秒内片段）；
硬件依赖：基于PyTorch框架开发，支持CPU/GPU运行（GPU需适配PyTorch的CUDA版本，CPU适合轻量化场景）。

3. 核心技术亮点

CMVN归一化：语义编码器需加载专门的CMVN系数文件（LongCatAudioCodecencodercmvn.npy），通过对音频倒谱特征进行“均值-方差归一化”，减少环境噪音、设备差异对语义提取的干扰，让语义令牌更稳定。
并行令牌生成：语义与声学编码器独立且同步运行，避免传统“先语义后声学”的串行延迟，提升整体处理速度，更适配Speech LLM的实时推理需求。
多采样率解码器设计：提供两类解码器（16k专用、24k专用），且24k解码器细分“2码本”“4码本”版本——2码本版本（1语义+1声学）适合超低比特率场景，4码本版本（1语义+3声学）适合高质量场景，覆盖不同需求。

四、典型应用场景

基于上述功能与技术特性，LongCat-Audio-Codec的应用场景主要围绕“Speech LLM生态”及“音频质量优化”展开，具体可分为四大类：

1. Speech LLM后端支持

这是该方案的核心目标场景。Speech LLM的核心任务包括“语音理解”（如将语音转为文本、识别意图）与“语音生成”（如基于文本生成语音），而LongCat-Audio-Codec可在两个环节发挥作用：

语音理解环节：将输入语音编码为“语义+声学令牌”，令牌数据量远小于原始音频，可快速输入Speech LLM，减少模型的输入处理压力；同时，声学令牌能提供语音的情感、音色信息，辅助LLM更精准理解语义（如区分“开心的‘好的’”与“不耐烦的‘好的’”）。
语音生成环节：Speech LLM生成文本或语义指令后，解码器可基于这些信息（结合声学令牌配置），快速重建出高保真语音，且支持实时流式输出（如LLM生成一句语音的指令，解码器可边接收指令边输出声音，无需等待完整指令）。

例如，在“智能客服Speech LLM”中，用户的语音通过该方案编码为令牌后，快速传输给LLM；LLM解析意图并生成回复指令，再通过解码器实时生成客服语音，整个过程延迟低、带宽消耗小，且语音质量清晰。

2. 低带宽音频传输

在网络带宽有限的场景（如偏远地区的IoT设备、低资费移动网络），传统音频格式（如MP3、WAV）传输速度慢、易卡顿，而LongCat-Audio-Codec的“超低比特率”特性可解决这一问题：

编码后的音频令牌数据量极小，能在低带宽下快速传输；
接收端通过解码器重建音频，虽比特率低，但音质仍能满足“可懂度”需求（如远程监控设备的语音传输、物联网传感器的语音报警）。

例如，农业物联网中的“语音监控设备”，可通过该方案将现场语音（如农机故障报警、人员喊话）编码后，通过低带宽网络传输至后台，后台解码后清晰识别语音内容，无需担心卡顿或音质丢失。

3. 音频质量优化与修复

针对低质量音频（如旧录音、低采样率语音文件），该方案的“超分辨率能力”可实现质量提升：

将16kHz的低质量音频输入编码器，解码器可输出24kHz的音频，采样率提升的同时，音质细节（如背景噪音过滤、语音层次感）也会优化；
对于“说话人未在训练集中”的音频（如小众方言使用者的语音），4码本版本的24k解码器（LongCatAudioCodecdecoder24k4codebooks）仍能保持较好的重建质量（2码本版本可能因训练数据限制导致质量下降）。

例如，档案馆的“历史语音档案”（多为16kHz低采样率），通过该方案处理后，可转化为24kHz的高清音频，便于长期保存与后续研究使用。

4. 批量音频令牌提取

文档中提到的“Batch Token Extraction API”支持对批量音频文件进行令牌提取，适合“大规模音频数据预处理”场景：

开发者可通过调用API，一次性对成百上千个音频文件（如语音数据集、用户语音记录）进行编码，生成语义+声学令牌；
生成的令牌可用于Speech LLM的训练数据预处理（减少训练数据量，提升训练效率），或用于音频数据库的索引建立（基于令牌快速检索相似音频）。

例如，AI公司在训练“方言Speech LLM”时，可通过该API批量处理方言语音数据集，生成令牌后用于模型训练，既减少数据存储成本，也提升训练时的数据读取速度。

LongCat-Audio-Codec：美团开源音频编解码方案，为 Speech LLM 提供超低比特率高保真令牌生成与解码

五、使用方法

LongCat-Audio-Codec的使用流程分为“环境安装→模型准备→运行演示→自定义配置”四步，文档提供了完整的脚本与参数说明，即使是非专业开发者也能快速上手。

1. 环境安装（Windows/macOS/Linux通用）

该方案基于Python与PyTorch开发，需先配置运行环境，步骤如下：

步骤1：创建conda环境

conda是Python的环境管理工具，可避免依赖版本冲突。打开终端（Windows用Anaconda Prompt，macOS/Linux用终端），执行以下命令：

# 创建名为LongCat-Audio-Codec的环境，指定Python版本为3.10（文档推荐版本）
conda create -n LongCat-Audio-Codec python=3.10
# 激活该环境（后续所有操作均需在激活状态下执行）
conda activate LongCat-Audio-Codec

步骤2：安装PyTorch与torchaudio

PyTorch是深度学习框架，torchaudio用于音频处理。文档提供的版本为示例，需根据硬件配置调整（如GPU用户需安装支持CUDA的版本）：

# 示例：安装PyTorch 2.7.1与对应torchaudio（CPU版本，适合无GPU设备）
pip install torch==2.7.1 torchaudio==2.7.1
# GPU用户需替换为CUDA版本（如CUDA 12.4，需参考PyTorch官网：https://pytorch.org/）
# pip3 install torch==2.7.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu124

步骤3：安装其他依赖

项目的依赖清单已整理在requirements.txt中，执行以下命令一键安装：

pip install -r requirements.txt

2. 模型准备（核心步骤，需下载预训练模型）

该方案需加载预训练的“编码器”“解码器”模型才能运行，模型需从Hugging Face下载，具体步骤如下：

步骤1：下载模型文件

文档提供了5类核心模型，涵盖编码器、解码器及归一化系数，下载链接与用途如下表所示：

模型名称	下载链接	用途说明
LongCatAudioCodec_encoder	Hugging Face	编码器权重，包含语义编码器与声学编码器
LongCatAudioCodecencodercmvn	Hugging Face	CMVN系数文件，语义编码器必需
LongCatAudioCodecdecoder16k4codebooks	Hugging Face	16k采样率解码器，支持1语义+3声学码本
LongCatAudioCodecdecoder24k2codebooks	Hugging Face	24k采样率解码器，支持1语义+1声学码本（仅适配部分说话人）
LongCatAudioCodecdecoder24k4codebooks	Hugging Face	24k采样率解码器，支持1语义+3声学码本（通用高音质）

注：Hugging Face链接需访问项目仓库（https://github.com/meituan-longcat/LongCat-Audio-Codec）中的“Model Preparation”部分获取，或直接搜索“meituan-longcat/LongCat-Audio-Codec”进入Hugging Face项目页面下载。

步骤2：配置模型路径

下载后的模型文件（.pt格式，CMVN为.npy格式）需放在指定路径，否则脚本无法识别，有两种配置方式：

方式1：默认路径（推荐，适合新手）

将所有下载的模型文件放入项目根目录下的ckpts文件夹中（若没有ckpts文件夹，需手动创建）。最终项目结构需严格如下（缺一不可）：

LongCat-Audio-Codec/ # 项目根目录
├── ckpts/      # 模型文件夹
│  ├── LongCatAudioCodec_decoder_16k_4codebooks.pt
│  ├── LongCatAudioCodec_decoder_24k_2codebooks.pt
│  ├── LongCatAudioCodec_decoder_24k_4codebooks.pt
│  ├── LongCatAudioCodec_encoder.pt
│  └── LongCatAudioCodec_encoder_cmvn.npy
├── configs/     # 配置文件夹（项目自带，无需修改）
│  ├── LongCatAudioCodec_decoder_16k_4codebooks.yaml
│  └── ...（其他配置文件）
├── inference.py   # 核心推理脚本（项目自带）
└── run_inference.sh # 演示脚本（项目自带）

方式2：自定义路径（适合进阶用户）

若需将模型放在其他文件夹（如/home/user/models/），需修改configs文件夹中的对应.yaml配置文件，将ckpt_path参数改为自定义路径。例如，修改24k_2codebooks解码器的配置文件：

# 原始配置（默认路径）
ckpt_path: 'ckpts/LongCatAudioCodec_decoder_24k_2codebooks.pt'
# 修改后配置（自定义路径）
ckpt_path: '/home/user/models/LongCatAudioCodec_decoder_24k_2codebooks.pt'

3. 运行演示（一键体验核心功能）

项目提供run_inference.sh脚本，可一键执行“音频编码-解码”演示，步骤如下：

步骤1：执行演示脚本

在项目根目录下，激活conda环境后，执行以下命令：

bash ./run_inference.sh

步骤2：查看演示结果

脚本会自动处理demos/org文件夹中的预设音频文件（项目自带，包含不同情感、场景的语音），并将重建后的音频输出到demo_audio_output/文件夹中。输出文件命名规则如下：

xxx_reconstructed_16k.wav：用16k解码器重建的音频；
xxx_reconstructed_24k.wav：用24k解码器重建的音频。

通过对比原始音频（demos/org）与重建音频（demo_audio_output），可直观感受该方案的音质保留效果。

步骤3：理解演示的两大功能

该脚本实际演示了LongCat-Audio-Codec的两个核心能力：

多速率合成：同一组令牌（由编码器生成），可通过16k/24k两种解码器生成不同采样率的音频，展示“令牌复用性”；
批量令牌提取：脚本底层调用了“批量令牌提取API”，可一次性处理多个音频文件，展示“大规模处理能力”。

4. 自定义配置（根据需求调整参数）

若需处理自己的音频文件，或调整码本数量、输出路径等，可通过两种方式自定义：

方式1：修改演示脚本（run_inference.sh）

用文本编辑器打开run_inference.sh，修改以下关键参数：

AUDIO_FILES：指定自己的音频文件路径，多个文件用空格分隔，例如：

 AUDIO_FILES="path/to/your/audio1.wav \
        path/to/your/audio2.wav"

NACOUSTICCODEBOOKS：调整声学码本数量（1-3），例如：

 # 用2个声学码本（总码本数=2+1=3），平衡质量与成本
 N_ACOUSTIC_CODEBOOKS=2

修改后保存，再次执行bash ./run_inference.sh即可。

方式2：直接调用inference.py（全自定义）

inference.py是核心推理脚本，支持更多参数配置。通过--help查看所有参数：

python inference.py --help

常见自定义命令示例（处理单个音频，用4码本24k解码器，输出到自定义文件夹）：

python inference.py \
  --encoder_config "configs/LongCatAudioCodec_encoder.yaml" \
  --decoder16k_config "configs/LongCatAudioCodec_decoder_16k_4codebooks.yaml" \
  --decoder24k_config "configs/LongCatAudioCodec_decoder_24k_4codebooks.yaml" \
  --output_dir "my_custom_output" \ # 自定义输出文件夹
  --n_acoustic_codebooks 3 \     # 3个声学码本（高音质）
  --audio_files "path/to/my_audio.wav" # 自己的音频文件

注：调用inference.py时，需确保所有--xxx_config参数指向正确的.yaml文件，且--audio_files指向的音频为“单通道、≤30秒、16k/24k采样率”（否则会报错）。

六、常见问题解答（FAQ）

Q1：安装PyTorch时提示“版本不兼容”或“无法找到指定版本”？

A1：文档中的PyTorch版本（2.7.1）仅为示例，需根据Python版本、操作系统、硬件（是否有GPU）调整。解决方案：

访问PyTorch官网（https://pytorch.org/），根据页面提示选择“OS”“Package”“CUDA版本”，生成对应安装命令；
例如，Python 3.10、Windows 10、无GPU的安装命令为：pip3 install torch==2.7.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cpu。

Q2：执行`pip install -r requirements.txt`时提示“依赖包安装失败”？

A2：可能是网络问题或Python版本不匹配（需3.10）。解决方案：

更换国内PyPI源，如使用阿里云源：pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/；
若仍失败，可手动安装失败的包，例如pip install 包名==版本号（版本号参考requirements.txt中的记录）。

Q3：运行脚本时提示“找不到ckpt文件”或“ModelNotFoundError”？

A3：模型路径配置错误，解决方案：

确认模型文件已下载完整（5类模型缺一不可，且后缀为.pt或.npy）；
若用默认路径，检查ckpts文件夹是否在项目根目录下，且文件名与配置文件（.yaml）中的ckpt_path完全一致（区分大小写，如“decoder_24k”不能写成“decoder24k”）；
若用自定义路径，确认.yaml文件中的ckpt_path已改为实际路径，且路径中无中文或特殊字符（如空格、括号）。

Q4：使用LongCatAudioCodecdecoder24k2codebooks时，重建音频质量差（有杂音、失真）？

A4：该解码器是在“有限说话人数据集”上微调的，对“未包含在训练集中的说话人”音频，质量会下降。解决方案：

更换为LongCatAudioCodecdecoder24k4codebooks（通用高音质版本）；
若需超低比特率，可尝试调整声学码本数量（如NACOUSTICCODEBOOKS=1），但音质可能仍不如4码本版本。

Q5：输入音频超过30秒，脚本报错“Audio length exceeds 30s”？

A5：当前版本限制音频长度≤30秒，解决方案：

用音频处理工具（如Audacity、FFmpeg）将长音频分割为≤30秒的片段；
分割时需保持“单通道、16k/24k采样率”，否则分割后的音频仍无法处理。

Q6：重建后的音频没有声音，或声音极小？

A6：可能是输入音频格式错误或参数配置问题，解决方案：

检查输入音频是否为“单通道”（当前版本不支持立体声），可通过FFmpeg转换：ffmpeg -i input.wav -ac 1 output.wav；
确认n_acoustic_codebooks参数设置正确（1-3，不能为0）；
检查输入音频的采样率是否为16k/24k，非该采样率需转换（如FFmpeg命令：ffmpeg -i input.wav -ar 16000 output_16k.wav）。

七、相关链接

GitHub仓库：https://github.com/meituan-longcat/LongCat-Audio-Codec

八、总结

LongCat-Audio-Codec是美团LongCat团队针对“Speech LLM音频处理需求”开源的优质方案，核心价值在于平衡“超低比特率”与“高保真音频”，同时通过低延迟流式解码、超分辨率等设计，提升了在实时交互、低带宽、音频优化等场景的实用性。其技术架构清晰（编码-解码分离，支持灵活配置），使用流程简单（提供一键演示脚本、详细参数说明），且基于MIT许可证开放，降低了开发者的使用门槛。尽管当前版本存在“单通道限制”“30秒音频长度限制”等不足，但已能满足Speech LLM后端支持、低带宽传输、批量音频处理等核心场景需求，适合AI开发者、语音技术研究人员、需要音频编解码工具的企业用于技术研发或产品落地。

音频编解码开源项目音频处理工具

打赏

版权及免责申明：本文由@AI工具箱原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/longcat-audio-codec.html

THE END

AI工具箱

一个喜欢收集AI工具的小萌新

+ 关注

LongCat-Audio-Codec：美团开源音频编解码方案，为 Speech LLM 提供超低比特率高保真令牌生成与解码

文章目录

一、LongCat-Audio-Codec是什么？

二、核心功能特色

1. 超低比特率下的高保真音频重建

2. 低帧率并行提取语义与声学令牌

3. 低延迟流式解码器

4. 集成音频超分辨率能力

三、关键技术细节

1. 核心组件构成

2. 关键技术参数

3. 核心技术亮点

四、典型应用场景

1. Speech LLM后端支持

2. 低带宽音频传输

3. 音频质量优化与修复

4. 批量音频令牌提取

五、使用方法

1. 环境安装（Windows/macOS/Linux通用）

步骤1：创建conda环境

步骤2：安装PyTorch与torchaudio

步骤3：安装其他依赖

2. 模型准备（核心步骤，需下载预训练模型）

步骤1：下载模型文件

步骤2：配置模型路径

方式1：默认路径（推荐，适合新手）

方式2：自定义路径（适合进阶用户）

3. 运行演示（一键体验核心功能）

步骤1：执行演示脚本

步骤2：查看演示结果

步骤3：理解演示的两大功能

4. 自定义配置（根据需求调整参数）

方式1：修改演示脚本（run_inference.sh）

方式2：直接调用inference.py（全自定义）

六、常见问题解答（FAQ）

Q1：安装PyTorch时提示“版本不兼容”或“无法找到指定版本”？

Q2：执行pip install -r requirements.txt时提示“依赖包安装失败”？

Q3：运行脚本时提示“找不到ckpt文件”或“ModelNotFoundError”？

Q4：使用LongCatAudioCodecdecoder24k2codebooks时，重建音频质量差（有杂音、失真）？

Q5：输入音频超过30秒，脚本报错“Audio length exceeds 30s”？

Q6：重建后的音频没有声音，或声音极小？

七、相关链接

八、总结

相关文章

Q2：执行`pip install -r requirements.txt`时提示“依赖包安装失败”？