FireRedASR2S:小红书开源的工业级一站式语音识别系统

原创 发布日期:
63

一、FireRedASR2S是什么

FireRedASR2S是FireRedTeam(小红书智能创作基础技术团队) 于2026年2月正式开源的SOTA(业界领先)工业级一体化语音识别系统,名称中“2S”代表第二代FireRedASR升级为全功能语音系统(System)。它不是单一的语音识别模型,而是将ASR语音识别、VAD语音活动检测、LID口语语言识别、Punc标点预测四大模块深度整合的一站式解决方案,所有模块均在公开基准测试中达到SOTA水平,可独立使用也可协同工作,支持本地私有化部署,无外部API依赖,兼顾高精度、高效率与工程化可用性。

FireRedASR2S面向真实产业场景设计,核心解决传统语音系统方言识别差、多语言切换难、无自动标点、端到端链路长、部署复杂、隐私不安全等痛点,专为中文环境优化,覆盖普通话、20余种汉语方言/口音、英语、中英混读、歌唱歌词等复杂语音场景,识别精度、鲁棒性、处理效率均达到工业级标准,既可用于二次开发集成,也可直接用于生产环境。

该项目完全开源,提供模型权重、推理代码、部署脚本、示例程序,遵循宽松开源协议,支持学术研究与商业使用,是目前中文语音领域功能最完整、精度最高、工程化最成熟的开源一体化语音系统之一。

FireRedASR2S:小红书开源的工业级一站式语音识别系统

二、功能特色

1. 四大SOTA模块一体化,开箱即用

FireRedASR2S最核心的特色是全链路语音能力集成,无需组合多个第三方工具,单一套系统完成从音频输入到带标点、带语种、带时间戳的文本输出,四大模块均为自研并达到SOTA:

  • FireRedASR2:核心语音识别,支持普通话、20+方言/口音、英语、中英混读、歌词识别,输出字级别时间戳与置信度;

  • FireRedVAD:语音活动检测,支持100+语言的语音/歌唱/音乐检测,流式/非流式兼容,支持音频事件检测;

  • FireRedLID:口语语言识别,支持100+语言、20+汉语方言/口音,自动判断语音语种;

  • FireRedPunc:中英双语标点预测,自动为纯文本输出添加逗号、句号、问号等标点,可读性大幅提升。

2. 超广语言与场景覆盖,中文场景极致优化

系统对中文语音的支持广度与深度远超通用开源模型:

  • 汉语:普通话 + 20+方言/口音(粤语、四川话、上海话、闽南语、河南话、湖南话、河北话等);

  • 外语:英语、中英混说;

  • 特殊场景:歌唱歌词识别(opencpop测试集CER低至1.12%);

  • 音频类型:清晰语音、会议语音、对话语音、带噪语音、流式语音均稳定适配。

3. 行业顶尖识别精度,全面超越主流方案

FireRedASR2在24个公开测试集(4个普通话+19个方言+1个歌唱)上全面领先,核心指标如下:

测试场景 FireRedASR2-LLM FireRedASR2-AED 对比方案最优值
普通话平均CER 2.89% 3.05% 3.69%(Doubao-ASR)
方言平均CER 11.55% 11.67% 11.85%(Qwen3-ASR)
全场景平均CER 9.67% 9.80% 10.12%(Qwen3-ASR)

FireRedVAD的F1值达97.57%,优于Silero-VAD、FunASR-VAD;FireRedLID准确率97.18%,超越Whisper、SpeechBrain-LID;FireRedPunc的F1值78.90%,大幅领先FunASR-Punc的62.77%。

4. 双架构设计,兼顾极致性能与高效推理

FireRedASR2提供两种架构版本,满足不同场景需求:

  • FireRedASR2-LLM:Encoder-Adapter-LLM架构,追求极致识别精度,适合对准确率要求极高的场景;

  • FireRedASR2-AED:注意力编码解码架构,平衡精度与计算效率,支持词级时间戳,可作为LLM语音模型的表征模块,更适合端侧与实时场景。

5. 高性能推理加速,单卡提速12.7倍

项目已支持TensorRT-LLM推理加速(NVIDIA官方贡献),在单张H20显卡上,FireRedASR2-AED相比PyTorch基线实现12.7倍推理提速,实时性大幅提升,满足高并发、低延迟的工业场景需求。

6. 丰富输出与灵活处理模式

  • 输出信息:文本、语种、置信度、字级别时间戳、语音片段时间戳;

  • 处理模式:支持流式(实时)与非流式(离线)处理;

  • 音频事件:可检测语音、歌唱、音乐三类事件;

  • 格式兼容:支持标准16kHz 16bit单声道PCM音频,可通过FFmpeg快速转换常见格式。

7. 完全开源可私有化,安全无依赖

  • 所有模型权重、推理代码、脚本全部开源;

  • 无外部API调用,本地离线运行,数据隐私安全;

  • 环境配置简单,依赖清晰,支持Linux/Windows/macOS多平台。

三、技术细节

1. 整体系统架构

FireRedASR2S采用模块化松耦合架构,四大核心模块可独立调用,也可通过系统封装类一键完成全流程处理:

  1. 音频输入 → FireRedVAD(切分有效语音) → FireRedLID(判断语种) → FireRedASR2(转文字) → FireRedPunc(加标点) → 带格式文本输出;

  2. 每个模块均独立封装,可单独集成到其他项目中,未来将进一步拆分为独立开源库。

2. 核心模块技术原理

(1)FireRedASR2

  • 基于FireRedASR升级版,优化编码器与语言模型适配;

  • LLM版:Encoder-Adapter-LLM框架,利用大语言模型提升语义理解与纠错能力;

  • AED版:Attention Encoder-Decoder架构,轻量化高效,支持时间戳与置信度;

  • 训练数据覆盖海量普通话、方言、英语、混读、歌唱数据,泛化性极强。

(2)FireRedVAD

  • 基于DFSMN(深度前馈序列记忆网络)架构;

  • 同时支持流式与非流式检测,低延迟、高召回;

  • 可区分语音、歌唱、音乐三种音频事件,适用于复杂音频内容分析。

(3)FireRedLID

  • 基于FireRedASR2的表征能力构建;

  • 直接从语音频谱识别语种与方言,无需先转文字;

  • 支持100+语言与20+汉语方言,单模型多分类。

(4)FireRedPunc

  • 基于BERT架构的标点预测模型;

  • 专门针对ASR输出的无标点文本优化;

  • 同时支持中文与英文标点,F1值领先业界。

3. 输入输出规范

  • 音频格式:16kHz、16bit、单声道、PCM WAV

  • 最大时长:AED版支持≤60s,超过200s会出现位置编码错误;LLM版支持≤30s;

  • 输出字段:语音时间戳、语种、语种置信度、识别文本、字级别时间戳、文本置信度、标点文本。

4. 部署与加速技术

  • 原生PyTorch推理,兼容CPU/GPU;

  • 支持TensorRT-LLM加速,显著降低推理时延;

  • 提供命令行工具、Python API、批量处理脚本三种调用方式;

  • 环境要求Python 3.10,依赖库在requirements.txt中完整列出。

四、应用场景

1. 智能办公与会议

  • 会议录音实时转写,支持多方言、中英混读;

  • 自动生成带标点、分角色的会议纪要;

  • 离线部署,保障企业会议数据隐私。

2. 智能客服与呼叫中心

  • 客服语音实时转文字,用于质检、存档、关键词提取;

  • 方言口音友好,覆盖全国各地区用户;

  • 低延迟流式识别,配合对话系统实时交互。

3. 语音交互与智能硬件

  • 智能音箱、车载语音、手机助手的语音入口;

  • 本地离线识别,无网络也可使用;

  • 支持实时打断与流式输出。

4. 内容创作与媒体处理

  • 播客、短视频、直播音频自动转字幕;

  • 歌唱音频自动识别歌词,效率远超人工;

  • 多语言内容自动标注语种,方便后期处理。

5. 方言保护与语言研究

  • 方言语音数字化转写,助力方言保护;

  • 支持20+方言高精度识别,研究级精度;

  • 自动判断方言类型,降低标注成本。

6. 音频内容审核与分析

  • 语音内容关键词检索、敏感信息检测;

  • 自动区分语音/歌唱/音乐,适配内容分类;

  • 私有化部署,满足合规要求。

7. 教育与学习

  • 口语作业自动转写、发音评估;

  • 多语言学习材料语音转文字;

  • 方言教学音频自动字幕。

FireRedASR2S:小红书开源的工业级一站式语音识别系统

五、使用方法

1. 环境准备

  1. 创建Python 3.10环境(推荐Conda)

conda create --name fireredasr2s python=3.10
conda activate fireredasr2s
  1. 克隆代码仓库

git clone https://github.com/FireRedTeam/FireRedASR2S.git
cd FireRedASR2S
  1. 安装依赖

pip install -r requirements.txt
export PATH=$PWD/fireredasr2s/:$PATH
export PYTHONPATH=$PWD/:$PYTHONPATH

2. 模型下载

支持ModelScope(国内推荐)与Hugging Face两种渠道:

ModelScope下载

pip install -U modelscope
modelscope download --model xukaituo/FireRedASR2-AED --local_dir ./pretrained_models/FireRedASR2-AED
modelscope download --model xukaituo/FireRedVAD --local_dir ./pretrained_models/FireRedVAD
modelscope download --model xukaituo/FireRedLID --local_dir ./pretrained_models/FireRedLID
modelscope download --model xukaituo/FireRedPunc --local_dir ./pretrained_models/FireRedPunc

Hugging Face下载

pip install -U "huggingface_hub[cli]"
huggingface-cli download FireRedTeam/FireRedASR2-AED --local-dir ./pretrained_models/FireRedASR2-AED
huggingface-cli download FireRedTeam/FireRedVAD --local-dir ./pretrained_models/FireRedVAD
huggingface-cli download FireRedTeam/FireRedLID --local-dir ./pretrained_models/FireRedLID
huggingface-cli download FireRedTeam/FireRedPunc --local-dir ./pretrained_models/FireRedPunc

3. 音频格式转换

所有音频需转为16kHz 16bit单声道WAV:

ffmpeg -i 输入音频路径 -ar 16000 -ac 1 -acodec pcm_s16le -f wav 输出wav路径

4. 快速推理(全流程一体化)

直接调用ASR System接口,自动完成VAD+LID+ASR+Punc:

python examples_infer/asr_system/inference_system.py

输出结果包含:语音时间段、语种、识别文本、置信度、字时间戳、带标点文本。

5. 模块独立使用

  • ASR单独调用:examples_infer/asr/

  • VAD单独调用:examples_infer/vad/

  • LID单独调用:examples_infer/lid/

  • Punc单独调用:examples_infer/punc/

6. TensorRT-LLM加速部署

项目已支持TensorRT-LLM加速,适用于需要极致性能的生产环境,具体部署脚本与配置在runtime/triton_tensorrt/目录下,单卡推理速度提升12.7倍。

六、常见问题解答(一问一答)

FireRedASR2S支持哪些音频格式?

FireRedASR2S只支持16kHz、16bit、单声道的PCM WAV格式,其他格式(MP3、M4A、OGG、FLAC等)可以用FFmpeg一键转换为标准格式。

音频输入最长支持多长时间?

FireRedASR2-AED版本最长支持60秒,超过60秒可能出现幻觉,超过200秒会触发位置编码错误;FireRedASR2-LLM版本最长支持30秒,更长时长未做测试,不建议使用。

必须同时使用四个模块吗?可以单独用其中一个吗?

不需要同时使用,四个模块完全独立,可以单独调用任意模块,比如只使用VAD做语音切分,或只使用Punc做标点预测。

FireRedASR2S支持Windows/macOS系统吗?

支持,项目基于Python与PyTorch开发,兼容Linux、Windows、macOS系统,只需正确配置Python环境与依赖即可运行。

需要GPU才能运行吗?CPU可以用吗?

CPU可以运行,只是推理速度较慢;推荐使用NVIDIA GPU,支持CUDA加速,也支持TensorRT-LLM进一步提速。

支持实时流式语音识别吗?

支持,FireRedVAD提供流式检测接口,FireRedASR2-AED也支持流式推理,可用于实时语音交互场景。

支持哪些方言和口音?

支持粤语、四川话、上海话、闽南语、安徽话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、辽宁话、宁夏话、陕西话、山西话、山东话、天津话、云南话等20余种汉语方言/口音。

识别结果带时间戳吗?

带,FireRedASR2输出字级别时间戳(每个字的开始与结束时间),VAD输出语音片段时间戳,方便做字幕、对齐、剪辑等。

可以商用吗?开源协议是什么?

项目开源,可用于学术研究与商业使用,具体协议以仓库LICENSE文件为准,允许私有化部署与二次开发。

模型文件很大吗?下载慢怎么办?

模型为工业级轻量化设计,大小适中;国内用户推荐使用ModelScope下载,速度更快、更稳定。

为什么识别结果没有标点?

需要开启FireRedPunc模块,一体化System接口默认会自动添加标点;单独使用ASR时输出纯文本,需手动调用Punc模块添加标点。

带噪音的音频识别效果如何?

模型在训练时加入了大量带噪数据,具备一定的噪声鲁棒性;噪音过大时建议先做音频降噪处理,再输入ASR可提升精度。

七、相关链接

八、总结

FireRedASR2S是小红书智能创作基础技术团队面向产业场景开源的一站式、高精度、全功能工业级语音识别系统,将ASR、VAD、LID、Punc四大SOTA模块融为一体,针对中文普通话、20余种方言/口音、中英混读及歌唱场景做了深度优化,在公开测试集上全面超越主流开源与商用方案,同时提供双架构选择与TensorRT-LLM推理加速,支持离线私有化部署、流式/非流式处理、字级别时间戳输出,环境配置简单、调用方式灵活,可广泛应用于会议转写、智能客服、语音交互、内容创作、方言保护、音频分析、教育教学等场景,是目前中文语音领域最具实用价值的开源一体化语音系统之一,为企业与开发者提供了无需依赖外部服务、安全可控、高精度高效率的语音处理解决方案。

打赏
THE END
作者头像
AI工具箱
一个喜欢收集AI工具的小萌新