FireRedASR2S:小红书开源的工业级一站式语音识别系统
FireRedASR2S是小红书智能创作基础技术团队开源的SOTA级工业级一站式语音识别系统,集成FireRedASR2语音识别、FireRedVAD语音活动检测、FireRedLID语言识别、FireRedPunc标...
FireRedASR2S是小红书智能创作基础技术团队开源的SOTA级工业级一站式语音识别系统,集成FireRedASR2语音识别、FireRedVAD语音活动检测、FireRedLID语言识别、FireRedPunc标...
Qwen3-ASR是由阿里云通义千问(QwenLM)团队完全开源的一站式语音识别(ASR)与语音-文本强制对齐解决方案,基于Qwen3-Omni多模态大模型基座研发,是一套集语音转写、语言自...
VibeVoice-ASR是微软推出的开源语音转文本(ASR)模型,支持英语和中文双语言输入,具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能,可直...
自动语音识别(Automatic Speech Recognition, ASR)是将人类语音中的词汇内容转换为计算机可读文本的技术,其本质是序列到序列的映射过程:输入为音频波形或频谱特征,输出...