语音转文本

Faster-Whisper是由SYSTRAN团队开发并开源的OpenAI Whisper语音转文本模型的高性能重构实现，核心依托CTranslate2——一款专为Transformer架构设计的轻量级、高性能推理引擎...

VibeVoice-ASR是微软推出的开源语音转文本（ASR）模型，支持英语和中文双语言输入，具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能，可直...

MedASR是谷歌健康团队开源的医疗领域专用自动语音识别模型，核心聚焦临床语音转文本场景，解决通用ASR模型医疗术语识别不准、误判率高的痛点。该模型基于轻量化Conformer架...

Whisper 是 OpenAI 开发的开源通用语音处理模型，基于 Transformer 架构，通过多任务训练支持多语言语音识别、语音翻译、语言识别等功能。该模型提供 6 种不同规格（从 tin...

语音转文本新闻、工具、教程及资源推荐