Faster-Whisper:基于CTranslate2的高性能语音转文本引擎,4倍速推理与低内存占用双突破
Faster-Whisper是由SYSTRAN团队开发并开源的OpenAI Whisper语音转文本模型的高性能重构实现,核心依托CTranslate2——一款专为Transformer架构设计的轻量级、高性能推理引擎...
Faster-Whisper是由SYSTRAN团队开发并开源的OpenAI Whisper语音转文本模型的高性能重构实现,核心依托CTranslate2——一款专为Transformer架构设计的轻量级、高性能推理引擎...
VibeVoice-ASR是微软推出的开源语音转文本(ASR)模型,支持英语和中文双语言输入,具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能,可直...
MedASR是谷歌健康团队开源的医疗领域专用自动语音识别模型,核心聚焦临床语音转文本场景,解决通用ASR模型医疗术语识别不准、误判率高的痛点。该模型基于轻量化Conformer架...
Whisper 是 OpenAI 开发的开源通用语音处理模型,基于 Transformer 架构,通过多任务训练支持多语言语音识别、语音翻译、语言识别等功能。该模型提供 6 种不同规格(从 tin...