VibeVoice-ASR:微软开源的AI语音转文本工具,单遍处理60分钟长音频
VibeVoice-ASR是微软推出的开源语音转文本(ASR)模型,支持英语和中文双语言输入,具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能,可直...
VibeVoice-ASR是微软推出的开源语音转文本(ASR)模型,支持英语和中文双语言输入,具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能,可直...
MedASR是谷歌健康团队开源的医疗领域专用自动语音识别模型,核心聚焦临床语音转文本场景,解决通用ASR模型医疗术语识别不准、误判率高的痛点。该模型基于轻量化Conformer架...
Whisper 是 OpenAI 开发的开源通用语音处理模型,基于 Transformer 架构,通过多任务训练支持多语言语音识别、语音翻译、语言识别等功能。该模型提供 6 种不同规格(从 tin...