Hojo-ASR:开源轻量语音识别模型,支持多语种离线极速转写
Hojo-ASR 是由 HojoAI团队开源的新一代自动语音识别(ASR)项目,该项目主打小参数量、高识别精度、极速推理、多语种兼容四大核心优势,同时兼顾云端服务器、本地PC、边缘设...
Hojo-ASR 是由 HojoAI团队开源的新一代自动语音识别(ASR)项目,该项目主打小参数量、高识别精度、极速推理、多语种兼容四大核心优势,同时兼顾云端服务器、本地PC、边缘设...
Mega-ASR是一款主打全场景恶劣环境的开源自动语音识别模型,依托海量实景语音数据与声学语义渐进微调技术,有效解决噪声、远场、混响失真音频识别难题,具备低幻觉高精准转...
StepAudio 2.5 ASR 是由阶跃星辰基于前代模型架构全面优化升级而来的一款面向端侧与轻量化部署的开源自动语音识别(ASR)模型迭代版本,聚焦低成本、低算力、高适配的语音转...
SenseAudio是商汤科技推出的一站式AI语音与音视频创作平台。它集成了语音识别、语音合成、音色克隆、人声提取等核心技术,旨在为用户提供从语音生成、编辑到交互的完整解决...
FireRedASR2S是小红书智能创作基础技术团队开源的SOTA级工业级一站式语音识别系统,集成FireRedASR2语音识别、FireRedVAD语音活动检测、FireRedLID语言识别、FireRedPunc标...
PaddleSpeech是基于百度飞桨(PaddlePaddle)深度学习框架打造的开源一站式语音与音频全功能处理工具包,该项目的核心定位是降低语音技术的使用与开发门槛,打通从数据处理...
MLX-Audio是基于苹果MLX框架深度开发、专为Apple Silicon M系列芯片优化的开源音频处理库,完整覆盖文本转语音、语音转文本、语音转语音三大核心能力,支持多语言、多主流模...
Qwen3-ASR是由阿里云通义千问(QwenLM)团队完全开源的一站式语音识别(ASR)与语音-文本强制对齐解决方案,基于Qwen3-Omni多模态大模型基座研发,是一套集语音转写、语言自...
MedASR是谷歌健康团队开源的医疗领域专用自动语音识别模型,核心聚焦临床语音转文本场景,解决通用ASR模型医疗术语识别不准、误判率高的痛点。该模型基于轻量化Conformer架...
Omnilingual ASR是由Meta(Facebook Research)开源的多语言语音识别系统,支持全球超过1600种语言(含数百种稀有语言),提供从300M到7B的多规格模型,支持零样本学习与无...
千音漫语是由北京熠声科技有限责任公司推出的一款基于AI大模型的声音智能创作平台。它集成了语音合成(TTS)、语音识别(ASR)、多语种翻译配音、声音克隆、音频处理等多种...
AudioGPT是由AIGC-Audio团队开源的多模态音频智能处理项目,其核心定位是“音频领域的全栈式解决方案”——通过整合业界成熟的基础模型,实现对语音、音乐、通用声音的“理...
Whisper 是 OpenAI 开发的开源通用语音处理模型,基于 Transformer 架构,通过多任务训练支持多语言语音识别、语音翻译、语言识别等功能。该模型提供 6 种不同规格(从 tin...
FireRedChat是一个完全自托管的全双工语音交互解决方案,旨在帮助开发者构建实时语音AI代理。该系统整合了强大的TTS、ASR、pVAD和EoT功能,使开发者能够创建可定制、注重隐...
Qwen3-ASR-Toolkit是一个专为Qwen-ASR API设计的高性能Python命令行工具包。它通过智能音频分割和并行处理,突破了API的3分钟时长限制,支持超长音频和视频的高效转录。该工...