语音识别

Hojo-ASR：开源轻量语音识别模型，支持多语种离线极速转写

Hojo-ASR 是由 HojoAI团队开源的新一代自动语音识别（ASR）项目，该项目主打小参数量、高识别精度、极速推理、多语种兼容四大核心优势，同时兼顾云端服务器、本地PC、边缘设...

5天前 AI新闻

72

Mega-ASR：开源高鲁棒语音识别模型，适配全场景恶劣环境语音转写

Mega-ASR是一款主打全场景恶劣环境的开源自动语音识别模型，依托海量实景语音数据与声学语义渐进微调技术，有效解决噪声、远场、混响失真音频识别难题，具备低幻觉高精准转...

3周前 AI新闻

88

StepAudio 2.5 ASR：阶跃星辰开源的轻量化语音识别模型

StepAudio 2.5 ASR 是由阶跃星辰基于前代模型架构全面优化升级而来的一款面向端侧与轻量化部署的开源自动语音识别（ASR）模型迭代版本，聚焦低成本、低算力、高适配的语音转...

1个月前 AI新闻

144

SenseAudio：商汤科技推出的AI语音与音视频一站式创作平台

SenseAudio是商汤科技推出的一站式AI语音与音视频创作平台。它集成了语音识别、语音合成、音色克隆、人声提取等核心技术，旨在为用户提供从语音生成、编辑到交互的完整解决...

2个月前 AI音频制作

155

FireRedASR2S：小红书开源的工业级一站式语音识别系统

FireRedASR2S是小红书智能创作基础技术团队开源的SOTA级工业级一站式语音识别系统，集成FireRedASR2语音识别、FireRedVAD语音活动检测、FireRedLID语言识别、FireRedPunc标...

3个月前 AI新闻

470

PaddleSpeech：百度飞桨开源的全栈语音 AI 工具包，覆盖识别合成翻译克隆全场景

PaddleSpeech是基于百度飞桨（PaddlePaddle）深度学习框架打造的开源一站式语音与音频全功能处理工具包，该项目的核心定位是降低语音技术的使用与开发门槛，打通从数据处理...

4个月前 AI新闻

171

MLX-Audio：面向Apple Silicon的开源本地AI语音文字互转与语音转换工具

MLX-Audio是基于苹果MLX框架深度开发、专为Apple Silicon M系列芯片优化的开源音频处理库，完整覆盖文本转语音、语音转文本、语音转语音三大核心能力，支持多语言、多主流模...

4个月前 AI新闻

283

Qwen3-ASR：通义千问开源的多语言语音识别套件，覆盖52种语种方言与高精度强制对齐

Qwen3-ASR是由阿里云通义千问（QwenLM）团队完全开源的一站式语音识别（ASR）与语音-文本强制对齐解决方案，基于Qwen3-Omni多模态大模型基座研发，是一套集语音转写、语言自...

4个月前 AI新闻

340

MedASR：谷歌开源的医疗场景专属自动语音识别模型

MedASR是谷歌健康团队开源的医疗领域专用自动语音识别模型，核心聚焦临床语音转文本场景，解决通用ASR模型医疗术语识别不准、误判率高的痛点。该模型基于轻量化Conformer架...

5个月前 AI新闻

202

Omnilingual ASR：Meta开源的多语言语音识别系统，支持1600+语言的高效语音转文字工具

Omnilingual ASR是由Meta（Facebook Research）开源的多语言语音识别系统，支持全球超过1600种语言（含数百种稀有语言），提供从300M到7B的多规格模型，支持零样本学习与无...

6个月前 AI新闻

108

千音漫语：AI语音合成平台，1800+主播声音助力高效配音创作

千音漫语是由北京熠声科技有限责任公司推出的一款基于AI大模型的声音智能创作平台。它集成了语音合成（TTS）、语音识别（ASR）、多语种翻译配音、声音克隆、音频处理等多种...

6个月前 AI音频制作

249

AudioGPT：开源多模态音频处理工具，一站式实现语音、音乐、声音生成与理解

AudioGPT是由AIGC-Audio团队开源的多模态音频智能处理项目，其核心定位是“音频领域的全栈式解决方案”——通过整合业界成熟的基础模型，实现对语音、音乐、通用声音的“理...

6个月前 AI新闻

157

Whisper：OpenAI 开源多语言语音处理模型，支持语音识别与跨语言翻译

Whisper 是 OpenAI 开发的开源通用语音处理模型，基于 Transformer 架构，通过多任务训练支持多语言语音识别、语音翻译、语言识别等功能。该模型提供 6 种不同规格（从 tin...

7个月前 AI新闻

294

FireRedChat：开源的全双工实时语音AI对话聊天系统

FireRedChat是一个完全自托管的全双工语音交互解决方案，旨在帮助开发者构建实时语音AI代理。该系统整合了强大的TTS、ASR、pVAD和EoT功能，使开发者能够创建可定制、注重隐...

8个月前 AI新闻

279

Qwen3-ASR-Toolkit：阿里达摩院推出的基于 Qwen-ASR API 的高性能语音转写工具包

Qwen3-ASR-Toolkit是一个专为Qwen-ASR API设计的高性能Python命令行工具包。它通过智能音频分割和并行处理，突破了API的3分钟时长限制，支持超长音频和视频的高效转录。该工...

8个月前 AI新闻

220

语音识别新闻、工具、教程及资源推荐

Hojo-ASR：开源轻量语音识别模型，支持多语种离线极速转写

Mega-ASR：开源高鲁棒语音识别模型，适配全场景恶劣环境语音转写

StepAudio 2.5 ASR：阶跃星辰开源的轻量化语音识别模型

SenseAudio：商汤科技推出的AI语音与音视频一站式创作平台

FireRedASR2S：小红书开源的工业级一站式语音识别系统

PaddleSpeech：百度飞桨开源的全栈语音 AI 工具包，覆盖识别合成翻译克隆全场景

MLX-Audio：面向Apple Silicon的开源本地AI语音文字互转与语音转换工具

Qwen3-ASR：通义千问开源的多语言语音识别套件，覆盖52种语种方言与高精度强制对齐

MedASR：谷歌开源的医疗场景专属自动语音识别模型

Omnilingual ASR：Meta开源的多语言语音识别系统，支持1600+语言的高效语音转文字工具

千音漫语：AI语音合成平台，1800+主播声音助力高效配音创作

AudioGPT：开源多模态音频处理工具，一站式实现语音、音乐、声音生成与理解

Whisper：OpenAI 开源多语言语音处理模型，支持语音识别与跨语言翻译

FireRedChat：开源的全双工实时语音AI对话聊天系统

Qwen3-ASR-Toolkit：阿里达摩院推出的基于 Qwen-ASR API 的高性能语音转写工具包