MedASR:谷歌开源的医疗场景专属自动语音识别模型
MedASR是谷歌健康团队开源的医疗领域专用自动语音识别模型,核心聚焦临床语音转文本场景,解决通用ASR模型医疗术语识别不准、误判率高的痛点。该模型基于轻量化Conformer架...
MedASR是谷歌健康团队开源的医疗领域专用自动语音识别模型,核心聚焦临床语音转文本场景,解决通用ASR模型医疗术语识别不准、误判率高的痛点。该模型基于轻量化Conformer架...
TurboDiffusion是由清华大学、生数科技和加州大学伯克利分校联合推出的开源视频扩散模型加速框架,其核心目标是解决传统视频扩散模型生成 latency 高的痛点,在单RTX 5090 ...
Prompt Fill是一款面向AI绘画场景的开源结构化提示词生成工具,核心通过可视化“填空”交互模式解决AI绘画提示词难记忆、难管理、修改繁琐的痛点。该工具支持动态词库管理、...
WeKnora 是腾讯开源的大语言模型(LLM)驱动文档理解与语义检索框架,专为复杂异构文档场景打造,核心基于检索增强生成(RAG)范式,采用模块化架构设计,支持多格式文档解...
Chatterbox是由Resemble AI团队打造的一款开源生产级文本转语音(TTS)模型家族,并非单一模型,而是三款针对性优化的先进TTS模型组合,整体以轻量化架构实现了媲美商业闭源...
PaCoRe 全称Parallel Coordinated Reasoning,中文译为并行协同推理,是由阶跃星辰(stepfun-ai)团队开源的一款全新AI推理框架,核心定位是解决传统大模型推理时的两大核心...
Qwen-Image-Layered是阿里巴巴通义千问团队(QwenLM)开源的一款专注于图像分层与精准编辑的AI模型,是当前业内首个实现“原生图层解耦”的开源扩散模型,核心定位是让AI具...
NitroGen是由英伟达联合多所高校开源的通用游戏AI基础模型,核心定位是打造“通杀多类型游戏”的AI智能体,无需针对单款游戏定制训练,仅通过像素级游戏画面输入,就能精准...
Fun-Audio-Chat是由阿里通义实验室开源的一款面向自然、低延迟语音交互场景设计的大型音频语言模型(Large Audio Language Model)。该模型创新性引入双分辨率语音表示架构...
A2UI的全称是Agent-to-User Interface,是由谷歌开源的一款面向生成式AI代理的声明式用户界面框架,它并非一个传统意义上的UI组件库,而是一套“UI意图描述标准+多框架渲染...