MedASR:谷歌开源的医疗场景专属自动语音识别模型
MedASR是谷歌健康团队开源的医疗领域专用自动语音识别模型,核心聚焦临床语音转文本场景,解决通用ASR模型医疗术语识别不准、误判率高的痛点。该模型基于轻量化Conformer架...
MedASR是谷歌健康团队开源的医疗领域专用自动语音识别模型,核心聚焦临床语音转文本场景,解决通用ASR模型医疗术语识别不准、误判率高的痛点。该模型基于轻量化Conformer架...
Qwen-Image-Layered是阿里巴巴通义千问团队(QwenLM)开源的一款专注于图像分层与精准编辑的AI模型,是当前业内首个实现“原生图层解耦”的开源扩散模型,核心定位是让AI具...
LongCat-Video-Avatar 是美团开源的统一音频驱动角色动画模型,支持音频 - 文本到视频、音频 - 文本 - 图像到视频及视频续播三大核心任务,兼容单流与多流音频输入。该模型...
在人工智能和机器学习领域,预训练(Pre-training)作为一种重要的技术手段,正发挥着日益关键的作用。本文AI铺子将深入探讨预训练的定义、原理、方法、应用场景以及面临的...
Liquid Audio是Liquid AI推出的开源端到端语音到语音基础模型项目,核心模型为LFM2-Audio-1.5B。该项目以低延迟为设计理念,基于轻量级LFM2骨干网络,支持实时语音到语音对...
FlashVSR 是一款开源的基于扩散模型的实时视频超分辨率框架,主打高效性、可扩展性与高保真度,创新性提出三阶段蒸馏管道与局部约束稀疏注意力机制,解决传统扩散模型视频超...
MotionEdit是由腾讯AI(西雅图)与加州大学洛杉矶分校联合开发的开源运动中心图像编辑项目,包含MotionEdit-Bench专用基准数据集与MotionNFT(Motion-guided Negative-awar...
本文AI铺子将带你从零开始,逐步揭开联邦学习(Federated Learning,)的神秘面纱,深入理解其基本原理、核心架构、典型类型与实际应用场景,助你快速掌握这一前沿技术的基础...
Wan-Move是由阿里通义实验室、清华大学、香港大学及香港中文大学等联合开源的运动可控视频生成框架,是人工智能领域顶会NeurIPS 2025的收录研究成果,核心定位是解决传统图...
Kaleido是由智谱AI、合肥工业大学、清华大学等机构联合研发的开源多主体参考视频生成模型,该模型支持512P分辨率视频生成,提供完整的训练、推理代码及预训练权重,适配Pyt...
