AntAngelMed:开源医疗大语言模型,三阶段训练打造权威基准领先性能
AntAngelMed 是由浙江健康信息中心、蚂蚁医疗等联合研发的开源医疗大语言模型,是当前规模最大、性能最强的开源医疗语言模型之一。依托 Ling-flash-2.0 高效 MoE 架构,模型...
AntAngelMed 是由浙江健康信息中心、蚂蚁医疗等联合研发的开源医疗大语言模型,是当前规模最大、性能最强的开源医疗语言模型之一。依托 Ling-flash-2.0 高效 MoE 架构,模型...
LandPPT 是一款基于大语言模型(LLM)驱动的开源智能 PPT 生成工具,核心解决传统 PPT 制作耗时、专业度要求高的痛点,支持从主题输入或多格式文档上传出发,一键生成包含大...
MMSI-Video-Bench是一款开源的视频空间智能专项评测基准。该基准聚焦多模态大模型(MLLMs)在视频场景下的空间智能能力评估,构建了覆盖“感知-规划-预测-跨视频推理”的四...
EvoCUA(Evolving Computer Use Agent)是由美团公司重磅开源的一款通用多模态计算机使用智能体,核心能力为基于实时桌面截图与自然语言指令,实现对主流桌面软件的端到端、...
VoiceSculptor 是由西北工业大学音频语音与语言处理研究组 主导开发并开源的语音智能处理类开源项目,是一款专注于「自然语言可控的语音定制与语音合成」的全链路工具框架,...
ChatDev 是由 OpenBMB 团队研发的一款重量级开源零代码多智能体编排平台,该项目摆脱传统编码开发门槛,通过可视化配置与 YAML 文件定义智能体角色、协作流程与任务逻辑,实...
Qwen3-VL-Reranker 是通义千问团队开源的高性能多模态重排序(Reranker)模型,该模型是一款多模态配对打分模型,核心能力是接收「查询内容+候选内容」的多模态配对输入,并...
Qwen3-VL-Embedding 是阿里云通义千问团队重磅开源的高性能多模态嵌入(Embedding)模型,是通义千问 Qwen3 系列大模型的核心分支产品。该模型基于千问自研的多模态大模型基...
LTX-2是由Lightricks团队开源的音视频生成基础模型项目,不同于传统音视频生成模型“音频+视频”分离式设计,LTX-2从底层架构上实现了音视频同步生成,且无需依赖多个独立模...
UI-TARS-desktop是字节跳动开源的多模态AI智能体桌面应用项目,基于UI-TARS模型构建,集成Agent TARS通用多模态AI智能体栈,提供本地/远程计算机、浏览器GUI智能操作能力,...