BabyVision:UniPat-AI开源的多模态大模型视觉推理评估基准
BabyVision是一款面向多模态大模型(MLLM)和图像生成模型的纯视觉推理能力开源评估基准,由UniPat-AI团队联合红杉中国xbench共同开发,隶属于xbench双轨评估体系中AGI Tra...
BabyVision是一款面向多模态大模型(MLLM)和图像生成模型的纯视觉推理能力开源评估基准,由UniPat-AI团队联合红杉中国xbench共同开发,隶属于xbench双轨评估体系中AGI Tra...
RAG-Anything 是由香港大学数据智能实验室(HKUDS)开源的一站式多模态检索增强生成(RAG)框架,基于 LightRAG 构建,突破传统文本类 RAG 系统的技术限制,可无缝处理 PDF...
AntAngelMed 是由浙江健康信息中心、蚂蚁医疗等联合研发的开源医疗大语言模型,是当前规模最大、性能最强的开源医疗语言模型之一。依托 Ling-flash-2.0 高效 MoE 架构,模型...
Qwen3-VL-Reranker 是通义千问团队开源的高性能多模态重排序(Reranker)模型,该模型是一款多模态配对打分模型,核心能力是接收「查询内容+候选内容」的多模态配对输入,并...
TwinFlow 是一款面向大模型「单步生成(One-step Generation)」的开源项目,核心目标是解决传统扩散模型在图像生成任务中存在的「生成步数多、推理速度慢、资源消耗高」等...
TuriX-CUA(TuriX Computer Use Agent)是一款开源的AI驱动桌面自动化代理工具,核心依托视觉语言模型(VLM)实现端到端的桌面操作自动化,无需依赖应用专属API,可完全模拟...
Yume是一款开源的现实世界模型项目,聚焦于通过文本、图像或视频等多模态输入创建交互式、逼真且动态的视频世界,核心目标是构建一套完整的现实世界模型体系,涵盖数据层、...
OmniVCus是一个开源的视频生成与编辑框架,核心目标是通过多维度的控制条件,实现对视频内容的精准定制——无论是指定主体的动作与场景搭配,还是通过文本指令修改细节、用...
StepDeepResearch是由阶跃星辰StepFun团队自主研发并开源的端到端深度研究代理模型,不同于传统AI仅能完成单一信息搜索或简单总结,StepDeepResearch实现了“需求理解→研究...
TurboDiffusion是由清华大学、生数科技和加州大学伯克利分校联合推出的开源视频扩散模型加速框架,其核心目标是解决传统视频扩散模型生成 latency 高的痛点,在单RTX 5090 ...
