FantasyWorld:高德地图联合北邮推出的几何一致型 3D 世界建模开源框架
FantasyWorld 是由高德地图(AMAP)与北京邮电大学联合研发的开源 3D 世界建模框架,核心围绕几何一致的世界建模目标,通过在冻结的视频基础模型上增设可训练的几何分支,实...
FantasyWorld 是由高德地图(AMAP)与北京邮电大学联合研发的开源 3D 世界建模框架,核心围绕几何一致的世界建模目标,通过在冻结的视频基础模型上增设可训练的几何分支,实...
Spirit-v1.5是由千寻智能(Spirit AI)研发并开源的端到端视觉-语言-动作(VLA)具身智能基础模型,该模型在RoboChallenge Table30基准测试中以66.09分的综合得分和50.33%的...
UniVideo是由滑铁卢大学与快手Kling Team联合研发并开源的统一视频AI框架,基于Python语言构建,采用创新的双流架构融合多模态大语言模型(MLLM)与多模态扩散Transformer(...
Youtu-Tip 是由腾讯云开源的一款本地化、主动式、全离线运行的桌面 AI 智能助手,是腾讯自研桌面智能体体系 Youtu-Agent 的轻量化、易用性扩展版本。该项目将大语言模型的理...
AntAngelMed 是由浙江健康信息中心、蚂蚁医疗等联合研发的开源医疗大语言模型,是当前规模最大、性能最强的开源医疗语言模型之一。依托 Ling-flash-2.0 高效 MoE 架构,模型...
LandPPT 是一款基于大语言模型(LLM)驱动的开源智能 PPT 生成工具,核心解决传统 PPT 制作耗时、专业度要求高的痛点,支持从主题输入或多格式文档上传出发,一键生成包含大...
MMSI-Video-Bench是一款开源的视频空间智能专项评测基准。该基准聚焦多模态大模型(MLLMs)在视频场景下的空间智能能力评估,构建了覆盖“感知-规划-预测-跨视频推理”的四...
EvoCUA(Evolving Computer Use Agent)是由美团公司重磅开源的一款通用多模态计算机使用智能体,核心能力为基于实时桌面截图与自然语言指令,实现对主流桌面软件的端到端、...
VoiceSculptor 是由西北工业大学音频语音与语言处理研究组 主导开发并开源的语音智能处理类开源项目,是一款专注于「自然语言可控的语音定制与语音合成」的全链路工具框架,...
ChatDev 是由 OpenBMB 团队研发的一款重量级开源零代码多智能体编排平台,该项目摆脱传统编码开发门槛,通过可视化配置与 YAML 文件定义智能体角色、协作流程与任务逻辑,实...