SenseNova-MARS:商汤科技开源的多模态智能体框架,实现动态视觉推理与多工具协同搜索
SenseNova-MARS是商汤科技开源的多模态智能体推理与搜索框架,以强化学习为核心技术,赋予视觉语言模型动态视觉推理与图像裁剪、图像搜索、文本搜索多工具协同调用能力,提...
SenseNova-MARS是商汤科技开源的多模态智能体推理与搜索框架,以强化学习为核心技术,赋予视觉语言模型动态视觉推理与图像裁剪、图像搜索、文本搜索多工具协同调用能力,提...
UnifoLM-VLA-0是宇树科技UnifoLM模型家族中,面向通用人形机器人操作的视觉-语言-动作(VLA)大模型,也是当前具身智能领域聚焦物理交互的核心开源框架。该模型通过在专业机...
MOVA是由OpenMOSS团队研发的开源音视频同步生成基础模型,其采用非对称双塔架构与双向交叉注意力机制,在多语言唇形同步、环境音效匹配上达到领先水平,全栈开放模型权重、...
近日,广受关注的本地化AI代理项目完成重要里程碑式升级:原名为 ClawdBot(后短暂使用过 Moltbot)的开源项目,已正式定名并全面启用新名称——OpenClaw。这一更名并非简单...
曾广受开发者社区关注的开源 AI 助理项目 Clawdbot,近日正式宣布更名为 Moltbot,核心助手角色也同步由 Clawd 升级为 Molty。此次更名并非产品战略调整,而是响应 Anthrop...
HoloCine是由香港科技大学、蚂蚁集团等机构联合推出的开源文本到视频(T2V)项目,该项目以整体生成为核心理念,通过窗口交叉注意、稀疏镜头间自注意两大核心机制,实现电影...
LingBot-World是一款面向交互式世界建模的开源世界模拟器,核心源于视频生成技术,由蚂蚁灵波开发并维护,定位为顶级开源世界模型。它通过从大规模游戏环境中学习物理规律与...
Kimi Code 是 Kimi 会员计划中的专属 AI 编程权益,基于 K2.5 开源模型打造,支持 VS Code 插件、终端 CLI 等多端适配,提供代码生成、diff 审查、多模态输入(图片 / 视频...
DeepSpeed-MII是由微软DeepSpeed团队打造的开源Python大模型推理部署专用库,全称为Model Implementations for Inference,是DeepSpeed生态中聚焦于模型推理阶段的核心组件...
Earth2Studio是一款由英伟达基于Python开发的开源AI推理流水线工具包,核心定位是为天气和气候科学领域提供“开箱即用”的AI开发与应用解决方案。其核心目标是打破AI地球系...