SpatialClaw:英伟达开源免训练空间推理智能体,代码驱动分步迭代 3D 空间分析

原创 发布日期:
60

一、SpatialClaw是什么

SpatialClaw是NVIDIA NVlabs联合KAIST AI开源发布、面向视觉语言模型(VLM)的免训练空间推理智能体框架,其项目核心理念是将Python代码作为空间智能体唯一动作交互接口,摒弃传统固定工具调用、一次性全量代码执行的局限,依靠持久化Jupyter内核实现分步迭代式空间分析,解决VLM在3D/4D、单图、多视图、视频时空场景下空间理解薄弱的行业痛点。

整套框架无需微调任何视觉语言模型,统一提示词、工具集、超参数即可适配6款26B~397B参数主流VLM,在20类权威空间推理基准测试中平均准确率达59.9%,超越同期最优空间智能体11.2个百分点。

二、核心功能特色

  1. 免训练零微调通用适配
    无需对Qwen3.5/3.6、Gemma4等VLM主干做任何训练、微调,仅通过外层智能体流程增强空间推理能力,跨模型、跨数据集保持稳定性能提升。

  2. 持久化代码分步迭代推理
    搭载有状态Jupyter Python内核,模型逐段编写代码单元分步执行,全程留存中间变量、深度图、分割掩码、打印日志、报错信息,可基于上一轮结果动态修正分析逻辑,支持可视化中间证据。

  3. 一站式内置感知几何工具栈
    内核预加载全套空间感知与计算组件:SAM3图像实例分割、Depth-Anything-3三维场景重建、NumPy/SciPy几何运算、Matplotlib可视化,无需额外开发工具封装。

  4. 标准化五阶段智能体循环
    内置Planning规划→代码生成→安全校验执行→反馈汇总→答案提交闭环流程,循环迭代至模型调用ReturnAnswer()输出有效答案,逻辑可复现、每步推理可追溯。

  5. 分布式多服务集群架构
    拆分为vLLM大模型服务、GPU感知工具服务、Agent主控服务三大独立模块,支持单机GPU本地运行与SLURM集群批量调度,服务自动重启、算力负载均衡。

  6. 全覆盖20类空间推理基准
    原生内置单图、多视图、通用空间、视频4D时空、通用视频五大类共20套标准数据集加载器,开箱复现论文全部实验结果。

  7. 完整工程化配套文档与工具
    提供环境一键部署脚本、监控日志面板、故障排查指南、SLURM调度模板、配置文件模板,覆盖开发、实验、运维全流程。

SpatialClaw:英伟达开源免训练空间推理智能体,代码驱动分步迭代 3D 空间分析

三、技术细节

3.1 核心工作流:五阶段迭代闭环

  1. 规划阶段(Planning)
    输入图像、问题、工具文档、元数据,VLM梳理空间分析整体解题策略,明确分步目标。

  2. 代码生成阶段(Code Generation)
    输出推理思路、分步目标、可执行Python代码片段,代码仅为单步分析逻辑,不一次性编写完整流程。

  3. 安全执行阶段(Code Execution)
    通过AST语法安全校验过滤危险操作,在持久Jupyter内核运行代码,所有变量、图像、计算结果永久保存,上下文状态不丢失。

  4. 反馈汇总阶段(Feedback Assembly)
    收集控制台打印输出、代码报错、中间变量摘要、show()生成的可视化图像,打包作为下一轮输入观测信息。

  5. 答案提交阶段(Answer Submission)
    若代码中执行ReturnAnswer()则终止循环输出结果;未得到有效结论则返回代码生成阶段继续迭代。

3.2 底层运行架构(三服务解耦)

  • vLLM后端服务:负责VLM推理、模型自动负载均衡,支持本地私有化部署免API密钥;

  • GPU感知工具服务:FastAPI封装SAM3、Depth-Anything-3,独立占用GPU算力,与大模型算力隔离;

  • Agent主控服务:基于LangGraph搭建智能体循环、Jupyter持久内核、代码安全校验、数据集加载逻辑;
    三大服务通过共享JSON注册中心通信,支持SLURM任务超时自动重启,适配长时间批量实验。

3.3 内置工具与环境依赖

  • 视觉感知工具:SAM3图像分割、Depth-Anything-3深度重建、场景几何测量工具;

  • 科学计算库:NumPy、SciPy、Matplotlib;

  • 工程组件:AST安全沙盒、vLLM调度、SLURM任务管理器、第三方依赖子模块;

  • 代码语言占比:Python 94.3%、Shell 4.9%、Jinja 0.8%。

3.4 评测基准分类(20套数据集)

任务分类 包含基准数据集
单图空间推理 ERQA、Omni3D、OmniSpatial、SPBench
多视图空间推理 MindCube、MMSI、SPAR-Bench
通用空间推理 BLINK、SpatialTree、ViewSpatial
视频4D时空推理 MMSI-Video、OSI-Bench、PAI-Bench、VSI-Bench-U、VSTI-Bench、DSI-Bench
通用视频理解 CV-Bench、PerceptComp、Video-MME、Video-MME-v2

3.5 性能核心数据

全20个基准平均准确率59.9%,对比SpaceTools-Toolshed(48.7%)提升11.2个百分点;无工具基线仅53.4%,性能提升完全来自代码式动作接口架构创新,而非更强感知工具或模型微调。

四、应用场景

  1. 多模态空间问答研究
    学术科研人员快速复现空间推理SOTA实验,对比不同VLM在3D几何、遮挡物体、跨视角判断任务的性能差异。

  2. 数字孪生/三维场景分析
    输入实景照片、视频,自主完成深度重建、物体分割、空间距离测算、场景布局推演,自动生成量化空间分析报告。

  3. 具身智能机器人预推理
    机器人视觉前置分析模块,基于单帧/多帧图像预判物体位置、遮挡关系、可行走路径,为机械臂抓取、导航提供空间逻辑依据。

  4. 视频时序4D时空理解
    动态视频物体追踪、运动轨迹推演、时序空间关系问答,适用于监控视频分析、自动驾驶视觉预判断。

  5. 工业视觉质检辅助
    工业产品多视角图像自动尺寸测算、空间错位检测、部件相对位置校验,AI自主分步测量并输出误差结论。

  6. 通用VLM能力二次开发
    开发者无需改造大模型主干,快速为自有多模态大模型注入专业空间分析能力,搭建垂直领域空间智能体。

SpatialClaw:英伟达开源免训练空间推理智能体,代码驱动分步迭代 3D 空间分析

五、使用方法

5.1 环境部署步骤

  1. 递归克隆仓库(同步拉取第三方子模块)

git clone --recursive https://github.com/NVlabs/SpatialClaw.git
cd SpatialClaw
bash spatial_agent/scripts/setup.sh
  1. 配置环境变量文件
    复制示例环境文件,填入大模型API密钥;本地部署vLLM可跳过密钥配置:

cp .env.example .env
# 编辑.env文件填写相关密钥/模型路径
  1. 单机本地启动实验(无需SLURM集群)

python -m spatial_agent.entrypoints.run \
 --dataset spatial_agent/config/dataset/erqa.json \
 --model spatial_agent/config/model/gemini-3-pro.json \
 --concurrency 4

5.2 集群运行补充说明

SLURM批量实验需提前下载全部VLM权重文件,仓库内置SLURM任务启动脚本、链式重启任务配置,可批量遍历全部20套基准数据集复现论文完整表格数据。

5.3 二次开发入口

  • 新增自定义数据集:在spatial_agent/config/dataset/新增JSON配置文件,配套数据集加载器;

  • 新增感知工具:封装至GPU FastAPI工具服务,在内核预加载代码中注册工具函数;

  • 自定义智能体流程:修改LangGraph规划/反思循环逻辑,参考docs/architecture.md架构文档。

六、竞品对比

选取行业主流SpaceTools-Toolshed、pySpatial、无工具基线做横向对比,指标全部基于项目原文公开实验数据:

对比维度 SpatialClaw(NVIDIA) SpaceTools-Toolshed pySpatial 无工具基线VLM
核心交互方式 持久内核分步代码迭代,可查看中间结果动态修正 一次性完整代码执行,无法中途调整逻辑 固定结构化工具调用,操作组合受限 无任何感知工具,纯模型原生推理
20基准平均准确率 59.9% 48.7% 低于SpaceTools 53.4%
是否免训练 是,零微调适配所有VLM
中间推理可视化 支持,保存每步图像、变量、日志 不支持,仅输出最终结果 不支持,仅返回工具调用文本 无中间输出
工具灵活组合能力 极高,自由编写代码串联分割、深度、几何运算 中等,单次代码固定流程 较低,仅支持预设工具API 无工具可用
集群部署支持 完整SLURM调度、三服务解耦、自动重启 仅单机简易运行脚本 无集群适配方案 无配套运行框架
内置基准数据集 20套完整加载器开箱即用 少量单图基准 仅通用空间小数据集 无标准化数据集

SpatialClaw:英伟达开源免训练空间推理智能体,代码驱动分步迭代 3D 空间分析

七、常见问题解答(FAQ)

Q1:SpatialClaw是否需要对使用的视觉大模型进行微调训练?

A:不需要,框架属于训练-free免训练架构,全程不改动VLM模型权重、视觉编码器、跨模态连接器,仅在外层搭建代码智能体流程,同一套提示词、工具即可适配多款不同参数量、不同厂商的VLM。

Q2:本地运行最低硬件配置要求是什么?

A:至少单张具备24GB显存NVIDIA GPU;vLLM加载大模型、Depth-Anything-3重建、SAM3分割均会占用显存,30B以上大模型建议40GB及以上显存显卡;集群环境可拆分三大服务至不同GPU分担算力压力。

Q3:框架支持开源本地私有化VLM,还是仅支持API调用?

A:两种模式全部支持,可填写第三方大模型API密钥远程调用,也可通过内置vLLM服务本地加载开源Qwen、Gemma系列权重,完全离线私有化运行,无需联网请求外部接口。

Q4:运行时报AST安全校验失败,代码执行被拦截如何解决?

A:AST校验用于屏蔽文件删除、系统命令、网络请求等高风险操作;仅允许导入numpy、matplotlib、内置感知工具,删除代码中os、subprocess、requests等系统/网络相关模块调用即可正常执行。

Q5:能否新增自定义3D感知、几何计算工具?

A:可以,需两步操作:1. 将新工具封装为FastAPI接口接入GPU感知服务;2. 在持久Jupyter内核初始化脚本中导入工具函数,模型即可在代码单元中自由调用新增工具。

Q6:SLURM集群运行任务中断、超时如何处理?

A:项目内置链式重启SLURM任务脚本,三大服务具备自动重启机制,中断后可接续上一轮实验进度,无需重新从头跑完整数据集,日志会持久保存每一条样本的推理过程。

Q7:开源协议是否允许商用落地开发?

A:主项目采用NVIDIA Source Code License-NC协议,禁止商用;仓库内置第三方子模块拥有各自独立开源协议,商用场景需单独审核所有依赖组件授权条款。

八、相关链接

  1. GitHub仓库地址:https://github.com/NVlabs/SpatialClaw

  2. 项目官网:https://spatialclaw.github.io/

九、总结

SpatialClaw作为英伟达推出的新一代空间推理智能体开源框架,跳出传统工具调用、一次性代码执行的固有范式,依靠持久化Python内核+分步代码迭代的创新交互方式,在无需微调任何视觉语言模型的前提下,大幅提升VLM在单图、多视图、视频4D全品类空间推理任务的精度,配套完整可落地的工程代码、20套标准评测数据集、单机与集群双部署方案,为空间智能体科研、三维视觉分析、具身机器人前置推理等领域提供了一套可完整复现、高度灵活、通用适配的标准化技术底座。

打赏
THE END
作者头像
AI工具箱
一个喜欢收集AI工具的小萌新