SpatialClaw：英伟达开源免训练空间推理智能体，代码驱动分步迭代 3D 空间分析

原创发布日期：2026-06-27

一、SpatialClaw是什么

SpatialClaw是NVIDIA NVlabs联合KAIST AI开源发布、面向视觉语言模型（VLM）的免训练空间推理智能体框架，其项目核心理念是将Python代码作为空间智能体唯一动作交互接口，摒弃传统固定工具调用、一次性全量代码执行的局限，依靠持久化Jupyter内核实现分步迭代式空间分析，解决VLM在3D/4D、单图、多视图、视频时空场景下空间理解薄弱的行业痛点。

整套框架无需微调任何视觉语言模型，统一提示词、工具集、超参数即可适配6款26B~397B参数主流VLM，在20类权威空间推理基准测试中平均准确率达59.9%，超越同期最优空间智能体11.2个百分点。

二、核心功能特色

免训练零微调通用适配
无需对Qwen3.5/3.6、Gemma4等VLM主干做任何训练、微调，仅通过外层智能体流程增强空间推理能力，跨模型、跨数据集保持稳定性能提升。
持久化代码分步迭代推理
搭载有状态Jupyter Python内核，模型逐段编写代码单元分步执行，全程留存中间变量、深度图、分割掩码、打印日志、报错信息，可基于上一轮结果动态修正分析逻辑，支持可视化中间证据。
一站式内置感知几何工具栈
内核预加载全套空间感知与计算组件：SAM3图像实例分割、Depth-Anything-3三维场景重建、NumPy/SciPy几何运算、Matplotlib可视化，无需额外开发工具封装。
标准化五阶段智能体循环
内置Planning规划→代码生成→安全校验执行→反馈汇总→答案提交闭环流程，循环迭代至模型调用ReturnAnswer()输出有效答案，逻辑可复现、每步推理可追溯。
分布式多服务集群架构
拆分为vLLM大模型服务、GPU感知工具服务、Agent主控服务三大独立模块，支持单机GPU本地运行与SLURM集群批量调度，服务自动重启、算力负载均衡。
全覆盖20类空间推理基准
原生内置单图、多视图、通用空间、视频4D时空、通用视频五大类共20套标准数据集加载器，开箱复现论文全部实验结果。
完整工程化配套文档与工具
提供环境一键部署脚本、监控日志面板、故障排查指南、SLURM调度模板、配置文件模板，覆盖开发、实验、运维全流程。

SpatialClaw：英伟达开源免训练空间推理智能体，代码驱动分步迭代 3D 空间分析

三、技术细节

3.1 核心工作流：五阶段迭代闭环

规划阶段（Planning）
输入图像、问题、工具文档、元数据，VLM梳理空间分析整体解题策略，明确分步目标。
代码生成阶段（Code Generation）
输出推理思路、分步目标、可执行Python代码片段，代码仅为单步分析逻辑，不一次性编写完整流程。
安全执行阶段（Code Execution）
通过AST语法安全校验过滤危险操作，在持久Jupyter内核运行代码，所有变量、图像、计算结果永久保存，上下文状态不丢失。
反馈汇总阶段（Feedback Assembly）
收集控制台打印输出、代码报错、中间变量摘要、show()生成的可视化图像，打包作为下一轮输入观测信息。
答案提交阶段（Answer Submission）
若代码中执行ReturnAnswer()则终止循环输出结果；未得到有效结论则返回代码生成阶段继续迭代。

3.2 底层运行架构（三服务解耦）

vLLM后端服务：负责VLM推理、模型自动负载均衡，支持本地私有化部署免API密钥；
GPU感知工具服务：FastAPI封装SAM3、Depth-Anything-3，独立占用GPU算力，与大模型算力隔离；
Agent主控服务：基于LangGraph搭建智能体循环、Jupyter持久内核、代码安全校验、数据集加载逻辑；
三大服务通过共享JSON注册中心通信，支持SLURM任务超时自动重启，适配长时间批量实验。

3.3 内置工具与环境依赖

视觉感知工具：SAM3图像分割、Depth-Anything-3深度重建、场景几何测量工具；
科学计算库：NumPy、SciPy、Matplotlib；
工程组件：AST安全沙盒、vLLM调度、SLURM任务管理器、第三方依赖子模块；
代码语言占比：Python 94.3%、Shell 4.9%、Jinja 0.8%。

3.4 评测基准分类（20套数据集）

任务分类	包含基准数据集
单图空间推理	ERQA、Omni3D、OmniSpatial、SPBench
多视图空间推理	MindCube、MMSI、SPAR-Bench
通用空间推理	BLINK、SpatialTree、ViewSpatial
视频4D时空推理	MMSI-Video、OSI-Bench、PAI-Bench、VSI-Bench-U、VSTI-Bench、DSI-Bench
通用视频理解	CV-Bench、PerceptComp、Video-MME、Video-MME-v2

3.5 性能核心数据

全20个基准平均准确率59.9%，对比SpaceTools-Toolshed（48.7%）提升11.2个百分点；无工具基线仅53.4%，性能提升完全来自代码式动作接口架构创新，而非更强感知工具或模型微调。

四、应用场景

多模态空间问答研究
学术科研人员快速复现空间推理SOTA实验，对比不同VLM在3D几何、遮挡物体、跨视角判断任务的性能差异。
数字孪生/三维场景分析
输入实景照片、视频，自主完成深度重建、物体分割、空间距离测算、场景布局推演，自动生成量化空间分析报告。
具身智能机器人预推理
机器人视觉前置分析模块，基于单帧/多帧图像预判物体位置、遮挡关系、可行走路径，为机械臂抓取、导航提供空间逻辑依据。
视频时序4D时空理解
动态视频物体追踪、运动轨迹推演、时序空间关系问答，适用于监控视频分析、自动驾驶视觉预判断。
工业视觉质检辅助
工业产品多视角图像自动尺寸测算、空间错位检测、部件相对位置校验，AI自主分步测量并输出误差结论。
通用VLM能力二次开发
开发者无需改造大模型主干，快速为自有多模态大模型注入专业空间分析能力，搭建垂直领域空间智能体。

SpatialClaw：英伟达开源免训练空间推理智能体，代码驱动分步迭代 3D 空间分析

五、使用方法

5.1 环境部署步骤

递归克隆仓库（同步拉取第三方子模块）

git clone --recursive https://github.com/NVlabs/SpatialClaw.git
cd SpatialClaw
bash spatial_agent/scripts/setup.sh

配置环境变量文件
复制示例环境文件，填入大模型API密钥；本地部署vLLM可跳过密钥配置：

cp .env.example .env
# 编辑.env文件填写相关密钥/模型路径

单机本地启动实验（无需SLURM集群）

python -m spatial_agent.entrypoints.run \
 --dataset spatial_agent/config/dataset/erqa.json \
 --model spatial_agent/config/model/gemini-3-pro.json \
 --concurrency 4

5.2 集群运行补充说明

SLURM批量实验需提前下载全部VLM权重文件，仓库内置SLURM任务启动脚本、链式重启任务配置，可批量遍历全部20套基准数据集复现论文完整表格数据。

5.3 二次开发入口

新增自定义数据集：在spatial_agent/config/dataset/新增JSON配置文件，配套数据集加载器；
新增感知工具：封装至GPU FastAPI工具服务，在内核预加载代码中注册工具函数；
自定义智能体流程：修改LangGraph规划/反思循环逻辑，参考docs/architecture.md架构文档。

六、竞品对比

选取行业主流SpaceTools-Toolshed、pySpatial、无工具基线做横向对比，指标全部基于项目原文公开实验数据：

对比维度	SpatialClaw(NVIDIA)	SpaceTools-Toolshed	pySpatial	无工具基线VLM
核心交互方式	持久内核分步代码迭代，可查看中间结果动态修正	一次性完整代码执行，无法中途调整逻辑	固定结构化工具调用，操作组合受限	无任何感知工具，纯模型原生推理
20基准平均准确率	59.9%	48.7%	低于SpaceTools	53.4%
是否免训练	是，零微调适配所有VLM	是	是	—
中间推理可视化	支持，保存每步图像、变量、日志	不支持，仅输出最终结果	不支持，仅返回工具调用文本	无中间输出
工具灵活组合能力	极高，自由编写代码串联分割、深度、几何运算	中等，单次代码固定流程	较低，仅支持预设工具API	无工具可用
集群部署支持	完整SLURM调度、三服务解耦、自动重启	仅单机简易运行脚本	无集群适配方案	无配套运行框架
内置基准数据集	20套完整加载器开箱即用	少量单图基准	仅通用空间小数据集	无标准化数据集

SpatialClaw：英伟达开源免训练空间推理智能体，代码驱动分步迭代 3D 空间分析

七、常见问题解答（FAQ）

Q1：SpatialClaw是否需要对使用的视觉大模型进行微调训练？

A：不需要，框架属于训练-free免训练架构，全程不改动VLM模型权重、视觉编码器、跨模态连接器，仅在外层搭建代码智能体流程，同一套提示词、工具即可适配多款不同参数量、不同厂商的VLM。

Q2：本地运行最低硬件配置要求是什么？

A：至少单张具备24GB显存NVIDIA GPU；vLLM加载大模型、Depth-Anything-3重建、SAM3分割均会占用显存，30B以上大模型建议40GB及以上显存显卡；集群环境可拆分三大服务至不同GPU分担算力压力。

Q3：框架支持开源本地私有化VLM，还是仅支持API调用？

A：两种模式全部支持，可填写第三方大模型API密钥远程调用，也可通过内置vLLM服务本地加载开源Qwen、Gemma系列权重，完全离线私有化运行，无需联网请求外部接口。

Q4：运行时报AST安全校验失败，代码执行被拦截如何解决？

A：AST校验用于屏蔽文件删除、系统命令、网络请求等高风险操作；仅允许导入numpy、matplotlib、内置感知工具，删除代码中os、subprocess、requests等系统/网络相关模块调用即可正常执行。

Q5：能否新增自定义3D感知、几何计算工具？

A：可以，需两步操作：1. 将新工具封装为FastAPI接口接入GPU感知服务；2. 在持久Jupyter内核初始化脚本中导入工具函数，模型即可在代码单元中自由调用新增工具。

Q6：SLURM集群运行任务中断、超时如何处理？

A：项目内置链式重启SLURM任务脚本，三大服务具备自动重启机制，中断后可接续上一轮实验进度，无需重新从头跑完整数据集，日志会持久保存每一条样本的推理过程。

Q7：开源协议是否允许商用落地开发？

A：主项目采用NVIDIA Source Code License-NC协议，禁止商用；仓库内置第三方子模块拥有各自独立开源协议，商用场景需单独审核所有依赖组件授权条款。

八、相关链接

GitHub仓库地址：https://github.com/NVlabs/SpatialClaw
项目官网：https://spatialclaw.github.io/

九、总结

SpatialClaw作为英伟达推出的新一代空间推理智能体开源框架，跳出传统工具调用、一次性代码执行的固有范式，依靠持久化Python内核+分步代码迭代的创新交互方式，在无需微调任何视觉语言模型的前提下，大幅提升VLM在单图、多视图、视频4D全品类空间推理任务的精度，配套完整可落地的工程代码、20套标准评测数据集、单机与集群双部署方案，为空间智能体科研、三维视觉分析、具身机器人前置推理等领域提供了一套可完整复现、高度灵活、通用适配的标准化技术底座。