SpatialClaw:英伟达开源免训练空间推理智能体,代码驱动分步迭代 3D 空间分析
一、SpatialClaw是什么
SpatialClaw是NVIDIA NVlabs联合KAIST AI开源发布、面向视觉语言模型(VLM)的免训练空间推理智能体框架,其项目核心理念是将Python代码作为空间智能体唯一动作交互接口,摒弃传统固定工具调用、一次性全量代码执行的局限,依靠持久化Jupyter内核实现分步迭代式空间分析,解决VLM在3D/4D、单图、多视图、视频时空场景下空间理解薄弱的行业痛点。
整套框架无需微调任何视觉语言模型,统一提示词、工具集、超参数即可适配6款26B~397B参数主流VLM,在20类权威空间推理基准测试中平均准确率达59.9%,超越同期最优空间智能体11.2个百分点。
二、核心功能特色
免训练零微调通用适配
无需对Qwen3.5/3.6、Gemma4等VLM主干做任何训练、微调,仅通过外层智能体流程增强空间推理能力,跨模型、跨数据集保持稳定性能提升。持久化代码分步迭代推理
搭载有状态Jupyter Python内核,模型逐段编写代码单元分步执行,全程留存中间变量、深度图、分割掩码、打印日志、报错信息,可基于上一轮结果动态修正分析逻辑,支持可视化中间证据。一站式内置感知几何工具栈
内核预加载全套空间感知与计算组件:SAM3图像实例分割、Depth-Anything-3三维场景重建、NumPy/SciPy几何运算、Matplotlib可视化,无需额外开发工具封装。标准化五阶段智能体循环
内置Planning规划→代码生成→安全校验执行→反馈汇总→答案提交闭环流程,循环迭代至模型调用ReturnAnswer()输出有效答案,逻辑可复现、每步推理可追溯。分布式多服务集群架构
拆分为vLLM大模型服务、GPU感知工具服务、Agent主控服务三大独立模块,支持单机GPU本地运行与SLURM集群批量调度,服务自动重启、算力负载均衡。全覆盖20类空间推理基准
原生内置单图、多视图、通用空间、视频4D时空、通用视频五大类共20套标准数据集加载器,开箱复现论文全部实验结果。完整工程化配套文档与工具
提供环境一键部署脚本、监控日志面板、故障排查指南、SLURM调度模板、配置文件模板,覆盖开发、实验、运维全流程。

三、技术细节
3.1 核心工作流:五阶段迭代闭环
规划阶段(Planning)
输入图像、问题、工具文档、元数据,VLM梳理空间分析整体解题策略,明确分步目标。代码生成阶段(Code Generation)
输出推理思路、分步目标、可执行Python代码片段,代码仅为单步分析逻辑,不一次性编写完整流程。安全执行阶段(Code Execution)
通过AST语法安全校验过滤危险操作,在持久Jupyter内核运行代码,所有变量、图像、计算结果永久保存,上下文状态不丢失。反馈汇总阶段(Feedback Assembly)
收集控制台打印输出、代码报错、中间变量摘要、show()生成的可视化图像,打包作为下一轮输入观测信息。答案提交阶段(Answer Submission)
若代码中执行ReturnAnswer()则终止循环输出结果;未得到有效结论则返回代码生成阶段继续迭代。
3.2 底层运行架构(三服务解耦)
vLLM后端服务:负责VLM推理、模型自动负载均衡,支持本地私有化部署免API密钥;
GPU感知工具服务:FastAPI封装SAM3、Depth-Anything-3,独立占用GPU算力,与大模型算力隔离;
Agent主控服务:基于LangGraph搭建智能体循环、Jupyter持久内核、代码安全校验、数据集加载逻辑;
三大服务通过共享JSON注册中心通信,支持SLURM任务超时自动重启,适配长时间批量实验。
3.3 内置工具与环境依赖
视觉感知工具:SAM3图像分割、Depth-Anything-3深度重建、场景几何测量工具;
科学计算库:NumPy、SciPy、Matplotlib;
工程组件:AST安全沙盒、vLLM调度、SLURM任务管理器、第三方依赖子模块;
代码语言占比:Python 94.3%、Shell 4.9%、Jinja 0.8%。
3.4 评测基准分类(20套数据集)
| 任务分类 | 包含基准数据集 |
|---|---|
| 单图空间推理 | ERQA、Omni3D、OmniSpatial、SPBench |
| 多视图空间推理 | MindCube、MMSI、SPAR-Bench |
| 通用空间推理 | BLINK、SpatialTree、ViewSpatial |
| 视频4D时空推理 | MMSI-Video、OSI-Bench、PAI-Bench、VSI-Bench-U、VSTI-Bench、DSI-Bench |
| 通用视频理解 | CV-Bench、PerceptComp、Video-MME、Video-MME-v2 |
3.5 性能核心数据
全20个基准平均准确率59.9%,对比SpaceTools-Toolshed(48.7%)提升11.2个百分点;无工具基线仅53.4%,性能提升完全来自代码式动作接口架构创新,而非更强感知工具或模型微调。
四、应用场景
多模态空间问答研究
学术科研人员快速复现空间推理SOTA实验,对比不同VLM在3D几何、遮挡物体、跨视角判断任务的性能差异。数字孪生/三维场景分析
输入实景照片、视频,自主完成深度重建、物体分割、空间距离测算、场景布局推演,自动生成量化空间分析报告。具身智能机器人预推理
机器人视觉前置分析模块,基于单帧/多帧图像预判物体位置、遮挡关系、可行走路径,为机械臂抓取、导航提供空间逻辑依据。视频时序4D时空理解
动态视频物体追踪、运动轨迹推演、时序空间关系问答,适用于监控视频分析、自动驾驶视觉预判断。工业视觉质检辅助
工业产品多视角图像自动尺寸测算、空间错位检测、部件相对位置校验,AI自主分步测量并输出误差结论。通用VLM能力二次开发
开发者无需改造大模型主干,快速为自有多模态大模型注入专业空间分析能力,搭建垂直领域空间智能体。

五、使用方法
5.1 环境部署步骤
递归克隆仓库(同步拉取第三方子模块)
git clone --recursive https://github.com/NVlabs/SpatialClaw.git cd SpatialClaw bash spatial_agent/scripts/setup.sh
配置环境变量文件
复制示例环境文件,填入大模型API密钥;本地部署vLLM可跳过密钥配置:
cp .env.example .env # 编辑.env文件填写相关密钥/模型路径
单机本地启动实验(无需SLURM集群)
python -m spatial_agent.entrypoints.run \ --dataset spatial_agent/config/dataset/erqa.json \ --model spatial_agent/config/model/gemini-3-pro.json \ --concurrency 4
5.2 集群运行补充说明
SLURM批量实验需提前下载全部VLM权重文件,仓库内置SLURM任务启动脚本、链式重启任务配置,可批量遍历全部20套基准数据集复现论文完整表格数据。
5.3 二次开发入口
新增自定义数据集:在
spatial_agent/config/dataset/新增JSON配置文件,配套数据集加载器;新增感知工具:封装至GPU FastAPI工具服务,在内核预加载代码中注册工具函数;
自定义智能体流程:修改LangGraph规划/反思循环逻辑,参考
docs/architecture.md架构文档。
六、竞品对比
选取行业主流SpaceTools-Toolshed、pySpatial、无工具基线做横向对比,指标全部基于项目原文公开实验数据:
| 对比维度 | SpatialClaw(NVIDIA) | SpaceTools-Toolshed | pySpatial | 无工具基线VLM |
|---|---|---|---|---|
| 核心交互方式 | 持久内核分步代码迭代,可查看中间结果动态修正 | 一次性完整代码执行,无法中途调整逻辑 | 固定结构化工具调用,操作组合受限 | 无任何感知工具,纯模型原生推理 |
| 20基准平均准确率 | 59.9% | 48.7% | 低于SpaceTools | 53.4% |
| 是否免训练 | 是,零微调适配所有VLM | 是 | 是 | — |
| 中间推理可视化 | 支持,保存每步图像、变量、日志 | 不支持,仅输出最终结果 | 不支持,仅返回工具调用文本 | 无中间输出 |
| 工具灵活组合能力 | 极高,自由编写代码串联分割、深度、几何运算 | 中等,单次代码固定流程 | 较低,仅支持预设工具API | 无工具可用 |
| 集群部署支持 | 完整SLURM调度、三服务解耦、自动重启 | 仅单机简易运行脚本 | 无集群适配方案 | 无配套运行框架 |
| 内置基准数据集 | 20套完整加载器开箱即用 | 少量单图基准 | 仅通用空间小数据集 | 无标准化数据集 |

七、常见问题解答(FAQ)
Q1:SpatialClaw是否需要对使用的视觉大模型进行微调训练?
A:不需要,框架属于训练-free免训练架构,全程不改动VLM模型权重、视觉编码器、跨模态连接器,仅在外层搭建代码智能体流程,同一套提示词、工具即可适配多款不同参数量、不同厂商的VLM。
Q2:本地运行最低硬件配置要求是什么?
A:至少单张具备24GB显存NVIDIA GPU;vLLM加载大模型、Depth-Anything-3重建、SAM3分割均会占用显存,30B以上大模型建议40GB及以上显存显卡;集群环境可拆分三大服务至不同GPU分担算力压力。
Q3:框架支持开源本地私有化VLM,还是仅支持API调用?
A:两种模式全部支持,可填写第三方大模型API密钥远程调用,也可通过内置vLLM服务本地加载开源Qwen、Gemma系列权重,完全离线私有化运行,无需联网请求外部接口。
Q4:运行时报AST安全校验失败,代码执行被拦截如何解决?
A:AST校验用于屏蔽文件删除、系统命令、网络请求等高风险操作;仅允许导入numpy、matplotlib、内置感知工具,删除代码中os、subprocess、requests等系统/网络相关模块调用即可正常执行。
Q5:能否新增自定义3D感知、几何计算工具?
A:可以,需两步操作:1. 将新工具封装为FastAPI接口接入GPU感知服务;2. 在持久Jupyter内核初始化脚本中导入工具函数,模型即可在代码单元中自由调用新增工具。
Q6:SLURM集群运行任务中断、超时如何处理?
A:项目内置链式重启SLURM任务脚本,三大服务具备自动重启机制,中断后可接续上一轮实验进度,无需重新从头跑完整数据集,日志会持久保存每一条样本的推理过程。
Q7:开源协议是否允许商用落地开发?
A:主项目采用NVIDIA Source Code License-NC协议,禁止商用;仓库内置第三方子模块拥有各自独立开源协议,商用场景需单独审核所有依赖组件授权条款。
八、相关链接
GitHub仓库地址:https://github.com/NVlabs/SpatialClaw
项目官网:https://spatialclaw.github.io/
九、总结
SpatialClaw作为英伟达推出的新一代空间推理智能体开源框架,跳出传统工具调用、一次性代码执行的固有范式,依靠持久化Python内核+分步代码迭代的创新交互方式,在无需微调任何视觉语言模型的前提下,大幅提升VLM在单图、多视图、视频4D全品类空间推理任务的精度,配套完整可落地的工程代码、20套标准评测数据集、单机与集群双部署方案,为空间智能体科研、三维视觉分析、具身机器人前置推理等领域提供了一套可完整复现、高度灵活、通用适配的标准化技术底座。
版权及免责申明:本文由@AI工具箱原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/spatialclaw.html

