Spatial-TTT：开源流式视频空间智能框架，基于TTT实现无限长视频三维场景持续推理

原创发布日期：2026-06-26

一、Spatial-TTT 是什么

Spatial-TTT 是清华大学THU-SI实验室联合腾讯混元、南洋理工大学共同开源的流式视频空间感知大模型框架，基于测试时训练（TTT，Test-Time Training）技术构建，依托Qwen3-VL多模态视觉基座优化而来。

传统多模态视觉模型处理长视频时，要么依靠扩大上下文窗口带来极高显存消耗，要么截断视频帧丢失三维空间、物体时序位置信息，无法持续记忆场景全局结构。而 Spatial-TTT 核心思路是在视频流式推理阶段，动态更新轻量化快速权重（Fast Weight）构建长效空间记忆，无需存储全部历史帧特征，能够对无限长度视频流持续累积3D场景几何、物体坐标、距离、运动轨迹等空间信息，在视频空间理解基准数据集VSI-Bench达成当前SOTA性能。

项目同步配套专属空间问答训练数据集、完整训练微调代码、批量评测脚本与轻量化预训练权重，面向长视频空间推理、机器人视觉、自动驾驶感知等场景提供开箱即用的开源解决方案。

Spatial-TTT：开源流式视频空间智能框架，基于TTT实现无限长视频三维场景持续推理

二、功能特色

流式长视频永续空间记忆
推理过程动态维护轻量化Fast Weight记忆模块，不限视频时长，持续留存场景三维结构、物体位置、时序变化信息，规避长视频截断丢失关键空间线索问题。
分层混合TTT网络结构
自研TTT层+标准自注意力交替堆叠架构，3层TTT单元搭配1层全局自注意力，兼顾预训练模型原生语义理解能力与长时序空间信息压缩效率。
滑动窗口并行加速计算
内置滑动窗口注意力（SWA）与大分块并行处理逻辑，分块批量解码视频帧，并行完成视觉编码与空间特征提取，大幅降低单卡推理延迟。
3D深度时空卷积空间建模
在TTT分支嵌入轻量化3D时空卷积算子，自动建模帧间物体位移、场景深度、几何对应关系，强化模型三维空间推理能力，擅长距离判断、物体计数、场景定位任务。
完整开源训练&评测链路
提供基于DeepSpeed的分布式微调脚本、VSI-Bench完整评测工具链、两套专属空间数据集、轻量化nano预训练模型，从数据处理、模型训练到指标验证全流程开源。
低显存长视频推理优化
不依赖超大上下文窗口，仅更新少量快速权重，相比传统长视频多模态模型显存占用降低明显，普通多卡训练环境即可完成长视频推理。

三、技术细节

3.1 基础基座与环境依赖

视觉基座：Qwen3-VL 多模态大模型
运行环境：Python3.10+，PyTorch≥2.6、transformers≥4.57、FlashAttention、DeepSpeed、torchcodec 等多模态加速库
分布式训练：支持8卡DeepSpeed多机多卡分布式微调，提供一键conda环境安装脚本

3.2 核心TTT快速权重记忆机制

TTT（测试时训练）区别于传统预训练/微调模式：模型推理流式视频帧时，不更新主模型权重，仅迭代更新一组小型Fast Weight作为场景记忆载体。每一段视频分块处理完成后，快速权重自动整合当前帧空间特征，压缩存储全局场景信息，后续帧推理可直接读取记忆完成跨时序空间关联，无需重复加载全部历史帧特征，解决无限长视频显存溢出难题。

3.3 网络堆叠结构设计

网络采用固定交替堆叠范式：3×TTT层 + 1×全局自注意力层循环排布。

TTT层：负责时序空间特征更新、快速权重读写、3D卷积几何建模；
全局自注意力层：保留Qwen3-VL原生跨帧语义对齐能力，避免TTT模块过度破坏预训练视觉语义。
模块内部QKV投影与滑动窗口注意力并行运算，充分利用GPU并行算力。

3.4 视频分块处理策略

默认分块参数 chunk_size=2648，单段视频最大处理帧数128帧，大分块批量并行解码视频画面，滑动窗口约束单块内帧间注意力计算范围，平衡计算速度与时序连续性。

3.5 配套数据集技术规格

Spatial-TTT-Data-97k：主力训练数据集，含9.7万条稠密空间问答样本，覆盖物体位置、深度、距离、计数、场景描述标注；
Spatial-TTT-Data-Streaming：长流式视频专用数据集，适配长时序空间召回VSR、连续物体计数VSC两类核心空间任务。

3.6 评测体系

评测代码存放于evaluation/spatial/目录，针对行业通用视频空间基准VSI-Bench设计批量评估脚本，自动运行推理、计算空间问答、定位、计数类指标并输出汇总结果。

四、应用场景

智能机器人视觉导航
机器人连续拍摄环境长视频，模型实时记忆全屋/园区三维空间布局、障碍物、目标物体位置，支持持续路径规划、物体定点检索。
自动驾驶车载视觉感知
处理车载连续路测视频流，长效记忆道路标线、车辆、行人、建筑物空间位置，实现远距离物体距离判断、动态障碍物持续追踪。
AR/VR空间场景理解
实时解析摄像头持续采集的实景画面，构建长效空间记忆，支撑虚拟物体空间锚定、实景三维空间问答交互。
长视频监控智能分析
安防摄像头7×24小时流式视频解析，跨时段统计目标数量、定位目标出现区域、判断物体空间移动轨迹。
影视长镜头空间内容问答
针对超长纪录片、影视镜头，回答物体位置、远近对比、场景布局等空间类提问，无需分段剪辑视频。

Spatial-TTT：开源流式视频空间智能框架，基于TTT实现无限长视频三维场景持续推理

五、使用方法

5.1 环境部署

克隆官方GitHub仓库代码；
运行项目内置conda一键安装脚本，自动配置Python、PyTorch、多模态加速依赖库；
从Hugging Face THU-SI组织下载Spatial-TTT-nano轻量化预训练权重。

5.2 模型分布式训练

下载Spatial-TTT-Data-97k训练数据集并配置文件路径；
修改spatial_ttt_train.sh脚本内模型基座路径、数据集路径、输出保存目录；
8卡GPU环境执行shell脚本，通过DeepSpeed启动分布式微调训练。

5.3 模型推理与评测

进入evaluation/spatial/评测文件夹；
配置VSI-Bench基准数据集路径与加载的模型权重；
执行批量评测脚本，自动完成全部测试样本推理并输出各项空间任务精度指标；
自定义流式视频推理可调用项目封装好的视频分块解码、Fast Weight记忆更新接口，直接输入本地视频文件完成长视频空间问答。

六、竞品对比

选取同赛道2款主流长视频多模态空间理解框架进行维度对比：LaCT、通用原生Qwen3-VL

对比维度	Spatial-TTT	LaCT	原生Qwen3-VL
核心技术	TTT测试时训练+Fast Weight长效空间记忆	长上下文滑动注意力	固定窗口自注意力，无专用记忆模块
长视频显存优化	极低，仅更新轻量化快速权重	中等，依赖窗口裁剪压缩	高，上下文越长显存占用线性暴涨
三维空间建模能力	内置3D时空卷积，原生支持深度、距离推理	仅二维时序建模，无专用几何算子	基础帧间语义，缺乏空间几何建模
支持无限长视频流	支持，记忆可持续迭代更新	不支持，窗口存在长度上限	不支持，超出上下文需截断帧
空间问答SOTA表现	VSI-Bench基准最优	中等水平	基础性能，空间任务误差大
分布式训练配套	完整DeepSpeed训练脚本+专用空间数据集	仅基础微调代码	仅通用图文微调脚本
硬件门槛	多卡/单卡均可运行	需高显存A100级显卡	超长视频必须大显存GPU

七、常见问题解答

Q1：Spatial-TTT 只能使用Qwen3-VL作为基座吗？

A：项目原生基于Qwen3-VL开发，网络层结构、视觉编码模块深度适配该基座；理论上可适配其他VL模型，但需要手动修改TTT层与视觉编码器对接代码，官方未提供其他基座适配脚本，推荐直接使用原生Qwen3-VL基座。

Q2：单卡GPU能否运行Spatial-TTT训练和推理？

A：轻量化Spatial-TTT-nano模型单卡可完成短视频推理；完整训练流程依赖DeepSpeed分布式加速，官方推荐8卡环境；长视频流式推理单卡会出现速度下降，多卡并行体验更佳。

Q3：Fast Weight记忆会无限膨胀占用显存吗？

A：不会，Fast Weight为固定尺寸轻量化参数矩阵，无论输入视频时长多久，参数体量保持不变，仅在推理过程迭代更新数值，不存在特征堆积导致显存持续上涨的问题。

Q4：自定义本地视频如何接入框架做空间问答？

A：项目内部封装了视频分块解码API，只需传入本地视频文件路径，设置分块大小、最大帧参数，加载预训练权重后即可调用问答接口输出空间推理结果，无需额外开发视频处理逻辑。

Q5：VSI-Bench评测数据集需要自行下载吗？

A：是的，VSI-Bench为第三方公开基准数据集，仓库仅提供评测执行代码，需自行获取数据集并在脚本中配置存放路径，官方配套数据集仅Spatial-TTT专属训练数据托管于Hugging Face。

Q6：项目提供的nano模型和完整训练模型差距大吗？

A：Spatial-TTT-nano基于小规模空间数据训练，推理速度更快、硬件门槛更低，适合快速验证功能；完整全量训练模型使用97k海量样本训练，空间任务精度更高，适合正式业务落地。

八、相关链接

GitHub仓库：https://github.com/THU-SI/Spatial-TTT
项目主页：https://liuff19.github.io/Spatial-TTT/
论文arXiv地址：https://arxiv.org/abs/2603.12255

九、总结

Spatial-TTT是清华、腾讯混元、南洋理工联合推出的开源长视频空间智能框架，依托创新TTT快速权重记忆机制解决传统多模态模型无法持续解析无限流式视频三维空间信息的痛点，搭配专用3D时空卷积算子、滑动窗口并行计算与完整开源训练评测工具链，在视频空间理解基准实现领先性能，适配机器人导航、自动驾驶、安防监控、AR实景交互等多类长视频空间推理业务，代码、数据集、轻量化模型全部公开，提供完整可落地的多卡分布式部署方案，是目前开源领域针对流式视频空间感知场景最优的落地框架之一。