SenseNova-SI:商汤科技开源的高性能多模态空间智能训练与推理模型

原创 发布日期:
65

一、SenseNova-SI是什么

SenseNova-SI是由商汤科技开发的开源多模态空间智能项目,聚焦于提升基础大模型的空间认知能力。该项目依托800万规模的专用数据集,基于Qwen3-VL、InternVL3等主流基础模型进行规模化训练,打造出的SenseNova-SI系列模型在VSI、MMSI等多项空间智能基准测试中达到同规模模型领先水平。

SenseNova-SI并非从零构建全新模型,而是基于Qwen3-VL、InternVL3、Bagel等业界广泛认可的开源多模态基础模型进行二次开发。这种开发模式的优势在于,能够最大化兼容现有开源生态的研究与应用流程,降低开发者的使用门槛。目前,项目已发布基于InternVL3架构的两款模型——SenseNova-SI-1.1-InternVL3-2B和SenseNova-SI-1.1-InternVL3-8B,两款模型在多个权威空间智能基准测试中均取得了同参数规模模型的领先成绩,同时还保持了优秀的通用多模态理解能力,实现了“空间智能专精+通用能力不丢”的双重目标。

作为一款开源项目,SenseNova-SI的代码仓库、模型权重、数据集构建方案均向公众开放,旨在推动空间智能领域的技术研究与产业落地,为全球开发者提供一个可复用、可拓展的技术平台。

二、功能特色

SenseNova-SI项目围绕“提升多模态模型空间智能”这一核心目标,设计了一系列差异化功能,其特色可以概括为以下五大方面:

1. 针对性解决空间智能短板,基准测试表现领先

传统多模态模型在处理空间相关任务时,往往会出现“视角混淆”“位置判断错误”“三维结构理解偏差”等问题。而SenseNova-SI通过专用数据集训练和优化策略,精准攻克了这些痛点。在VSI(视觉空间推理基准)、MMSI(多模态空间推理基准)、MindCube(三维立方体推理基准)、ViewSpatial(视角变换理解基准)、SITE(空间文本交互推理基准)五大权威空间智能测试中,发布的两款模型均达到了同规模开源模型的**state-of-the-art(SOTA)**水平。

以MindCube-Tiny基准测试为例,8B参数的SenseNova-SI-1.1-InternVL3-8B模型准确率高达85.6%,远超同规模传统多模态模型,充分证明了其在空间推理任务上的优势。

2. 基于成熟基础模型开发,生态兼容性强

项目选择Qwen3-VL、InternVL3等主流开源多模态模型作为基础架构,而非独立构建全新模型。这一设计带来了两大核心优势:一是开发者无需学习全新的模型调用与训练逻辑,可直接沿用现有基于这些基础模型的开发流程;二是模型权重可与现有生态工具链无缝对接,无论是推理部署还是二次训练,都能降低技术适配成本。例如,基于InternVL3开发的SenseNova-SI模型,可直接使用Hugging Face生态的transformers库进行加载和推理。

3. 800万规模专用数据集,覆盖全场景空间任务

空间智能的提升离不开高质量、大规模的专用数据支撑。SenseNova-SI团队构建了包含800万样本的SenseNova-SI-8M数据集,该数据集基于严格的空间能力分类体系进行设计,覆盖了六大核心空间任务类型:

  • 物体相对位置判断:如“桌子在椅子的左边还是右边”

  • 视角变换理解:如“从正面和侧面观察同一物体的差异”

  • 三维结构推理:如“根据二维视图还原物体的三维形态”

  • 空间关系描述:如“用文字描述多个物体在空间中的排布”

  • 空间导航规划:如“从A点到B点的最优路径选择”

  • 空间场景重构:如“根据局部图像还原完整空间场景”

数据集的每一个样本都经过严格的标注和质量校验,确保数据的准确性和有效性,为模型的空间智能训练提供了坚实基础。

4. 兼顾空间智能与通用能力,避免“偏科”

很多针对特定任务优化的模型,往往会出现“专精任务能力强,通用任务能力弱”的“偏科”问题。而SenseNova-SI在训练过程中采用了**“空间任务强化+通用任务保留”**的平衡策略,在提升空间智能的同时,通过保留基础模型的通用能力训练模块,确保模型在图像描述、文本问答、跨模态检索等通用多模态任务中依然保持优秀表现。这使得SenseNova-SI模型不仅能胜任空间智能相关任务,还能作为通用多模态模型使用,适用场景更加广泛。

5. 开源开放,支持灵活二次开发

SenseNova-SI项目遵循Apache License 2.0开源协议,代码仓库、模型权重、数据集构建方案全部对外开放。开发者不仅可以直接使用预训练模型进行推理,还能基于项目提供的训练代码,结合自身业务需求,进一步优化模型参数、扩展数据集,实现个性化的空间智能模型定制。同时,项目提供了详细的文档和示例代码,降低了开发者的使用门槛。

三、技术细节

SenseNova-SI项目的技术核心在于**“专用数据集构建+规模化训练策略+模型结构微调”**三部分,以下从技术架构、数据集构建、训练策略、基准测试四个维度进行详细解读:

1. 技术架构:基于主流多模态模型的轻量化优化

SenseNova-SI的模型架构基于现有成熟的多模态大模型(如InternVL3)进行构建,整体架构保持了基础模型的“图像编码器+文本编码器+跨模态融合模块+解码器”的经典结构,核心优化集中在跨模态融合模块和解码器的参数微调上,具体如下:

  • 图像编码器:沿用基础模型的视觉编码器(如InternVL3的ViT-Huge图像编码器),负责将输入图像转化为高维视觉特征向量,捕捉图像中的物体形态、颜色、纹理等基础信息。

  • 文本编码器:采用基础模型的文本编码器(如BERT-like架构),将输入的文本指令(如空间推理问题)转化为文本特征向量。

  • 跨模态融合模块:这是SenseNova-SI的核心优化部分。团队在基础模型的融合模块中加入了空间注意力机制,该机制能够让模型更精准地捕捉图像中物体的空间位置关系和文本指令中的空间关键词(如“左边”“上方”“旋转90度”),从而提升跨模态空间信息的融合效率。

  • 解码器:通过微调解码器的参数,强化模型对空间关系的输出能力,确保模型能够生成准确、清晰的空间推理结果。

相较于从零构建模型,这种基于现有架构的轻量化优化策略,既降低了训练成本,又保证了模型的稳定性和兼容性。

2. 数据集构建:800万样本的结构化设计

SenseNova-SI-8M数据集是模型空间智能提升的核心支撑,其构建过程遵循“场景分类-样本采集-标注校验-质量筛选”的四步流程:

  1. 场景分类:团队将空间智能任务划分为六大核心场景(如前文所述),每个场景下再细分多个子场景,确保数据集的覆盖全面性。

  2. 样本采集:样本来源包括公开空间智能数据集(如VSI、MMSI的公开样本)、人工合成的空间场景图像(如三维建模软件生成的立方体、家具排布场景)、真实场景拍摄的图像(如室内家居布局、室外街道场景),以及对应的文本指令和标注结果。

  3. 标注校验:采用“人工标注+机器校验”的双重标注策略。人工标注负责确定样本的空间关系标签,机器校验则通过算法检查标注结果的一致性和准确性,避免人工标注错误。

  4. 质量筛选:通过模型预训练验证,剔除标注模糊、歧义较大的样本,最终保留800万高质量样本,形成SenseNova-SI-8M数据集。

3. 训练策略:规模化训练+平衡优化

SenseNova-SI采用**“规模化预训练+微调”**的两步训练策略,确保模型空间智能的高效提升:

  1. 规模化预训练:使用SenseNova-SI-8M数据集对基础模型进行全量预训练,训练过程中采用“空间任务权重强化”策略,即对空间相关样本赋予更高的训练权重,让模型更专注于学习空间关系特征。同时,为了避免模型遗忘通用能力,训练数据中加入了30%的通用多模态样本(如图像描述、文本问答样本)。

  2. 微调优化:在预训练完成后,使用五大空间智能基准测试的验证集对模型进行微调,调整模型的超参数(如学习率、批次大小),进一步提升模型在基准测试中的表现。微调过程中采用小批量、低学习率的策略,确保模型参数的稳定优化。

4. 基准测试:五大权威榜单验证模型性能

为了全面验证模型的空间智能水平,SenseNova-SI团队选取了五项国际公认的空间智能基准测试,对两款发布的模型进行了系统性评估。测试结果如下表所示:

模型名称 VSI(%) MMSI(%) MindCube-Tiny(%) ViewSpatial(%) SITE(%)
SenseNova-SI-1.1-InternVL3-2B 63.7 34.2 41.8 52.6 36.7
SenseNova-SI-1.1-InternVL3-8B 68.7 43.3 85.6 54.6 47.7
InternVL3-2B(基础模型) 52.1 25.3 28.5 45.2 27.4
InternVL3-8B(基础模型) 58.3 32.1 56.2 48.5 35.1

从表中可以看出,经过SenseNova-SI项目的优化后,模型在所有空间智能基准测试中的表现均显著优于基础模型,其中8B参数模型在MindCube-Tiny测试中的性能提升最为明显,准确率从56.2%提升至85.6%,充分验证了项目训练策略的有效性。

SenseNova-SI:商汤科技开源的高性能多模态空间智能训练与推理模型

四、应用场景

SenseNova-SI模型凭借其强大的空间智能和通用多模态能力,可广泛应用于多个需要空间认知与推理的领域,具体应用场景如下:

1. 机器人导航与自主操作

机器人在执行导航、物体抓取等任务时,需要精准理解自身与周围环境的空间关系。SenseNova-SI模型可以帮助机器人:

  • 识别环境中物体的相对位置(如“障碍物在前方3米处”);

  • 理解不同视角下的物体形态(如“从侧面观察到的箱子与正面观察的差异”);

  • 规划最优移动路径,避开障碍物。 该场景可应用于仓储机器人、家庭服务机器人、工业巡检机器人等领域。

2. 自动驾驶场景理解

自动驾驶系统需要对复杂的道路场景进行实时空间分析,SenseNova-SI模型可助力:

  • 识别车辆、行人、交通标识的空间位置关系(如“行人在车辆的右侧人行道上”);

  • 判断车辆与障碍物的距离和相对运动方向;

  • 理解道路的三维结构(如“上坡路段”“转弯路段”)。 通过提升场景空间理解能力,可进一步提高自动驾驶系统的安全性和可靠性。

3. 虚拟/增强现实(VR/AR)内容生成

VR/AR技术需要构建逼真的虚拟空间,SenseNova-SI模型可应用于:

  • 根据用户输入的文本指令,生成符合空间逻辑的虚拟场景(如“生成一个客厅,沙发在茶几的正对面,电视在沙发的墙上”);

  • 实现虚拟物体与现实空间的精准融合(如“将虚拟花瓶放置在现实桌子的正中央”);

  • 支持用户在虚拟空间中的视角变换,确保场景的空间一致性。

4. 建筑与室内设计

在建筑和室内设计领域,SenseNova-SI模型可帮助设计师:

  • 根据二维平面图,生成三维空间效果图,并调整物体的空间排布;

  • 回答用户的空间设计问题(如“衣柜放在卧室的哪个位置不影响动线”);

  • 模拟不同视角下的空间效果,辅助设计方案的优化。

5. 医疗影像空间分析

在医疗领域,SenseNova-SI模型可用于医疗影像的空间推理:

  • 分析CT、MRI影像中病灶与周围组织的空间位置关系(如“肿瘤在肝脏的右叶上方”);

  • 还原病灶的三维结构,辅助医生制定手术方案;

  • 识别医学影像中的空间异常(如“骨骼的错位情况”)。

6. 通用空间推理问答

除了专业领域,SenseNova-SI模型还可作为通用空间推理问答工具,应用于教育、游戏等场景:

  • 教育领域:为学生提供空间推理题目解答,辅助几何、地理等学科的学习;

  • 游戏领域:生成游戏中的空间谜题,或帮助游戏角色理解虚拟场景的空间关系。

五、使用方法

SenseNova-SI项目提供了简洁易懂的使用流程,支持模型的快速安装、推理和训练,以下是详细的操作指南:

1. 环境准备

项目推荐使用uv工具管理Python环境(uv是一款快速、简洁的Python包管理器,比pipconda更高效),同时需要根据本地显卡配置安装对应的CUDA版本。

1.1 安装uv工具

# Linux/macOS系统
curl -LsSf https://astral.sh/uv/install.sh | sh

# Windows系统
powershell -c "irm https://astral.sh/uv/install.ps1 | iex"

1.2 克隆代码仓库

git clone https://github.com/OpenSenseNova/SenseNova-SI.git
cd SenseNova-SI

1.3 创建并激活虚拟环境

# 根据本地CUDA版本选择对应的extra参数,支持cu118|cu121|cu124|cu126|cu128|cu129
uv sync --extra cu124

# 激活虚拟环境
# Linux/macOS系统
source .venv/bin/activate
# Windows系统
.venv\Scripts\activate

2. 模型推理

SenseNova-SI提供了预训练模型的推理示例,支持输入图像和文本问题,输出空间推理结果。

2.1 下载预训练模型

预训练模型权重托管在Hugging Face平台,可通过以下方式下载:

# 安装huggingface_hub工具
pip install huggingface_hub

# 下载8B参数模型(以8B为例,2B模型同理)
huggingface-cli download sensenova/SenseNova-SI-1.1-InternVL3-8B --local-dir ./models/SenseNova-SI-1.1-InternVL3-8B

2.2 运行推理示例

项目提供了example.py脚本,可直接运行空间推理任务。示例命令如下:

python example.py \
 --image_paths examples/Q1_1.png examples/Q1_2.png \
 --question "<image><image>\nYou are standing in front of the dice pattern and observing it. Where is the desk lamp approximately located relative to you?\nOptions: A: 90 degrees counterclockwise, B: 90 degrees clockwise, C: 135 degrees counterclockwise, D: 135 degrees clockwise" \
 --model_path ./models/SenseNova-SI-1.1-InternVL3-8B

参数说明:

  • --image_paths:输入图像的路径,支持多张图像输入;

  • --question:文本问题,需要包含<image>标签(与图像数量对应),描述空间推理任务;

  • --model_path:预训练模型的本地路径。

运行成功后,脚本会输出模型的推理结果(如选项D)。

3. 模型训练

如果开发者需要基于自有数据集进行二次训练,可参考项目提供的训练脚本train.py,核心步骤如下:

3.1 数据格式准备

自有数据集需要转换为项目支持的JSON格式,每条样本包含image_path(图像路径)、question(文本问题)、answer(标注答案)三个字段,示例如下:

[
 {
  "image_path": "data/images/scene1.jpg",
  "question": "<image>\nWhat is the position of the cat relative to the sofa?",
  "answer": "The cat is on the sofa."
 }
]

3.2 配置训练参数

修改configs/train_config.yaml文件,配置训练相关参数:

# 模型路径
model_path: ./models/SenseNova-SI-1.1-InternVL3-8B
# 训练数据路径
train_data_path: ./data/train.json
# 验证数据路径
val_data_path: ./data/val.json
# 训练参数
batch_size: 8
learning_rate: 1e-5
num_epochs: 10
# 输出路径
output_dir: ./output/models

3.3 启动训练

python train.py --config configs/train_config.yaml

训练完成后,优化后的模型权重会保存到output_dir指定的路径。

4. 模型评测

如需验证模型在空间智能基准测试中的表现,可参考EASI项目的评测流程。EASI是一个专门用于评估多模态模型空间智能的工具包,支持一键运行五大基准测试,具体步骤可参考EASI项目的官方文档。

六、常见问题解答

1. 问题:运行推理脚本时,出现“CUDA out of memory”(CUDA内存不足)错误怎么办?

解答:该错误是由于显卡内存不足以加载模型导致的,可通过以下方式解决:

  • 选择更小参数的模型:如将8B模型更换为2B模型;

  • 降低推理时的批次大小:在example.py脚本中,将batch_size参数设置为1;

  • 启用模型量化:使用bitsandbytes库对模型进行4-bit或8-bit量化,降低内存占用。示例代码如下:

    from transformers import AutoModelForCausalLM, AutoTokenizer
    model = AutoModelForCausalLM.from_pretrained(
      model_path,
      load_in_4bit=True,
      device_map="auto"
    )

2. 问题:下载模型权重时,速度很慢或者下载失败怎么办?

解答:可通过以下两种方式解决:

  • 使用国内镜像源:在~/.huggingface/hub目录下创建config.yaml文件,添加国内镜像源配置;

  • 手动下载:直接访问Hugging Face模型页面(如https://huggingface.co/sensenova/SenseNova-SI-1.1-InternVL3-8B),手动下载模型文件并解压到本地。

3. 问题:模型推理结果不准确,如何优化?

解答:可从以下三个方面进行优化:

  • 提升输入图像质量:确保输入图像清晰,无模糊、遮挡情况;

  • 优化文本问题描述:问题描述需简洁明确,包含清晰的空间关键词(如“左边”“上方”);

  • 进行二次微调:使用自有高质量空间推理数据集对模型进行微调,提升模型在特定场景下的表现。

4. 问题:SenseNova-SI支持哪些操作系统?

解答:项目支持Linux、macOS和Windows三大主流操作系统。其中,Linux系统对CUDA的支持最好,推荐用于模型训练和大规模推理;macOS系统支持基于M系列芯片的推理;Windows系统需确保安装了对应的CUDA驱动。

5. 问题:SenseNova-SI的开源协议是什么?可以用于商业用途吗?

解答:项目采用Apache License 2.0开源协议。根据该协议,开发者可以自由地使用、修改、分发项目代码和模型,无论是个人用途还是商业用途,都无需支付任何费用,但需要在分发的产品中保留原始版权声明。

6. 问题:如何向SenseNova-SI项目贡献代码或反馈问题?

解答:如果发现项目存在bug或有功能优化建议,可以通过以下方式反馈:

  • 在GitHub仓库的Issues页面提交问题描述;

  • Fork项目仓库,修改代码后提交Pull Request;

  • 加入项目的官方交流群(可参考仓库README文件获取群聊信息),与开发团队直接沟通。

七、相关链接

  1. 项目代码仓库https://github.com/OpenSenseNova/SenseNova-SI

  2. 模型权重仓库https://huggingface.co/collections/sensenova/sensenova-si

  3. 项目论文https://arxiv.org/abs/2511.13719

  4. 空间智能基准测试排行榜https://huggingface.co/spaces/lmms-lab-si/EASI-Leaderboard

  5. EASI评测工具包https://github.com/EvolvingLMMs-Lab/EASI

八、总结

SenseNova-SI是一款由商汤科技开发的开源多模态空间智能项目,旨在解决传统多模态模型在空间认知与推理任务中的短板。该项目依托800万规模的专用空间智能数据集,基于Qwen3-VL、InternVL3等主流基础模型进行针对性训练与优化,打造出的SenseNova-SI系列模型在VSI、MMSI等五大权威空间智能基准测试中达到同规模模型领先水平,同时还保持了优秀的通用多模态能力。项目具有生态兼容性强、使用门槛低、支持灵活二次开发等特点,可广泛应用于机器人导航、自动驾驶、VR/AR、建筑设计等多个领域。作为开源项目,SenseNova-SI遵循Apache License 2.0协议,为全球开发者提供了一个可复用、可拓展的空间智能技术平台,推动了多模态模型在空间智能领域的研究与产业落地。

打赏
THE END
作者头像
97ai
我不是在训练模型,而是在与未来的自己对话。