MMSI-Video-Bench：上海AI Lab开源的视频空间智能评测基准

原创发布日期：2026-01-11

一、MMSI-Video-Bench是什么

MMSI-Video-Bench 全称 Multi-Modal Spatial Intelligence Video Benchmark（多模态空间智能视频基准），是由上海人工智能实验室InternRobotics团队牵头，联合上海交通大学、香港中文大学、浙江大学等9所国内外顶尖高校共同研发的开源视频空间智能评测体系，也是当前业界最全面、最具挑战性的视频空间智能专项评测基准之一。

从核心定位来看，MMSI-Video-Bench 属于「多模态大模型专项能力评测工具」，专门解决“如何科学评估多模态大模型在视频场景下空间智能能力”的行业痛点。随着AI技术向具身智能、物理世界交互方向演进，多模态大模型不仅需要“看懂”视频画面内容，更需要理解画面中的空间布局、运动规律、实体关联，以及基于这些信息进行规划决策——这就是“空间智能”的核心内涵，也是当前大模型从“屏幕内智能”迈向“物理世界智能”的关键瓶颈。而现有评测基准多局限于单图理解或模板化问题，无法系统刻画模型的视频空间智能能力，MMSI-Video-Bench 正是在此背景下应运而生。

简单来说，MMSI-Video-Bench就是为多模态大模型打造的“视频空间智能大考”：它通过提供标准化的视频素材、精准的标注问题、科学的评估指标，让开发者和研究者能够客观衡量模型在空间构建、运动理解、未来预测等核心能力上的表现，明确模型与人类水平的差距，定位技术瓶颈。例如，通过“判断视频中机器人手臂运动轨迹是否能触达目标物体”“预测3秒后滚动小球的落点位置”等问题，全面考察模型对视频时空信息的深层理解能力。

从项目构成来看，MMSI-Video-Bench 并非单一的数据集或代码脚本，而是一套完整的开源评测生态，核心包含四大组成部分：一是高质量视频素材库（1278个覆盖多元场景的视频片段）；二是全人工标注的问题-答案数据集（1106道精准指向空间智能核心难点的问题）；三是科学的评测指标体系与评估代码；四是主流多模态模型的适配工具包。所有核心资源均已开源，遵循CC-BY-4.0开源协议，支持研究者自由使用、二次开发与学术研究。

从技术价值来看，该基准的核心贡献在于首次构建了系统化的视频空间智能评测框架，填补了现有评测体系在视频长时序空间推理能力评估上的空白。通过对25个主流多模态模型的实测发现，即便是表现最优的Gemini 3 Pro准确率也仅为38%，远低于人类96.4%的水平，存在近60%的巨大性能差距，这一发现为后续空间智能模型的研发指明了明确方向，也凸显了该评测基准的核心价值。

MMSI-Video-Bench：上海AI Lab开源的视频空间智能评测基准

二、功能特色

MMSI-Video-Bench 之所以能成为行业领先的视频空间智能评测基准，核心源于其“评测体系完整、问题质量顶尖、数据覆盖全面、测评方式灵活、开源生态完善”的五大核心特色，所有设计均围绕“精准评估模型空间智能真实水平”的核心目标，避免了现有基准的诸多短板：

1. 完整四层评测体系，覆盖空间智能全链路

MMSI-Video-Bench 突破了传统评测基准单一任务的局限，创新性地提出了“感知-规划-预测-跨视频推理”四层递进式评测框架，全面覆盖从基础空间感知到高阶决策推理的完整空间智能链路，实现了对模型能力的全方位、多层次考察：

感知层：聚焦基础空间信息的提取与理解，考察模型对视频中实体属性、空间布局的基础认知能力；
规划层：评估模型基于视频时空信息制定合理行动方案的能力，如“规划机器人到达目标位置的最优路径”；
预测层：测试模型对未来状态的推断能力，如预测物体运动轨迹、场景变化趋势等；
跨视频推理层：考察模型处理非连续时序观测与多视角信息的能力，包括跨时间记忆更新、多视角信息整合等关键能力。

这种四层框架设计符合真实世界中空间智能的应用逻辑，能够更精准地定位模型在不同能力层级的瓶颈，避免了片面评估导致的认知偏差。

2. 全人工专家标注，问题质量兼具挑战性与科学性

为确保评测的精准性与挑战性，MMSI-Video-Bench 采用了全人工专家标注的方式构建问题库，这也是其区别于多数自动化生成基准的核心优势：

标注团队专业：所有问题由11位平均研究年限超过2.5年的3D视觉领域专家亲自设计、审核与打磨，累计投入400+小时标注与交叉验证，确保每个问题表述清晰、答案唯一、推理逻辑非平凡；
问题设计科学：问题精准指向空间智能的核心难点，避免简单的视觉内容识别，而是聚焦空间关系判断、运动规律分析等深层能力，如“判断视频中相机的运动方式是平移还是旋转”“分析两个物体碰撞后的运动趋势”；
挑战性极强：实测25个主流多模态模型（包括GPT-4o、Gemini系列、QwenVL等）均表现吃力，即便是性能最优的模型也仅能达到38%的准确率，与人类96.4%的水平存在近60%的差距，是当前视频空间智能基准中人类-AI差距最大的评测体系之一。

3. 多元真实视频数据，场景覆盖全面且典型

MMSI-Video-Bench 的视频素材经过精心筛选与整合，确保了数据的多样性、真实性与代表性，为评测结果的泛化性提供了坚实保障：

数据来源广泛：视频素材来源于25个公开视频数据集与1个自建数据集，涵盖机器人操作、单房间到多层楼宇的室内场景、室外建筑与街景、自然风光、体育活动、电影片段等多种拍摄类型；
场景类型丰富：全面覆盖真实世界中复杂多样、多尺度的空间场景，既包含结构化的室内环境，也包含动态变化的室外场景，既涵盖慢节奏的日常活动，也包含快节奏的运动竞技，能够充分检验模型在不同场景下的适应能力；
数据规模适中：共包含1278个视频片段，对应1106道问题，每个视频片段都经过精准剪辑，聚焦核心空间任务，既保证了评测的全面性，又降低了模型推理的计算成本。

4. 多维任务与子基准设计，支持全面测评与专项突破

该基准在任务设计上兼具全面性与针对性，通过细分任务与子基准的组合，既能够全面评估模型的综合空间智能，也能精准测评特定场景下的专项能力：

五大核心任务类型：涵盖空间构建、运动理解、规划、预测、跨视频推理五大主任务，进一步细分为13个子类问题，全面覆盖空间智能的核心维度。其中，预测任务是最具挑战性的主任务，相机-实体之间的空间关系建模是难度最高的细分类别；
三大专项子基准：基于丰富的场景与任务类型，划分出室内场景感知、机器人、定位三大子基准，支持研究者针对性测评模型在特定应用场景下的能力表现，为行业应用提供精准参考；
任务逻辑递进：从基础的空间构建到高阶的跨视频推理，任务难度逐步提升，形成了完整的能力考察链条，能够清晰刻画模型的能力边界。

5. 全链路开源生态，易用性强且适配广泛

MMSI-Video-Bench 遵循开源普惠的原则，构建了完整的开源生态，为研究者提供了“开箱即用”的评测体验：

资源全量开源：开源内容包括完整的评测代码（数据处理、模型适配、评估计算）、标注数据（问题-答案对、推理依据）、视频素材（原始视频、采样帧、参考图像），所有资源均托管在Hugging Face等平台，下载便捷；
模型适配广泛：提供了主流多模态模型（InternVL、LLaVA-Video、QwenVL等）的适配代码，支持开源与闭源模型的快速接入，同时兼容EASI、VLMEvalKit等主流评估工具包；
文档完善清晰：提供了详细的使用文档、数据说明、评测流程指南，包含完整的示例代码与错误排查方案，降低了研究者的使用门槛。

三、技术细节

MMSI-Video-Bench 能实现精准、科学的视频空间智能评估，核心源于其背后严谨的技术设计，涵盖评测框架构建、数据标注规范、评估指标设计、代码架构实现等多个关键环节，所有技术选型均以“评测的科学性、准确性、易用性”为核心原则，具体技术细节如下：

1. 核心评测框架与任务设计

MMSI-Video-Bench 的核心技术亮点是构建了系统化的视频空间智能评测框架，该框架以“真实世界空间智能需求”为导向，明确了空间智能的核心能力维度与评测逻辑：

（1）四层能力评估模型

框架首次系统性提出“感知（Perception）-规划（Planning）-预测（Prediction）-跨视频推理（Cross-Video Reasoning）”四层能力模型，每层能力层层递进，构成完整的空间智能链路：

感知层：核心评估模型对视频中空间基础信息的提取能力，包括实体空间属性（形状、大小、位置）、场景布局、相机与实体的空间关系等；
规划层：评估模型基于感知到的时空信息，制定合理行动方案的能力，如基于视频场景规划机器人导航路径、物体抓取策略等；
预测层：考察模型对未来状态的推断与想象能力，基于已观测的视频片段，预测实体运动轨迹、场景变化趋势等未来状态；
跨视频推理层：评估模型处理非连续时序观测与多视角信息缺口的能力，包括跨时间片段的记忆更新、多视角视频信息的整合与互补等。

（2）五大任务类型详细设计

基于四层能力模型，基准设计了五大核心任务类型，每个任务类型进一步细分多个子任务，全面覆盖空间智能的核心难点，具体任务划分如下表所示：

表1 MMSI-Video-Bench五大核心任务类型及子任务划分

主任务类型	核心考察能力	子任务划分	典型问题示例
空间构建（Spatial Construction）	全局空间布局理解、实体与场景空间关系建模	实体空间属性识别、相机-实体关系判断、实体-场景关系分析	“视频中桌子的位置相对于门是左侧还是右侧？”
运动理解（Motion Understanding）	长时运动过程感知、实体与相机运动分析	实体运动轨迹识别、相机运动方式判断、多实体交互运动分析	“视频中相机的运动是平移、旋转还是变焦？”
规划（Planning）	基于时空信息的决策规划能力	导航路径规划、物体操作策略设计	“请规划从当前位置到书架的最优行走路径”
预测（Prediction）	未来状态推断与想象能力	实体运动趋势预测、场景变化预判	“预测3秒后滚动的小球会落到哪个位置？”
跨视频推理（Cross-Video Reasoning）	跨时间记忆与多视角整合能力	跨视频实体匹配、多视角信息互补、记忆更新	“结合前后两个视频片段，判断目标物体的最终位置”

2. 数据标注与质量控制技术

MMSI-Video-Bench 的高质量评测能力源于其严格的数据标注流程与质量控制机制，确保了每一道问题的科学性与准确性：

（1）全人工标注流程

采用“专家设计-交叉审核-验收打磨”的三级标注流程：

第一级：11位3D视觉领域专家根据任务类型，结合视频素材设计问题与标准答案，确保问题精准指向核心能力；
第二级：实行“双人交叉审核”制度，每位专家设计的问题由另一位专家审核，检查问题表述清晰度、答案唯一性、推理逻辑合理性；
第三级：由团队负责人组织集中验收，对存在歧义、难度不合理的问题进行打磨优化，最终形成1106道高质量问题。

（2）标注信息完整性

每个标注样本包含完整的元数据信息，包括：视频片段路径、视频时长与关键帧时间戳、问题文本、标准答案、推理依据、任务类型标签、场景类型标签，确保研究者能够清晰理解问题背景与评测目标。

（3）质量验证机制

通过“人类性能测试”与“问题难度分级”验证标注质量：邀请10位非标注团队的3D视觉研究者参与测试，人类平均准确率达96.4%，证明问题设计合理且无歧义；同时根据问题所需的推理复杂度，将问题划分为易、中、难三个等级，确保评测能够区分不同水平的模型。

3. 评估指标与计算方法

MMSI-Video-Bench 采用精准的评估指标体系，确保评测结果客观、可比，核心评估指标与计算方法如下：

（1）核心评估指标

总体准确率（Overall Accuracy）：模型在所有问题上的正确回答比例，是衡量模型综合能力的核心指标；
任务类型准确率（Task-Specific Accuracy）：模型在各主任务及子任务上的正确回答比例，用于定位模型在特定能力上的瓶颈；
子基准准确率（Sub-Benchmark Accuracy）：模型在室内场景感知、机器人、定位三个子基准上的正确回答比例，支持专项能力评估；
人类-AI差距（Human-AI Gap）：计算模型准确率与人类平均准确率的差值，量化模型与人类水平的差距。

（2）评估计算逻辑

采用“标准答案匹配+推理逻辑一致性”的双重评估逻辑：

对于客观题（如选择题、判断题），直接比对模型答案与标准答案的一致性；
对于主观推理题，采用“关键词匹配+逻辑合理性评分”的方式，既评估答案正确性，也考察推理过程的合理性；
评估代码支持批量评测与单模型精细化分析，可自动生成详细的评测报告，包含各任务维度的准确率、错误类型统计等信息。

4. 代码架构与技术选型

MMSI-Video-Bench 采用模块化的代码架构，设计简洁清晰，易于使用与扩展，核心技术选型遵循“成熟稳定、轻量化、兼容性强”的原则：

（1）核心代码架构

MMSI-Video-Bench/
├── README.md     # 项目说明、使用指南、更新日志
├── dataset.py     # 数据集加载、预处理、标注信息解析
├── evaluation.py   # 评估指标计算、评测报告生成
├── inference.py    # 模型推理脚本，支持主流多模态模型适配
├── requirements.txt  # 项目依赖清单
├── meta_data/     # 元数据配置文件（任务划分、场景标签、子基准定义）
├── assets/      # 示例图片、项目 teaser 图等静态资源
├── models/      # 模型适配代码（InternVL、LLaVA-Video、QwenVL等）
├── utils/       # 工具函数（视频处理、日志记录、API调用等）
└── data/       # 数据存放目录（视频片段、采样帧、参考图像）

（2）核心技术选型

开发语言：Python 3.10（兼顾兼容性与新特性，适配主流AI框架）；
视频处理：OpenCV、FFmpeg（轻量级视频处理库，支持视频读取、帧采样、格式转换）；
数据处理：Pandas、NumPy（高效的数据结构与数值计算库，用于标注数据解析）；
模型适配：Transformers（Hugging Face官方库，支持主流多模态模型的快速加载）；
评估工具：兼容EASI（空间智能统一评估套件）、VLMEvalKit（多模态大模型评估工具包），支持一键集成到现有评测流程。

5. 模型错误分析体系

为帮助研究者精准定位模型瓶颈，MMSI-Video-Bench 构建了系统化的模型错误分析体系，通过对错误案例的分类统计，揭示模型性能受限的核心原因：

（1）五大错误类型划分

通过对520个错误案例的分析，将模型错误归纳为五大类型：

几何推理错误（最主要错误来源）：模型在空间几何关系理解上存在偏差，对前后左右、远近等相对位置关系判断错误；
细致定位错误：模型在精细视觉感知层面失效，出现目标遗漏、混淆或“时间点-事件”对应关系错误；
ID匹配错误：模型在跨帧过程中难以保持一致的实体身份跟踪，导致实体关联错误；
潜在逻辑推断错误：模型无法依赖隐含线索或常识知识完成推理任务；
提示输入对齐错误：模型未能将提示信息（如背景假设、辅助图像）与视频信息正确结合。

（2）错误分布与归因

不同任务类型的错误分布存在显著差异：空间构建任务的低表现主要源于几何推理能力不足；运动理解任务中，模型难以在快速、细微或长时间跨度的运动中保持精确定位；规划与预测任务的错误多源于提示输入对齐失败；跨视频推理任务的失败则主要归因于多目标跨视频定位复杂与潜在线索利用不足。

MMSI-Video-Bench：上海AI Lab开源的视频空间智能评测基准

四、应用场景

MMSI-Video-Bench 凭借“评测体系完整、问题质量高、场景覆盖广、开源易用”的核心优势，其应用场景主要聚焦于多模态智能与具身智能领域的科研与产业落地，覆盖科研机构、高校、AI企业、机器人研发团队等多个用户群体，核心应用场景如下：

1. 多模态大模型研发与优化场景（核心场景）

这是MMSI-Video-Bench最核心的应用场景，为多模态大模型的空间智能能力提升提供精准的评测支撑：

模型性能评估：AI企业与科研团队可利用该基准快速评估自研或开源多模态模型的视频空间智能水平，客观对比不同模型的性能差异，为模型选型提供科学依据；
技术瓶颈定位：通过基准的错误分析体系，精准定位模型在几何推理、运动理解等特定能力上的短板，明确研发优化的方向，避免盲目迭代；
优化效果验证：在模型优化过程中，可通过该基准持续跟踪性能变化，验证优化策略的有效性，如验证3D空间线索增强、思维链提示等方法对空间智能的提升效果。

2. 具身智能与机器人研发场景

空间智能是具身智能与机器人技术的核心基础，MMSI-Video-Bench 为相关领域的研发提供了关键评测工具：

机器人感知能力测评：机器人研发团队可利用该基准评估机器人视觉系统对空间环境的理解能力，尤其是在动态场景下的运动感知与定位精度；
具身决策模型优化：为具身智能模型的决策规划能力提供评测依据，如评估模型基于视频场景规划导航路径、操作策略的合理性；
专项能力强化：通过机器人子基准，针对性测评机器人特定任务（如物体抓取、环境导航）的空间智能表现，助力专项技术突破。

3. 学术研究与教育场景

作为行业领先的开源评测基准，MMSI-Video-Bench 是多模态智能与计算机视觉领域的重要学术研究与教育资源：

学术论文支撑：科研人员可基于该基准开展空间智能相关的学术研究，如探索新型视频空间推理算法、多模态融合策略等，基准的评测结果可作为论文的核心实验数据；
课程教学案例：高校可将该基准作为计算机视觉、多模态智能等课程的教学案例，帮助学生理解空间智能的核心概念、评测方法与技术难点；
学术竞赛基础：可作为学术竞赛的评测平台，如举办“视频空间智能模型挑战赛”，推动行业技术交流与创新。

4. 行业应用性能验证场景

在需要视频空间智能能力的行业应用中，MMSI-Video-Bench 可用于验证技术方案的可行性与优越性：

自动驾驶场景：评估自动驾驶视觉系统对道路场景、车辆运动轨迹的空间理解能力，为自动驾驶算法的安全性验证提供支撑；
AR/VR场景：测评AR/VR设备的环境感知与空间定位能力，确保虚拟内容与真实空间的精准融合；
智能监控场景：验证智能监控系统对监控视频中目标运动轨迹、空间关系的分析能力，提升监控预警的准确性。

五、使用方法

MMSI-Video-Bench 提供了完整的使用流程与详细的文档说明，核心使用流程遵循“环境搭建 → 数据下载 → 模型适配 → 评测运行 → 结果分析”的步骤，支持主流多模态模型的快速接入，操作简洁易懂，即使是入门研究者也能快速上手，具体使用方法如下：

前置说明（必看）

硬件要求：无特殊高算力要求，基础CPU（如Intel i5及以上）即可完成评测计算；若需运行大模型推理，建议配备NVIDIA GPU（8GB及以上显存），提升推理速度；
系统要求：兼容Windows 10/11、Linux（Ubuntu 20.04+）、MacOS三大主流操作系统；
基础环境：已安装Python 3.10及以上版本，建议配置Python虚拟环境（conda或venv），避免依赖冲突；
前置工具：需安装git（用于克隆仓库）、git-lfs（用于下载大体积视频数据）。

1. 环境搭建（核心第一步，一键完成）

该步骤核心是克隆项目仓库、创建虚拟环境并安装依赖，所有命令均在终端/命令行执行，Windows/Linux/Mac系统通用：

# 第一步：克隆MMSI-Video-Bench官方开源仓库
git clone https://github.com/InternRobotics/MMSI-Video-Bench.git

# 第二步：进入项目根目录（后续所有操作均在此目录执行）
cd MMSI-Video-Bench

# 第三步：创建Python虚拟环境（推荐，避免依赖冲突）
conda create -n mmsi-video python=3.10 -y

# 第四步：激活虚拟环境
# Windows系统
conda activate mmsi-video
# Linux/Mac系统
conda activate mmsi-video

# 第五步：一键安装所有依赖
pip install -r requirements.txt

温馨提示：若安装依赖时速度较慢，可切换为国内pip镜像源（如阿里云、清华镜像）；安装完成后无报错，即代表环境搭建成功。

2. 数据集与视频素材下载（核心第二步，必做）

MMSI-Video-Bench 的核心数据（标注数据、视频片段、采样帧等）托管在Hugging Face平台，免费下载无限制，下载命令如下：

# 第一步：安装git-lfs（必须，用于下载大体积视频文件）
git lfs install

# 第二步：下载完整数据集（包含标注数据、视频片段、参考图像）
git clone https://huggingface.co/datasets/rbler/MMSI-Video-Bench ./data/MMSI-Video-Bench

补充说明：数据集总大小约20GB，下载速度取决于网络环境；下载完成后，确认./data/MMSI-Video-Bench目录下包含videos/（视频片段）、frames/（采样帧）、meta_data/（标注数据）等子目录，且文件无缺失。

3. 模型适配与配置（核心第三步）

项目已提供主流多模态模型的适配代码，位于models/目录下，支持InternVL、LLaVA-Video、QwenVL、GPT-4o、Gemini等模型，无需手动编写适配代码，仅需简单配置即可：

打开inference.py文件，找到模型配置区域；

根据需要评测的模型，修改model_name与model_config参数，示例如下：

# 核心模型配置
model_name = "QwenVL" # 可选：InternVL、LLaVA-Video、GPT-4o、Gemini等
model_config = {
  "api_key": "your_api_key", # 若使用闭源模型（如GPT-4o），需填写API密钥
  "model_path": "./pretrained_models/QwenVL", # 若使用开源模型，填写本地模型路径
  "device": "cuda" # 可选：cuda（GPU）/cpu
}

若使用开源模型，需提前下载模型权重到指定路径；若使用闭源模型，需确保网络通畅并配置正确的API密钥。

4. 运行评测与结果查看（核心第四步）

完成环境与模型配置后，即可运行评测脚本，支持全量评测或指定任务/子基准评测：

（1）全量评测（评估模型综合能力）

python inference.py --eval_all --output_dir ./evaluation_results

--eval_all：表示运行所有任务的评测；
--output_dir：指定评测结果的保存目录。

（2）指定任务评测（评估特定任务能力）

python inference.py --task Motion_Understanding --output_dir ./motion_results

--task：指定任务类型，可选值为Spatial_Construction、Motion_Understanding、Planning、Prediction、Cross_Video_Reasoning；

（3）指定子基准评测（评估专项能力）

python inference.py --sub_bench Robot --output_dir ./robot_results

--sub_bench：指定子基准，可选值为Indoor_Scene、Robot、Grounding；

（4）查看评测结果

评测完成后，会在指定的输出目录生成详细的评测报告（JSON格式与可视化图表），包含：

总体准确率与各任务准确率；
错误类型统计与典型错误案例；
与人类水平及其他模型的性能对比。

5. 核心使用小贴士（提升使用体验）

首次使用建议先运行少量测试用例（修改脚本中的sample_num参数），验证环境与模型配置是否正确，避免全量评测耗时过长；
运行闭源模型评测时，建议提前查看API调用限额与费用，避免超出预算；
视频数据体积较大，若本地存储空间有限，可仅下载需要评测的任务对应的视频片段；
评测结果支持通过show_result.py脚本生成可视化图表，便于直观分析与论文展示；
若需适配新的多模态模型，可参考models/目录下现有模型的适配代码，新增模型类并实现generate_answer方法即可。

MMSI-Video-Bench：上海AI Lab开源的视频空间智能评测基准

六、常见问题解答（FAQ）

Q1：下载数据集时提示“文件过大无法下载”或“下载中断”怎么办？

A：核心解决方法：① 确保已正确安装git-lfs，大体积视频文件需通过git-lfs下载；② 若网络不稳定，可使用分块下载工具（如wget -c）断点续传；③ 若Hugging Face下载速度慢，可通过国内镜像源（如ModelScope）搜索“MMSI-Video-Bench”下载数据集；④ 若仅需测试，可先下载少量示例数据（位于data/sample/目录）。

Q2：运行评测时提示“模型加载失败”或“API调用失败”怎么办？

A：分两种情况解决：① 开源模型：检查model_path参数是否正确，确保模型权重完整下载，依赖版本与requirements.txt一致；② 闭源模型：检查API密钥是否正确、网络是否能访问模型服务（如OpenAI、Google API），查看API调用限额是否充足，若超过限额需等待重置或更换API密钥。

Q3：该基准支持中文多模态模型评测吗？

A：完全支持！MMSI-Video-Bench 的标注问题包含中英文双语版本，dataset.py脚本支持自动加载中文问题，同时models/目录下已适配QwenVL等中文多模态模型，可直接用于中文模型的评测；若需评测其他中文模型，仅需简单修改适配代码即可。

Q4：评测结果与论文中公布的模型性能不一致怎么办？

A：常见原因及解决方案：① 模型版本不同：论文中使用的是特定版本的模型（如Gemini 3 Pro），确保使用相同版本的模型进行评测；② 推理参数不同：检查inference.py中的推理参数（如温度、最大生成长度）是否与论文一致；③ 数据版本不同：确保使用的是最新版本的数据集，可通过git pull更新项目仓库；④ 运行环境差异：尽量使用与论文一致的软硬件环境，减少环境影响。

Q5：可以只评测部分视频片段或问题吗？

A：可以！项目支持自定义评测范围：① 打开inference.py，修改meta_data_path参数，指定包含部分问题的元数据文件；② 新增--video_list参数，指定需要评测的视频片段路径列表；③ 通过--sample_num N参数，随机选取N个问题进行评测（适合快速测试）。

Q6：运行评测时CPU/GPU占用过高怎么办？

A：解决方案：① 降低并行推理数量，在inference.py中设置batch_size=1，避免批量推理占用过多资源；② 若使用GPU推理，可通过torch.cuda.empty_cache()释放显存；③ 关闭其他占用资源的程序，确保评测程序独占核心资源；④ 对于大体积视频，可提前预处理生成采样帧，减少实时视频处理的资源消耗。

Q7：如何将MMSI-Video-Bench集成到VLMEvalKit等其他评测工具中？

A：项目已原生支持VLMEvalKit集成，具体步骤：① 下载VLMEvalKit官方仓库并完成环境搭建；② 将MMSI-Video-Bench的数据集复制到VLMEvalKit的data/目录；③ 在VLMEvalKit的运行脚本中指定--data MMSI-Video-Bench，即可直接运行评测；④ 若需集成到其他工具，可参考evaluation.py中的评估指标计算逻辑，移植核心评估代码。

Q8：数据集的视频格式是什么？支持自定义视频素材的评测吗？

A：① 数据集视频格式为MP4，分辨率与时长不固定（根据原始场景需求调整），采样帧格式为JPG；② 支持自定义视频素材评测：需按照项目的标注规范，为自定义视频编写问题-答案元数据（参考meta_data/目录下的格式），将视频与标注文件放入指定目录，修改dataset.py中的数据加载路径即可。

七、相关链接

项目官方开源仓库（核心）：https://github.com/InternRobotics/MMSI-Video-Bench
数据集下载地址（Hugging Face）：https://huggingface.co/datasets/rbler/MMSI-Video-Bench
项目官方主页：https://rbler1234.github.io/MMSI-VIdeo-Bench.github.io/
相关论文（arXiv）：https://arxiv.org/abs/2512.10863
上海人工智能实验室官方主页：https://www.shlab.org.cn/

八、总结

MMSI-Video-Bench是上海人工智能实验室联合多所顶尖高校打造的开源视频空间智能评测基准，通过科学的四层评测体系、全人工标注的高质量问题、多元真实的视频数据，构建了当前最全面的多模态大模型空间智能评估框架。该项目不仅开源了完整的评测代码、数据素材与模型适配工具，更通过对25个主流模型的实测，揭示了当前多模态大模型在空间推理、运动理解等核心能力上的显著瓶颈，最大人类-AI性能差距达60%，为模型研发提供了精准的评估依据与明确的改进方向。其模块化的代码架构确保了易用性与扩展性，多样化的任务与子基准设计支持全面测评与专项突破，遵循友好的开源协议实现资源普惠。作为多模态智能与具身智能领域的核心评测资源，MMSI-Video-Bench有效填补了视频空间智能评测的行业空白，为相关技术的创新发展提供了坚实的支撑，是科研与产业落地环节不可或缺的开源工具。

多模态大模型评测基准

打赏

版权及免责申明：本文由@AI工具集原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/mmsi-video-bench.html

THE END

AI工具集

工具不孤岛，AI集大成——这里有你要的一切智能解法

+ 关注

MMSI-Video-Bench：上海AI Lab开源的视频空间智能评测基准

文章目录

一、MMSI-Video-Bench是什么

二、功能特色

1. 完整四层评测体系，覆盖空间智能全链路

2. 全人工专家标注，问题质量兼具挑战性与科学性

3. 多元真实视频数据，场景覆盖全面且典型

4. 多维任务与子基准设计，支持全面测评与专项突破

5. 全链路开源生态，易用性强且适配广泛

三、技术细节

1. 核心评测框架与任务设计

（1）四层能力评估模型

（2）五大任务类型详细设计

2. 数据标注与质量控制技术

（1）全人工标注流程

（2）标注信息完整性

（3）质量验证机制

3. 评估指标与计算方法

（1）核心评估指标

（2）评估计算逻辑

4. 代码架构与技术选型

（1）核心代码架构

（2）核心技术选型

5. 模型错误分析体系

（1）五大错误类型划分

（2）错误分布与归因

四、应用场景

1. 多模态大模型研发与优化场景（核心场景）

2. 具身智能与机器人研发场景

3. 学术研究与教育场景

4. 行业应用性能验证场景

五、使用方法

前置说明（必看）

1. 环境搭建（核心第一步，一键完成）

2. 数据集与视频素材下载（核心第二步，必做）

3. 模型适配与配置（核心第三步）

4. 运行评测与结果查看（核心第四步）

（1）全量评测（评估模型综合能力）

（2）指定任务评测（评估特定任务能力）

（3）指定子基准评测（评估专项能力）

（4）查看评测结果

5. 核心使用小贴士（提升使用体验）

六、常见问题解答（FAQ）

Q1：下载数据集时提示“文件过大无法下载”或“下载中断”怎么办？

Q2：运行评测时提示“模型加载失败”或“API调用失败”怎么办？

Q3：该基准支持中文多模态模型评测吗？

Q4：评测结果与论文中公布的模型性能不一致怎么办？

Q5：可以只评测部分视频片段或问题吗？

Q6：运行评测时CPU/GPU占用过高怎么办？

Q7：如何将MMSI-Video-Bench集成到VLMEvalKit等其他评测工具中？

Q8：数据集的视频格式是什么？支持自定义视频素材的评测吗？

七、相关链接

八、总结

相关文章