SenseNova-MARS：商汤科技开源的多模态智能体框架，实现动态视觉推理与多工具协同搜索

AI新闻人工智能研究所 5个月前

204

一、SenseNova-MARS是什么

SenseNova-MARS是商汤科技日日新大模型体系下的多模态智能体推理与搜索开源框架，是业内首个实现动态视觉推理与图文搜索深度融合的Agentic VLM（智能体化视觉语言模型）。该项目核心目标是打破传统视觉语言模型“仅能文本思维链、孤立调用工具”的局限，通过强化学习让模型具备类人的“交错式视觉推理+持续工具操作”能力，高效处理知识密集、视觉细节复杂、需要多工具配合的跨模态任务。

项目完整开源模型权重、训练与推理代码、专用数据集、评测基准全套资源，提供8B与32B双版本模型，兼顾轻量化部署与高性能推理需求，在MMSearch、HR-MMSearch等核心多模态搜索基准上，性能超越Gemini-3-Pro、GPT-5.2等头部闭源模型，填补了开源多模态智能体在“搜索+推理+细粒度视觉分析”全链路能力的空白，面向科研人员、算法工程师、行业开发者提供可复现、可二次开发的多模态智能体工程底座。

SenseNova-MARS：商汤科技开源的多模态智能体框架，实现动态视觉推理与多工具协同搜索

二、核心功能特色

多工具动态协同调用
内置图像裁剪、图像搜索、文本搜索三类核心工具，可根据任务需求自主规划调用顺序与组合方式，无需人工设定规则，形成“视觉感知-工具调用-信息整合-逻辑推理”的闭环。针对图像中占比不足5%的微小细节，可优先调用裁剪工具放大聚焦，再结合图像与文本搜索补充背景知识，完成长链条复杂推理。
自主任务规划与推理
具备端到端自主决策能力，可处理需要3种及以上工具配合、多步骤跳转的复杂任务，例如“识别赛事照片微小Logo→查询品牌信息→检索车手履历→计算时间差值”的全流程任务，全程无人工干预，自动验证假设、修正推理路径，降低复杂跨模态任务的人工操作成本。
高清细粒度视觉理解
针对4K超高清图像优化感知能力，适配HR-MMSearch基准中微小物体、小字标识、局部特征的识别需求，在高分辨率视觉分析场景中，工具调用偏好可自动调整，高清场景下图像裁剪工具使用率可达67%，精准捕捉常规模型易忽略的细节信息。
训练稳定与泛化均衡
通过专属强化学习算法解决多工具智能体训练波动大、易偏科的问题，简单任务与复杂任务的推理稳定性一致，在知识型、细节型、逻辑型不同类型任务中均保持均衡表现，无明显能力短板。
全栈开源与易用适配
模型、代码、数据集、评测基准四大部分完全开源，兼容Hugging Face生态，提供Docker容器化部署方案与标准化脚本，降低多模态智能体的环境配置、训练、评测门槛，支持单机与多节点分布式部署，适配不同算力规模的研发需求。

三、核心技术细节

（一）模型版本与基准性能

模型版本	参数量	MMSearch得分	HR-MMSearch得分	核心定位
SenseNova-MARS-8B	8B	67.84	41.64	轻量化部署、边缘/中端算力场景、快速验证
SenseNova-MARS-32B	32B	74.27	54.43	高性能推理、产业级复杂任务、科研基准测试

（二）核心技术组件

多工具集成引擎
统一封装图像裁剪、图像搜索、文本搜索接口，定义标准化调用参数，图像裁剪支持输入归一化边界框坐标与图片索引，图像搜索支持实体匹配与相似图检索，文本搜索支持本地知识库与全网检索双模式，引擎自动完成工具返回结果的清洗、摘要与融合，为推理模块提供结构化信息。
BN-GSPO强化学习算法
全称为Batch-Normalized Group Sequence Policy Optimization，是项目针对多模态智能体训练的核心创新。算法采用两阶段归一化流程，先完成组内归一化平滑训练信号，再进行批次归一化稳定优化方向，解决动态工具调用返回结果分布差异大、训练收敛困难的问题，提升模型工具决策的准确性与推理连贯性。
自动化数据合成引擎
针对多模态多跳推理数据稀缺的痛点，通过细粒度视觉锚点+多跳关联检索机制，自动构建高逻辑密度、高知识复杂度的训练样本，搭配闭环自洽校验过滤幻觉数据，让模型在训练阶段就接触真实场景的复杂任务，夯实基础推理能力。
HR-MMSearch评测基准
业内首个面向搜索任务的高清图像基准，包含305张2025年采集的4K图像，覆盖体育、科技、金融、学术等八大领域，60%的题目需要至少三种工具配合解答，所有问题针对图像占比＜5%的细节设计，可客观衡量多模态智能体的细粒度感知与多工具协同能力。
分布式训练与推理架构
基于veRL框架改造，支持多节点、多GPU分布式强化学习训练，分离训练节点、基础设施节点、评测节点，分别承载模型训练、搜索/数据库服务、结果评判功能，搭配SGLang实现大模型推理服务的高并发与低延迟，保障全流程高效运行。

SenseNova-MARS：商汤科技开源的多模态智能体框架，实现动态视觉推理与多工具协同搜索

四、典型应用场景

行业信息分析
从展会、产品宣传图中识别企业Logo、产品型号，自动搜索品牌背景、参数、市场份额等信息，生成行业分析简报，适用于市场调研、竞品分析场景。
赛事与文娱内容处理
解析体育比赛、演出活动照片，识别运动员、演员、赞助商标识，检索人物履历、赛事规则、演出信息，快速生成内容素材与数据总结，适配媒体、文娱运营工作流。
科研与学术辅助
从论文配图、实验影像中识别关键装置、图表数据，搜索相关研究文献、实验方法、结论对比，辅助科研人员快速梳理研究脉络、验证实验假设。
工业质检与设备巡检
裁剪定位工业产品、设备的微小缺陷与标识，检索缺陷类型、维修方案、设备批次信息，辅助质检人员完成缺陷判定与溯源，提升巡检效率与准确性。
文创与文物鉴定
识别艺术品、文物的细节纹样、款识，搜索创作背景、年代、工艺信息，为文创开发、文物研究提供结构化知识支撑。
教育与知识问答
处理教材插图、实景图片，结合搜索工具解答跨模态知识问题，适配智慧教育、智能答疑工具的开发需求。

五、使用方法

（一）硬件要求

仅评测：2台服务器，一台运行评测脚本，一台部署搜索、数据库、摘要服务
训练：3台服务器，每台配置8×NVIDIA H100 80GB显卡，分别承担训练、基础设施、评测裁判服务

（二）环境安装

克隆仓库：git clone https://github.com/OpenSenseNova/SenseNova-MARS
下载数据集：从Google Drive获取维基百科数据库、检索数据、评测与训练数据，按目录规范放置
构建Docker镜像：docker build -t verl-mars:latest .，国内可添加镜像参数加速
启动容器：挂载项目目录、映射端口，启用GPU支持，进入容器工作目录

（三）基础设施部署

网页搜索服务：配置Serper API密钥，安装依赖，启动uvicorn服务，提供文本搜索能力
本地维基数据库：配置Faiss环境，基于Search-R1框架启动本地检索服务，满足训练阶段的高速查询需求
摘要LLM服务：使用SGLang部署Qwen3-32B模型，处理搜索结果的摘要与整合
训练裁判服务：部署Qwen3-VL-32B-Instruct模型，为强化学习提供奖励信号评判

（四）模型训练

配置脚本：修改train_multi_node.sh，填写搜索服务地址、API密钥、裁判服务地址
单节点训练：NODE_RANK=0 NNODES=1 bash train_multi_node.sh
多节点分布式训练：主节点与工作节点分别设置节点序号、主节点地址，批量启动脚本
日志与数据：训练日志保存至logs目录，策略推演数据保存至rollout_data目录

（五）模型评测

配置脚本：修改eval_single_node.sh，填写模型路径、服务地址、API密钥
启动评测：执行bash eval_single_node.sh
结果查看：评测结果与日志自动保存，可对比不同模型在MMSearch、HR-MMSearch等基准的得分

SenseNova-MARS：商汤科技开源的多模态智能体框架，实现动态视觉推理与多工具协同搜索

六、常见问题解答

部署时提示搜索服务连接失败怎么办

首先检查Serper API密钥是否正确配置，确认端口8000是否开放且无占用，再验证容器网络是否互通，本地检索服务需确保Faiss索引文件路径正确，重新启动搜索服务后再执行训练或评测脚本。

训练过程中出现显存不足如何解决

优先检查GPU型号与显存是否满足H100 80GB要求，降低张量并行与数据并行的参数配置，清理无用的模型缓存与中间数据，使用bfloat16精度减少显存占用，分布式场景下确保节点间网络带宽充足，避免数据传输卡顿导致显存堆积。

模型推理结果出现幻觉该怎么处理

可增大搜索结果的topk取值，提升信息覆盖度，开启工具调用校验机制，让模型对搜索结果进行二次验证，更换更精准的检索数据源，同时使用项目提供的自洽校验脚本过滤不合理推理结果。

轻量化8B版本和32B版本如何选择

中端算力、快速原型验证、边缘部署场景优先选择8B版本，成本更低、启动更快；产业级复杂任务、基准测试、高精度推理需求选择32B版本，细粒度感知与多步推理能力更优。

能否替换基础视觉语言模型

项目基于Qwen3-VL系列开发，可通过修改配置文件与训练脚本，适配其他开源VLM，但需要重新适配工具调用接口与强化学习奖励机制，官方暂未提供其他基座的适配脚本，建议优先使用默认基座保证兼容性。

本地部署无法访问外网搜索怎么办

训练阶段可完全依赖本地维基百科数据库，无需外网；评测阶段可搭建本地检索镜像，替换全网搜索接口，或使用内网代理服务，保证搜索服务的正常调用。

SenseNova-MARS：商汤科技开源的多模态智能体框架，实现动态视觉推理与多工具协同搜索

七、相关链接

GitHub项目仓库：https://github.com/OpenSenseNova/SenseNova-MARS
8B模型Hugging Face地址：https://huggingface.co/sensenova/SenseNova-MARS-8B
32B模型Hugging Face地址：https://huggingface.co/sensenova/SenseNova-MARS-32B
训练与评测数据集Hugging Face地址：https://huggingface.co/datasets/sensenova/SenseNova-MARS-Data
HR-MMSearch评测基准地址：https://huggingface.co/datasets/sensenova/HR-MMSearch
技术论文地址：https://arxiv.org/abs/2512.24330

八、总结

SenseNova-MARS作为商汤科技开源的多模态智能体推理与搜索框架，以强化学习为核心技术，整合图像裁剪、图像搜索、文本搜索三类工具，通过BN-GSPO算法解决多工具智能体训练稳定性难题，搭配HR-MMSearch高清评测基准构建完整评测体系，8B与32B双版本模型在多项权威多模态搜索基准上取得开源SOTA并超越主流闭源模型，同时开放模型、代码、数据集、评测基准全栈资源，提供标准化部署、训练、评测流程，可直接落地于行业分析、科研辅助、工业质检、文娱内容处理等知识密集与细粒度视觉理解场景，为多模态智能体的工具协同与自主推理研发提供了可复现、可扩展的工程化方案，是当前开源领域多模态智能体的代表性项目。