MMSkills：上交大与小红书联合开源的视觉智能体多模态技能框架

原创发布日期：2026-06-30

一、MMSkills是什么

MMSkills 是上海交通大学、小红书、东南大学联合团队于2026年发布的开源通用视觉智能体多模态技能框架，配套同名学术论文《MMSkills: Towards Multimodal Skills for General Visual Agents》（arXiv:2605.13527），开源仓库托管于GitHub，采用Apache 2.0开源协议，面向GUI桌面、游戏操控类视觉交互AI设计。

传统视觉智能体仅依靠纯文本描述操作流程，无法识别界面视觉状态，执行多步骤软件、游戏任务时频繁出现重复点击、操作路径错误、无法判断任务是否完成等问题。MMSkills核心创新是将零散交互轨迹转化为标准化多模态技能包，融合文字操作流程、轻量化运行状态卡片、多视角界面关键帧；推理阶段采用分支加载隔离机制，智能体仅在独立临时分支调取视觉素材与实时截图比对，输出状态感知的结构化操作指引，大幅提升视觉智能体任务成功率，同时控制上下文Token消耗。

项目配套515个跨领域标准化技能库、四大主流评测基准适配、多AI代码助手通用适配器、完整实验日志输出工具，同时开放社区技能共建通道，支持开发者拓展全新垂直场景技能。

MMSkills：上交大与小红书联合开源的视觉智能体多模态技能框架

二、核心功能特色

标准化自包含多模态技能包
每一项技能独立封装，内置操作文档、推理专用轻量化元数据、审计级标注文件、界面视觉截图，明确技能适用场景、禁用场景、任务完成校验标准，无需额外拼接素材，开箱即可用于智能体推理。
轨迹自动生成技能模块（Trajectory-to-skill Generator）
无需存储原始交互演示数据，自动对智能体历史交互轨迹聚类、流程合并、文本生成、视觉标注、人工审核，批量提炼轻量化可复用技能，降低技能库搭建成本。
分支加载轻量化推理（核心技术）
主智能体仅保留极简技能名称提示，不加载图像素材；判定需要技能辅助时开辟独立隔离推理分支，按需调取对应视觉关键帧与实时画面对齐，推理结束后销毁图像数据，不会占用主对话上下文，兼顾视觉校验精度与推理成本。
动态按需加载视觉证据
运行时自动判断当前步骤是否需要图像参考，仅调取局部裁剪、全局界面等必需视觉素材，非必要图像不参与推理，减少模型输入开销。
全模型、多AI产品通用兼容
无模型绑定，所有支持截图输入、OpenAI/Gemini兼容对话API的视觉大模型均可接入；原生适配Codex、OpenClaw、Claude Code三大主流AI代码助手，统一技能调用接口，跨产品复用技能库。
四大视觉基准原生适配
内置OSWorld、macOSWorld、VAB-Minecraft、Super Mario Bros四大主流视觉智能体评测环境轻量化适配代码，一键部署即可开展标准化对照消融实验。
云端按需拉取技能库
完整515套技能托管在Hugging Face数据集，本地仅保留精简子集，智能体执行任务时自动检索、下载当前任务匹配的技能包，不占用本地大量存储空间。
社区标准化技能投稿体系
提供官网表单、GitHub Issue双渠道技能提交通道，投稿后经官方审核，合格技能自动同步至Hugging Face公开库与官网检索页面，支持桌面、移动端、机器人、自动驾驶、科研软件等全新领域拓展。
完整量化评测日志自动输出
运行后自动生成技能调用记录、技能使用统计、全流程对话轨迹文件，可直接用于实验对比、效果复盘与数据量化。
显著优化智能体行为模式
不仅提升任务完成率，还能减少智能体底层重复操作、无效点击，强化任务完成判断能力，形成基于画面状态的有序结构化执行逻辑。

三、技术细节

3.1 标准技能包目录结构

skills_library/<领域>/<技能名称>/
├── SKILL.md        # 文字操作流程、适用边界、校验规则
├── runtime_state_cards.json # 推理轻量化元数据：触发条件、视觉提示、完成标准
├── state_cards.json    # 审计级完整标注：界面坐标、裁剪规则、视觉查询语句
├── plan.json        # 自动生成分层任务规划（可选）
└── Images/         # 全局界面、局部焦点裁剪、操作前后对比关键帧

runtime_state_cards.json为推理专用轻量化文件，仅保留AI运行必需信息；state_cards.json面向开发者调试、实验复现，包含完整视觉标注信息。

3.2 五层核心运行架构

主视觉Agent层：接收屏幕截图、用户任务指令，仅加载极简技能名称提示，不加载图像素材；
技能匹配调度层：根据任务文本匹配Top-K（默认6）候选技能；
分支规划器层：独立隔离推理分支，按需下载、加载对应技能视觉图片，对比实时截图生成结构化操作步骤；
结果回传执行层：精简操作指令返回主Agent，调用pyautogui完成鼠标键盘自动化动作；
日志持久化层：自动保存skill_invocations.json、skill_usage_summary.json、对话日志等评测文件。

3.3 仓库模块功能划分表

目录文件夹	核心功能说明
agent_integrations	Codex/OpenClaw/Claude Code通用适配器，提供一键安装脚本
osworld/macosworld/vab_minecraft/gaming_agent_integration	四大评测环境专属轻量化适配代码，独立隔离无冗余
mm_agents	MMSkills主运行入口`mm_skill_agent.py`，提供3套运行模式
skills_library	本地预装精简技能子集，用于离线快速测试
task_skill_mappings	任务与技能匹配映射配置文件，自动匹配对应技能
scripts	环境部署、技能检索/下载/校验、OSWorld集成工具脚本
docs	开发文档、标准化技能投稿规范

3.4 三种官方运行模式

general：基线无技能纯视觉Agent，用于对照组实验；
general_text_skill：仅文本技能，无视觉参考，消融实验专用；
mm_skill：完整多模态MMSkills模式，项目官方推荐标准运行方案。

3.5 量化实验技术效果

在OSWorld桌面基准下，多参数量视觉模型接入MMSkills后任务成功率均大幅提升，小参数量模型增益幅度更突出：

评测基准	模型名称	无技能成功率	MMSkills成功率	提升幅度
OSWorld	Gemini 3.1 Pro	44.08	50.11	+6.03
OSWorld	Gemini 3 Flash	36.65	47.97	+11.32
OSWorld	Qwen3-VL-235B	21.34	39.17	+17.83
OSWorld	Qwen3-VL-8B-Instruct	10.78	25.40	+14.62

消融实验验证：运行状态卡片、视觉关键帧、分支加载、视图筛选四大模块均为性能提升的核心组件，缺一不可。

MMSkills：上交大与小红书联合开源的视觉智能体多模态技能框架

四、应用场景

桌面GUI自动化智能体研发
适配Ubuntu、macOS双桌面系统，完成表格制作、VS Code插件安装、GIMP图像编辑、浏览器书签管理、邮件处理、多媒体软件操作等办公自动化任务，解决AI操作软件频繁迷路、步骤出错的痛点。
游戏视觉智能体标准化评测
支持VAB-Minecraft、超级马里奥游戏环境，为游戏AI提供标准化操作技能库，统一游戏智能体评测流程，量化对比不同模型游戏操控能力。
AI代码助手能力增强
为Codex、Claude Code、OpenClaw增加电脑GUI可视化操作能力，代码智能体可自主操控桌面软件完成配套开发流程。
学术视觉Agent消融实验
基于OSWorld/macOSWorld权威基准开展多方案性能对比、模块消融实验，输出标准化可复现量化指标，适配计算机视觉、大模型Agent方向科研。
垂直领域智能体拓展开发
开发者可基于框架新增移动端自动化、网页交互、工业机器人、自动驾驶仿真、科研软件等场景的多模态技能包，通过社区投稿扩充官方公共库。
企业数字员工落地
沉淀企业标准化桌面办公流程为可视化技能包，降低AI数字员工训练成本，实现标准化办公流程自动化。

五、完整使用方法

步骤1：克隆开源项目仓库

git clone https://github.com/zkangning/MMSkills_for_Visual_Agents.git
cd MMSkills_for_Visual_Agents

步骤2：配置Python虚拟环境并安装依赖

python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

步骤3：一键集成至OSWorld评测环境

提前下载OSWorld源码，执行脚本自动拷贝Agent、技能、映射文件：

python3 scripts/install_into_osworld.py /path/to/OSWorld --with-runner --with-skills

步骤4：配置大模型API接口

OpenAI兼容接口配置：

export OPENAI_BASE_URL="你的模型接口地址/v1"
export OPENAI_API_KEY="你的密钥"

Gemini兼容接口配置：

export GEMINI_BASE_URL="Gemini接口地址/v1"
export GEMINI_API_KEY="你的密钥"

步骤5：三种模式启动运行

基线无技能对照模式

python run.py --agent_type general --model gpt-4o --domain chrome --max_steps 20

纯文本技能消融实验模式

python run.py --agent_type general_text_skill --skill_mode text_only --domain chrome

完整多模态MMSkills推荐模式

python run.py --agent_type mm_skill --skill_mode multimodal --task_skill_top_k 6 --save_conversation_json

步骤6：Codex代码助手一键安装适配器

单行脚本快速部署：

curl -fsSL https://raw.githubusercontent.com/zkangning/MMSkills_for_Visual_Agents/main/scripts/install_codex_mmskills.sh | bash

重启Codex后输入$mmskills即可调用技能检索、加载全套能力。

步骤7：技能管理工具命令

# 检索指定领域技能
python scripts/search_skills.py "chrome bookmark" --package ubuntu
# 下载目标技能包
python scripts/download_skill.py ubuntu/chrome/CHROME_Manage_Bookmarks_Reading_List_And_Shortcuts
# 查看技能完整元数据与视觉素材
python scripts/inspect_skill.py ~/.cache/mmskills/skills/ubuntu/chrome/xxx

六、竞品对比

选取视觉Agent赛道主流技能方案：OpenClaw Skills、Claude Code Skill、OSWorld原生文本技能与MMSkills横向对比：

对比维度	MMSkills	OpenClaw Skills	Claude Code Skill	OSWorld原生文本技能
技能模态	多模态（文本+视觉截图+状态标注）	纯文本流程手册，无视觉素材	纯文本工具调用流程，无图像校验	极简纯文本操作描述
推理架构	独立分支隔离加载，不占用主上下文Token	全量技能注入主Prompt，Token消耗高	工具式子程序调用，无视觉对齐逻辑	全部文本塞进主对话，上下文极易膨胀
视觉校验能力	原生支持截图比对、界面元素状态识别	无视觉参考，仅依靠文字描述判断	无图像匹配、界面校验逻辑	完全不支持视觉状态判断
跨Agent兼容性	统一适配器适配Codex/OpenClaw/Claude Code	仅适配OpenClaw自身	仅Claude Code专属，无法通用	仅OSWorld内置Agent可用
技能存储方式	Hugging Face云端按需下载，本地轻量化缓存	本地全量存储，占用大量磁盘	内置少量固定工具，无法拓展外部技能库	本地固定精简子集，无远程扩充能力
覆盖场景	Ubuntu/macOS桌面、Minecraft、马里奥，可拓展机器人/自动驾驶	仅桌面代码、终端命令行任务	仅代码开发、终端操作场景	仅Ubuntu桌面OSWorld基准环境
专项评测日志	自动生成技能调用、成功率、对话完整统计文件	仅基础执行记录，无技能专项指标	仅代码执行日志，无GUI操作统计	仅基础任务结果，无技能使用明细

七、常见问题解答

Q：MMSkills必须搭配OSWorld环境才能使用吗？

A：不是。OSWorld只是项目官方参考基准环境，框架原生支持macOSWorld、VAB-Minecraft、GamingAgent三大评测框架；同时通过mmskills-agent-adapter适配器，可直接对接Codex、OpenClaw、Claude Code独立AI代码助手，无需依赖OSWorld源码。

Q：本地硬盘存储空间不足，是否需要下载完整515个技能？

A：不需要。完整515套技能托管在Hugging Face数据集，框架采用按需下载机制，智能体只会拉取当前任务匹配的技能包；仓库内置精简本地技能子集，断网状态下也可完成基础测试，不会一次性占用大量磁盘空间。

Q：MMSkills能否接入本地开源多模态大模型？

A：完全支持。框架底层模型无关，只要模型提供OpenAI或Gemini兼容的对话API接口，且支持图片输入，无论是GPT-4o、Gemini商用模型，还是Qwen-VL、LLaVA等本地开源视觉大模型，均可无缝接入使用。

Q：如何将自定义的新领域技能提交至官方公共技能库？

A：有两种标准化提交渠道：第一种是访问项目官网投稿页面填写表单，上传符合规范的技能压缩包；第二种是在GitHub仓库新建Issue，附上遵循docs/submit_mmskills.md规范的技能文件夹。维护人员收到GitHub通知后开展审核，修改达标后技能会同步至Hugging Face数据集与官网检索库。

Q：mm_skill模式加载大量截图，会不会大幅消耗模型Token？

A：不会。核心分支加载机制隔离所有视觉素材，主Agent上下文仅保留简短技能名称；视觉截图仅在临时独立推理分支加载，分支推理结束后图像数据直接销毁，不会持续占用主对话Token。

Q：当前MMSkills是否支持Windows系统桌面智能体？

A：官方内置技能库目前仅覆盖Ubuntu、macOS、Minecraft、马里奥四大场景，暂无原生Windows适配；但框架具备高度拓展性，开发者可自行编写Windows领域技能包，完成社区投稿后扩充至官方公共库。

Q：项目采用Apache 2.0协议，企业是否可以商用二次开发？

Q：MMSkills的轨迹转技能生成器如何使用？

A：轨迹生成模块内置在项目scripts脚本目录，可导入智能体历史交互轨迹文件，自动完成聚类、流程提炼、视觉标注，输出标准化MMSkill技能包，无需人工手动编写全套SKILL.md与状态卡片。

八、官方链接

GitHub开源代码仓库：https://github.com/zkangning/MMSkills_for_Visual_Agents
arXiv学术论文原文：https://arxiv.org/abs/2605.13527
项目官方演示主站：https://zkangning.github.io/MMSkills_for_Visual_Agents/
Hugging Face数据集：https://huggingface.co/datasets/zhangkangning/mmskills

九、总结

MMSkills是面向通用视觉交互智能体的开源标准化多模态技能工程框架，突破传统纯文本技能缺失视觉界面校验的技术短板，依托分支隔离加载、云端按需拉取、标准化技能包三大核心设计，平衡桌面与游戏AI的任务执行精度与推理Token成本，原生兼容主流多模态大模型与多款商用AI代码助手，配套四大权威视觉评测基准完整适配工具链、标准化量化评测日志与开放社区技能共建体系，既能够满足科研人员开展视觉Agent消融实验、多方案性能对比的学术需求，也可供企业开发者搭建桌面自动化数字员工、拓展机器人、移动端等全新视觉交互场景，是当前视觉智能体领域一套完整、可落地、高拓展性的技能解决方案。

视觉智能体 AI智能体开源AI框架 AI技能库

打赏

版权及免责申明：本文由@97ai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/mmskills.html

THE END

97ai

我不是在训练模型，而是在与未来的自己对话。

+ 关注

MMSkills：上交大与小红书联合开源的视觉智能体多模态技能框架

文章目录

一、MMSkills是什么

二、核心功能特色

三、技术细节

3.1 标准技能包目录结构

3.2 五层核心运行架构

3.3 仓库模块功能划分表

3.4 三种官方运行模式

3.5 量化实验技术效果

四、应用场景

五、完整使用方法

步骤1：克隆开源项目仓库

步骤2：配置Python虚拟环境并安装依赖

步骤3：一键集成至OSWorld评测环境

步骤4：配置大模型API接口

步骤5：三种模式启动运行

步骤6：Codex代码助手一键安装适配器

步骤7：技能管理工具命令

六、竞品对比

七、常见问题解答

八、官方链接

九、总结

相关文章