MMSkills:上交大与小红书联合开源的视觉智能体多模态技能框架
一、MMSkills是什么
MMSkills 是上海交通大学、小红书、东南大学联合团队于2026年发布的开源通用视觉智能体多模态技能框架,配套同名学术论文《MMSkills: Towards Multimodal Skills for General Visual Agents》(arXiv:2605.13527),开源仓库托管于GitHub,采用Apache 2.0开源协议,面向GUI桌面、游戏操控类视觉交互AI设计。
传统视觉智能体仅依靠纯文本描述操作流程,无法识别界面视觉状态,执行多步骤软件、游戏任务时频繁出现重复点击、操作路径错误、无法判断任务是否完成等问题。MMSkills核心创新是将零散交互轨迹转化为标准化多模态技能包,融合文字操作流程、轻量化运行状态卡片、多视角界面关键帧;推理阶段采用分支加载隔离机制,智能体仅在独立临时分支调取视觉素材与实时截图比对,输出状态感知的结构化操作指引,大幅提升视觉智能体任务成功率,同时控制上下文Token消耗。
项目配套515个跨领域标准化技能库、四大主流评测基准适配、多AI代码助手通用适配器、完整实验日志输出工具,同时开放社区技能共建通道,支持开发者拓展全新垂直场景技能。

二、核心功能特色
标准化自包含多模态技能包
每一项技能独立封装,内置操作文档、推理专用轻量化元数据、审计级标注文件、界面视觉截图,明确技能适用场景、禁用场景、任务完成校验标准,无需额外拼接素材,开箱即可用于智能体推理。轨迹自动生成技能模块(Trajectory-to-skill Generator)
无需存储原始交互演示数据,自动对智能体历史交互轨迹聚类、流程合并、文本生成、视觉标注、人工审核,批量提炼轻量化可复用技能,降低技能库搭建成本。分支加载轻量化推理(核心技术)
主智能体仅保留极简技能名称提示,不加载图像素材;判定需要技能辅助时开辟独立隔离推理分支,按需调取对应视觉关键帧与实时画面对齐,推理结束后销毁图像数据,不会占用主对话上下文,兼顾视觉校验精度与推理成本。动态按需加载视觉证据
运行时自动判断当前步骤是否需要图像参考,仅调取局部裁剪、全局界面等必需视觉素材,非必要图像不参与推理,减少模型输入开销。全模型、多AI产品通用兼容
无模型绑定,所有支持截图输入、OpenAI/Gemini兼容对话API的视觉大模型均可接入;原生适配Codex、OpenClaw、Claude Code三大主流AI代码助手,统一技能调用接口,跨产品复用技能库。四大视觉基准原生适配
内置OSWorld、macOSWorld、VAB-Minecraft、Super Mario Bros四大主流视觉智能体评测环境轻量化适配代码,一键部署即可开展标准化对照消融实验。云端按需拉取技能库
完整515套技能托管在Hugging Face数据集,本地仅保留精简子集,智能体执行任务时自动检索、下载当前任务匹配的技能包,不占用本地大量存储空间。社区标准化技能投稿体系
提供官网表单、GitHub Issue双渠道技能提交通道,投稿后经官方审核,合格技能自动同步至Hugging Face公开库与官网检索页面,支持桌面、移动端、机器人、自动驾驶、科研软件等全新领域拓展。完整量化评测日志自动输出
运行后自动生成技能调用记录、技能使用统计、全流程对话轨迹文件,可直接用于实验对比、效果复盘与数据量化。显著优化智能体行为模式
不仅提升任务完成率,还能减少智能体底层重复操作、无效点击,强化任务完成判断能力,形成基于画面状态的有序结构化执行逻辑。
三、技术细节
3.1 标准技能包目录结构
skills_library/<领域>/<技能名称>/ ├── SKILL.md # 文字操作流程、适用边界、校验规则 ├── runtime_state_cards.json # 推理轻量化元数据:触发条件、视觉提示、完成标准 ├── state_cards.json # 审计级完整标注:界面坐标、裁剪规则、视觉查询语句 ├── plan.json # 自动生成分层任务规划(可选) └── Images/ # 全局界面、局部焦点裁剪、操作前后对比关键帧
runtime_state_cards.json为推理专用轻量化文件,仅保留AI运行必需信息;state_cards.json面向开发者调试、实验复现,包含完整视觉标注信息。
3.2 五层核心运行架构
主视觉Agent层:接收屏幕截图、用户任务指令,仅加载极简技能名称提示,不加载图像素材;
技能匹配调度层:根据任务文本匹配Top-K(默认6)候选技能;
分支规划器层:独立隔离推理分支,按需下载、加载对应技能视觉图片,对比实时截图生成结构化操作步骤;
结果回传执行层:精简操作指令返回主Agent,调用pyautogui完成鼠标键盘自动化动作;
日志持久化层:自动保存
skill_invocations.json、skill_usage_summary.json、对话日志等评测文件。
3.3 仓库模块功能划分表
| 目录文件夹 | 核心功能说明 |
|---|---|
| agent_integrations | Codex/OpenClaw/Claude Code通用适配器,提供一键安装脚本 |
| osworld/macosworld/vab_minecraft/gaming_agent_integration | 四大评测环境专属轻量化适配代码,独立隔离无冗余 |
| mm_agents |
MMSkills主运行入口mm_skill_agent.py,提供3套运行模式 |
| skills_library | 本地预装精简技能子集,用于离线快速测试 |
| task_skill_mappings | 任务与技能匹配映射配置文件,自动匹配对应技能 |
| scripts | 环境部署、技能检索/下载/校验、OSWorld集成工具脚本 |
| docs | 开发文档、标准化技能投稿规范 |
3.4 三种官方运行模式
general:基线无技能纯视觉Agent,用于对照组实验;general_text_skill:仅文本技能,无视觉参考,消融实验专用;mm_skill:完整多模态MMSkills模式,项目官方推荐标准运行方案。
3.5 量化实验技术效果
在OSWorld桌面基准下,多参数量视觉模型接入MMSkills后任务成功率均大幅提升,小参数量模型增益幅度更突出:
| 评测基准 | 模型名称 | 无技能成功率 | MMSkills成功率 | 提升幅度 |
|---|---|---|---|---|
| OSWorld | Gemini 3.1 Pro | 44.08 | 50.11 | +6.03 |
| OSWorld | Gemini 3 Flash | 36.65 | 47.97 | +11.32 |
| OSWorld | Qwen3-VL-235B | 21.34 | 39.17 | +17.83 |
| OSWorld | Qwen3-VL-8B-Instruct | 10.78 | 25.40 | +14.62 |
消融实验验证:运行状态卡片、视觉关键帧、分支加载、视图筛选四大模块均为性能提升的核心组件,缺一不可。

四、应用场景
桌面GUI自动化智能体研发
适配Ubuntu、macOS双桌面系统,完成表格制作、VS Code插件安装、GIMP图像编辑、浏览器书签管理、邮件处理、多媒体软件操作等办公自动化任务,解决AI操作软件频繁迷路、步骤出错的痛点。游戏视觉智能体标准化评测
支持VAB-Minecraft、超级马里奥游戏环境,为游戏AI提供标准化操作技能库,统一游戏智能体评测流程,量化对比不同模型游戏操控能力。AI代码助手能力增强
为Codex、Claude Code、OpenClaw增加电脑GUI可视化操作能力,代码智能体可自主操控桌面软件完成配套开发流程。学术视觉Agent消融实验
基于OSWorld/macOSWorld权威基准开展多方案性能对比、模块消融实验,输出标准化可复现量化指标,适配计算机视觉、大模型Agent方向科研。垂直领域智能体拓展开发
开发者可基于框架新增移动端自动化、网页交互、工业机器人、自动驾驶仿真、科研软件等场景的多模态技能包,通过社区投稿扩充官方公共库。企业数字员工落地
沉淀企业标准化桌面办公流程为可视化技能包,降低AI数字员工训练成本,实现标准化办公流程自动化。
五、完整使用方法
步骤1:克隆开源项目仓库
git clone https://github.com/zkangning/MMSkills_for_Visual_Agents.git cd MMSkills_for_Visual_Agents
步骤2:配置Python虚拟环境并安装依赖
python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txt
步骤3:一键集成至OSWorld评测环境
提前下载OSWorld源码,执行脚本自动拷贝Agent、技能、映射文件:
python3 scripts/install_into_osworld.py /path/to/OSWorld --with-runner --with-skills
步骤4:配置大模型API接口
OpenAI兼容接口配置:
export OPENAI_BASE_URL="你的模型接口地址/v1" export OPENAI_API_KEY="你的密钥"
Gemini兼容接口配置:
export GEMINI_BASE_URL="Gemini接口地址/v1" export GEMINI_API_KEY="你的密钥"
步骤5:三种模式启动运行
基线无技能对照模式
python run.py --agent_type general --model gpt-4o --domain chrome --max_steps 20
纯文本技能消融实验模式
python run.py --agent_type general_text_skill --skill_mode text_only --domain chrome
完整多模态MMSkills推荐模式
python run.py --agent_type mm_skill --skill_mode multimodal --task_skill_top_k 6 --save_conversation_json
步骤6:Codex代码助手一键安装适配器
单行脚本快速部署:
curl -fsSL https://raw.githubusercontent.com/zkangning/MMSkills_for_Visual_Agents/main/scripts/install_codex_mmskills.sh | bash
重启Codex后输入$mmskills即可调用技能检索、加载全套能力。
步骤7:技能管理工具命令
# 检索指定领域技能 python scripts/search_skills.py "chrome bookmark" --package ubuntu # 下载目标技能包 python scripts/download_skill.py ubuntu/chrome/CHROME_Manage_Bookmarks_Reading_List_And_Shortcuts # 查看技能完整元数据与视觉素材 python scripts/inspect_skill.py ~/.cache/mmskills/skills/ubuntu/chrome/xxx
六、竞品对比
选取视觉Agent赛道主流技能方案:OpenClaw Skills、Claude Code Skill、OSWorld原生文本技能与MMSkills横向对比:
| 对比维度 | MMSkills | OpenClaw Skills | Claude Code Skill | OSWorld原生文本技能 |
|---|---|---|---|---|
| 技能模态 | 多模态(文本+视觉截图+状态标注) | 纯文本流程手册,无视觉素材 | 纯文本工具调用流程,无图像校验 | 极简纯文本操作描述 |
| 推理架构 | 独立分支隔离加载,不占用主上下文Token | 全量技能注入主Prompt,Token消耗高 | 工具式子程序调用,无视觉对齐逻辑 | 全部文本塞进主对话,上下文极易膨胀 |
| 视觉校验能力 | 原生支持截图比对、界面元素状态识别 | 无视觉参考,仅依靠文字描述判断 | 无图像匹配、界面校验逻辑 | 完全不支持视觉状态判断 |
| 跨Agent兼容性 | 统一适配器适配Codex/OpenClaw/Claude Code | 仅适配OpenClaw自身 | 仅Claude Code专属,无法通用 | 仅OSWorld内置Agent可用 |
| 技能存储方式 | Hugging Face云端按需下载,本地轻量化缓存 | 本地全量存储,占用大量磁盘 | 内置少量固定工具,无法拓展外部技能库 | 本地固定精简子集,无远程扩充能力 |
| 覆盖场景 | Ubuntu/macOS桌面、Minecraft、马里奥,可拓展机器人/自动驾驶 | 仅桌面代码、终端命令行任务 | 仅代码开发、终端操作场景 | 仅Ubuntu桌面OSWorld基准环境 |
| 专项评测日志 | 自动生成技能调用、成功率、对话完整统计文件 | 仅基础执行记录,无技能专项指标 | 仅代码执行日志,无GUI操作统计 | 仅基础任务结果,无技能使用明细 |
七、常见问题解答
Q:MMSkills必须搭配OSWorld环境才能使用吗?
A:不是。OSWorld只是项目官方参考基准环境,框架原生支持macOSWorld、VAB-Minecraft、GamingAgent三大评测框架;同时通过mmskills-agent-adapter适配器,可直接对接Codex、OpenClaw、Claude Code独立AI代码助手,无需依赖OSWorld源码。
Q:本地硬盘存储空间不足,是否需要下载完整515个技能?
A:不需要。完整515套技能托管在Hugging Face数据集,框架采用按需下载机制,智能体只会拉取当前任务匹配的技能包;仓库内置精简本地技能子集,断网状态下也可完成基础测试,不会一次性占用大量磁盘空间。
Q:MMSkills能否接入本地开源多模态大模型?
A:完全支持。框架底层模型无关,只要模型提供OpenAI或Gemini兼容的对话API接口,且支持图片输入,无论是GPT-4o、Gemini商用模型,还是Qwen-VL、LLaVA等本地开源视觉大模型,均可无缝接入使用。
Q:如何将自定义的新领域技能提交至官方公共技能库?
A:有两种标准化提交渠道:第一种是访问项目官网投稿页面填写表单,上传符合规范的技能压缩包;第二种是在GitHub仓库新建Issue,附上遵循docs/submit_mmskills.md规范的技能文件夹。维护人员收到GitHub通知后开展审核,修改达标后技能会同步至Hugging Face数据集与官网检索库。
Q:mm_skill模式加载大量截图,会不会大幅消耗模型Token?
A:不会。核心分支加载机制隔离所有视觉素材,主Agent上下文仅保留简短技能名称;视觉截图仅在临时独立推理分支加载,分支推理结束后图像数据直接销毁,不会持续占用主对话Token。
Q:当前MMSkills是否支持Windows系统桌面智能体?
A:官方内置技能库目前仅覆盖Ubuntu、macOS、Minecraft、马里奥四大场景,暂无原生Windows适配;但框架具备高度拓展性,开发者可自行编写Windows领域技能包,完成社区投稿后扩充至官方公共库。
Q:项目采用Apache 2.0协议,企业是否可以商用二次开发?
A:允许商用、二次修改、分发衍生产品,协议仅要求保留原始版权声明,衍生产品无需强制开源,企业可无限制用于内部自动化、商业AI产品开发。
Q:MMSkills的轨迹转技能生成器如何使用?
A:轨迹生成模块内置在项目scripts脚本目录,可导入智能体历史交互轨迹文件,自动完成聚类、流程提炼、视觉标注,输出标准化MMSkill技能包,无需人工手动编写全套SKILL.md与状态卡片。
八、官方链接
GitHub开源代码仓库:https://github.com/zkangning/MMSkills_for_Visual_Agents
arXiv学术论文原文:https://arxiv.org/abs/2605.13527
项目官方演示主站:https://zkangning.github.io/MMSkills_for_Visual_Agents/
Hugging Face数据集:https://huggingface.co/datasets/zhangkangning/mmskills
九、总结
MMSkills是面向通用视觉交互智能体的开源标准化多模态技能工程框架,突破传统纯文本技能缺失视觉界面校验的技术短板,依托分支隔离加载、云端按需拉取、标准化技能包三大核心设计,平衡桌面与游戏AI的任务执行精度与推理Token成本,原生兼容主流多模态大模型与多款商用AI代码助手,配套四大权威视觉评测基准完整适配工具链、标准化量化评测日志与开放社区技能共建体系,既能够满足科研人员开展视觉Agent消融实验、多方案性能对比的学术需求,也可供企业开发者搭建桌面自动化数字员工、拓展机器人、移动端等全新视觉交互场景,是当前视觉智能体领域一套完整、可落地、高拓展性的技能解决方案。
版权及免责申明:本文由@97ai原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/mmskills.html

