MMSkills:上交大与小红书联合开源的视觉智能体多模态技能框架

原创 发布日期:
64

一、MMSkills是什么

MMSkills 是上海交通大学、小红书、东南大学联合团队于2026年发布的开源通用视觉智能体多模态技能框架,配套同名学术论文《MMSkills: Towards Multimodal Skills for General Visual Agents》(arXiv:2605.13527),开源仓库托管于GitHub,采用Apache 2.0开源协议,面向GUI桌面、游戏操控类视觉交互AI设计。

传统视觉智能体仅依靠纯文本描述操作流程,无法识别界面视觉状态,执行多步骤软件、游戏任务时频繁出现重复点击、操作路径错误、无法判断任务是否完成等问题。MMSkills核心创新是将零散交互轨迹转化为标准化多模态技能包,融合文字操作流程、轻量化运行状态卡片、多视角界面关键帧;推理阶段采用分支加载隔离机制,智能体仅在独立临时分支调取视觉素材与实时截图比对,输出状态感知的结构化操作指引,大幅提升视觉智能体任务成功率,同时控制上下文Token消耗。

项目配套515个跨领域标准化技能库、四大主流评测基准适配、多AI代码助手通用适配器、完整实验日志输出工具,同时开放社区技能共建通道,支持开发者拓展全新垂直场景技能。

MMSkills:上交大与小红书联合开源的视觉智能体多模态技能框架

二、核心功能特色

  1. 标准化自包含多模态技能包
    每一项技能独立封装,内置操作文档、推理专用轻量化元数据、审计级标注文件、界面视觉截图,明确技能适用场景、禁用场景、任务完成校验标准,无需额外拼接素材,开箱即可用于智能体推理。

  2. 轨迹自动生成技能模块(Trajectory-to-skill Generator)
    无需存储原始交互演示数据,自动对智能体历史交互轨迹聚类、流程合并、文本生成、视觉标注、人工审核,批量提炼轻量化可复用技能,降低技能库搭建成本。

  3. 分支加载轻量化推理(核心技术)
    主智能体仅保留极简技能名称提示,不加载图像素材;判定需要技能辅助时开辟独立隔离推理分支,按需调取对应视觉关键帧与实时画面对齐,推理结束后销毁图像数据,不会占用主对话上下文,兼顾视觉校验精度与推理成本。

  4. 动态按需加载视觉证据
    运行时自动判断当前步骤是否需要图像参考,仅调取局部裁剪、全局界面等必需视觉素材,非必要图像不参与推理,减少模型输入开销。

  5. 全模型、多AI产品通用兼容
    无模型绑定,所有支持截图输入、OpenAI/Gemini兼容对话API的视觉大模型均可接入;原生适配Codex、OpenClaw、Claude Code三大主流AI代码助手,统一技能调用接口,跨产品复用技能库。

  6. 四大视觉基准原生适配
    内置OSWorld、macOSWorld、VAB-Minecraft、Super Mario Bros四大主流视觉智能体评测环境轻量化适配代码,一键部署即可开展标准化对照消融实验。

  7. 云端按需拉取技能库
    完整515套技能托管在Hugging Face数据集,本地仅保留精简子集,智能体执行任务时自动检索、下载当前任务匹配的技能包,不占用本地大量存储空间。

  8. 社区标准化技能投稿体系
    提供官网表单、GitHub Issue双渠道技能提交通道,投稿后经官方审核,合格技能自动同步至Hugging Face公开库与官网检索页面,支持桌面、移动端、机器人、自动驾驶、科研软件等全新领域拓展。

  9. 完整量化评测日志自动输出
    运行后自动生成技能调用记录、技能使用统计、全流程对话轨迹文件,可直接用于实验对比、效果复盘与数据量化。

  10. 显著优化智能体行为模式
    不仅提升任务完成率,还能减少智能体底层重复操作、无效点击,强化任务完成判断能力,形成基于画面状态的有序结构化执行逻辑。

三、技术细节

3.1 标准技能包目录结构

skills_library/<领域>/<技能名称>/
├── SKILL.md        # 文字操作流程、适用边界、校验规则
├── runtime_state_cards.json # 推理轻量化元数据:触发条件、视觉提示、完成标准
├── state_cards.json    # 审计级完整标注:界面坐标、裁剪规则、视觉查询语句
├── plan.json        # 自动生成分层任务规划(可选)
└── Images/         # 全局界面、局部焦点裁剪、操作前后对比关键帧

runtime_state_cards.json为推理专用轻量化文件,仅保留AI运行必需信息;state_cards.json面向开发者调试、实验复现,包含完整视觉标注信息。

3.2 五层核心运行架构

  1. 主视觉Agent层:接收屏幕截图、用户任务指令,仅加载极简技能名称提示,不加载图像素材;

  2. 技能匹配调度层:根据任务文本匹配Top-K(默认6)候选技能;

  3. 分支规划器层:独立隔离推理分支,按需下载、加载对应技能视觉图片,对比实时截图生成结构化操作步骤;

  4. 结果回传执行层:精简操作指令返回主Agent,调用pyautogui完成鼠标键盘自动化动作;

  5. 日志持久化层:自动保存skill_invocations.jsonskill_usage_summary.json、对话日志等评测文件。

3.3 仓库模块功能划分表

目录文件夹 核心功能说明
agent_integrations Codex/OpenClaw/Claude Code通用适配器,提供一键安装脚本
osworld/macosworld/vab_minecraft/gaming_agent_integration 四大评测环境专属轻量化适配代码,独立隔离无冗余
mm_agents MMSkills主运行入口mm_skill_agent.py,提供3套运行模式
skills_library 本地预装精简技能子集,用于离线快速测试
task_skill_mappings 任务与技能匹配映射配置文件,自动匹配对应技能
scripts 环境部署、技能检索/下载/校验、OSWorld集成工具脚本
docs 开发文档、标准化技能投稿规范

3.4 三种官方运行模式

  1. general:基线无技能纯视觉Agent,用于对照组实验;

  2. general_text_skill:仅文本技能,无视觉参考,消融实验专用;

  3. mm_skill:完整多模态MMSkills模式,项目官方推荐标准运行方案。

3.5 量化实验技术效果

在OSWorld桌面基准下,多参数量视觉模型接入MMSkills后任务成功率均大幅提升,小参数量模型增益幅度更突出:

评测基准 模型名称 无技能成功率 MMSkills成功率 提升幅度
OSWorld Gemini 3.1 Pro 44.08 50.11 +6.03
OSWorld Gemini 3 Flash 36.65 47.97 +11.32
OSWorld Qwen3-VL-235B 21.34 39.17 +17.83
OSWorld Qwen3-VL-8B-Instruct 10.78 25.40 +14.62

消融实验验证:运行状态卡片、视觉关键帧、分支加载、视图筛选四大模块均为性能提升的核心组件,缺一不可。

MMSkills:上交大与小红书联合开源的视觉智能体多模态技能框架

四、应用场景

  1. 桌面GUI自动化智能体研发
    适配Ubuntu、macOS双桌面系统,完成表格制作、VS Code插件安装、GIMP图像编辑、浏览器书签管理、邮件处理、多媒体软件操作等办公自动化任务,解决AI操作软件频繁迷路、步骤出错的痛点。

  2. 游戏视觉智能体标准化评测
    支持VAB-Minecraft、超级马里奥游戏环境,为游戏AI提供标准化操作技能库,统一游戏智能体评测流程,量化对比不同模型游戏操控能力。

  3. AI代码助手能力增强
    为Codex、Claude Code、OpenClaw增加电脑GUI可视化操作能力,代码智能体可自主操控桌面软件完成配套开发流程。

  4. 学术视觉Agent消融实验
    基于OSWorld/macOSWorld权威基准开展多方案性能对比、模块消融实验,输出标准化可复现量化指标,适配计算机视觉、大模型Agent方向科研。

  5. 垂直领域智能体拓展开发
    开发者可基于框架新增移动端自动化、网页交互、工业机器人、自动驾驶仿真、科研软件等场景的多模态技能包,通过社区投稿扩充官方公共库。

  6. 企业数字员工落地
    沉淀企业标准化桌面办公流程为可视化技能包,降低AI数字员工训练成本,实现标准化办公流程自动化。

五、完整使用方法

步骤1:克隆开源项目仓库

git clone https://github.com/zkangning/MMSkills_for_Visual_Agents.git
cd MMSkills_for_Visual_Agents

步骤2:配置Python虚拟环境并安装依赖

python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

步骤3:一键集成至OSWorld评测环境

提前下载OSWorld源码,执行脚本自动拷贝Agent、技能、映射文件:

python3 scripts/install_into_osworld.py /path/to/OSWorld --with-runner --with-skills

步骤4:配置大模型API接口

OpenAI兼容接口配置:

export OPENAI_BASE_URL="你的模型接口地址/v1"
export OPENAI_API_KEY="你的密钥"

Gemini兼容接口配置:

export GEMINI_BASE_URL="Gemini接口地址/v1"
export GEMINI_API_KEY="你的密钥"

步骤5:三种模式启动运行

  1. 基线无技能对照模式

python run.py --agent_type general --model gpt-4o --domain chrome --max_steps 20
  1. 纯文本技能消融实验模式

python run.py --agent_type general_text_skill --skill_mode text_only --domain chrome
  1. 完整多模态MMSkills推荐模式

python run.py --agent_type mm_skill --skill_mode multimodal --task_skill_top_k 6 --save_conversation_json

步骤6:Codex代码助手一键安装适配器

单行脚本快速部署:

curl -fsSL https://raw.githubusercontent.com/zkangning/MMSkills_for_Visual_Agents/main/scripts/install_codex_mmskills.sh | bash

重启Codex后输入$mmskills即可调用技能检索、加载全套能力。

步骤7:技能管理工具命令

# 检索指定领域技能
python scripts/search_skills.py "chrome bookmark" --package ubuntu
# 下载目标技能包
python scripts/download_skill.py ubuntu/chrome/CHROME_Manage_Bookmarks_Reading_List_And_Shortcuts
# 查看技能完整元数据与视觉素材
python scripts/inspect_skill.py ~/.cache/mmskills/skills/ubuntu/chrome/xxx

六、竞品对比

选取视觉Agent赛道主流技能方案:OpenClaw Skills、Claude Code Skill、OSWorld原生文本技能与MMSkills横向对比:

对比维度 MMSkills OpenClaw Skills Claude Code Skill OSWorld原生文本技能
技能模态 多模态(文本+视觉截图+状态标注) 纯文本流程手册,无视觉素材 纯文本工具调用流程,无图像校验 极简纯文本操作描述
推理架构 独立分支隔离加载,不占用主上下文Token 全量技能注入主Prompt,Token消耗高 工具式子程序调用,无视觉对齐逻辑 全部文本塞进主对话,上下文极易膨胀
视觉校验能力 原生支持截图比对、界面元素状态识别 无视觉参考,仅依靠文字描述判断 无图像匹配、界面校验逻辑 完全不支持视觉状态判断
跨Agent兼容性 统一适配器适配Codex/OpenClaw/Claude Code 仅适配OpenClaw自身 仅Claude Code专属,无法通用 仅OSWorld内置Agent可用
技能存储方式 Hugging Face云端按需下载,本地轻量化缓存 本地全量存储,占用大量磁盘 内置少量固定工具,无法拓展外部技能库 本地固定精简子集,无远程扩充能力
覆盖场景 Ubuntu/macOS桌面、Minecraft、马里奥,可拓展机器人/自动驾驶 仅桌面代码、终端命令行任务 仅代码开发、终端操作场景 仅Ubuntu桌面OSWorld基准环境
专项评测日志 自动生成技能调用、成功率、对话完整统计文件 仅基础执行记录,无技能专项指标 仅代码执行日志,无GUI操作统计 仅基础任务结果,无技能使用明细

七、常见问题解答

Q:MMSkills必须搭配OSWorld环境才能使用吗?

A:不是。OSWorld只是项目官方参考基准环境,框架原生支持macOSWorld、VAB-Minecraft、GamingAgent三大评测框架;同时通过mmskills-agent-adapter适配器,可直接对接Codex、OpenClaw、Claude Code独立AI代码助手,无需依赖OSWorld源码。

Q:本地硬盘存储空间不足,是否需要下载完整515个技能?

A:不需要。完整515套技能托管在Hugging Face数据集,框架采用按需下载机制,智能体只会拉取当前任务匹配的技能包;仓库内置精简本地技能子集,断网状态下也可完成基础测试,不会一次性占用大量磁盘空间。

Q:MMSkills能否接入本地开源多模态大模型?

A:完全支持。框架底层模型无关,只要模型提供OpenAI或Gemini兼容的对话API接口,且支持图片输入,无论是GPT-4o、Gemini商用模型,还是Qwen-VL、LLaVA等本地开源视觉大模型,均可无缝接入使用。

Q:如何将自定义的新领域技能提交至官方公共技能库?

A:有两种标准化提交渠道:第一种是访问项目官网投稿页面填写表单,上传符合规范的技能压缩包;第二种是在GitHub仓库新建Issue,附上遵循docs/submit_mmskills.md规范的技能文件夹。维护人员收到GitHub通知后开展审核,修改达标后技能会同步至Hugging Face数据集与官网检索库。

Q:mm_skill模式加载大量截图,会不会大幅消耗模型Token?

A:不会。核心分支加载机制隔离所有视觉素材,主Agent上下文仅保留简短技能名称;视觉截图仅在临时独立推理分支加载,分支推理结束后图像数据直接销毁,不会持续占用主对话Token。

Q:当前MMSkills是否支持Windows系统桌面智能体?

A:官方内置技能库目前仅覆盖Ubuntu、macOS、Minecraft、马里奥四大场景,暂无原生Windows适配;但框架具备高度拓展性,开发者可自行编写Windows领域技能包,完成社区投稿后扩充至官方公共库。

Q:项目采用Apache 2.0协议,企业是否可以商用二次开发?

A:允许商用、二次修改、分发衍生产品,协议仅要求保留原始版权声明,衍生产品无需强制开源,企业可无限制用于内部自动化、商业AI产品开发。

Q:MMSkills的轨迹转技能生成器如何使用?

A:轨迹生成模块内置在项目scripts脚本目录,可导入智能体历史交互轨迹文件,自动完成聚类、流程提炼、视觉标注,输出标准化MMSkill技能包,无需人工手动编写全套SKILL.md与状态卡片。

八、官方链接

  1. GitHub开源代码仓库:https://github.com/zkangning/MMSkills_for_Visual_Agents

  2. arXiv学术论文原文:https://arxiv.org/abs/2605.13527

  3. 项目官方演示主站:https://zkangning.github.io/MMSkills_for_Visual_Agents/

  4. Hugging Face数据集:https://huggingface.co/datasets/zhangkangning/mmskills

九、总结

MMSkills是面向通用视觉交互智能体的开源标准化多模态技能工程框架,突破传统纯文本技能缺失视觉界面校验的技术短板,依托分支隔离加载、云端按需拉取、标准化技能包三大核心设计,平衡桌面与游戏AI的任务执行精度与推理Token成本,原生兼容主流多模态大模型与多款商用AI代码助手,配套四大权威视觉评测基准完整适配工具链、标准化量化评测日志与开放社区技能共建体系,既能够满足科研人员开展视觉Agent消融实验、多方案性能对比的学术需求,也可供企业开发者搭建桌面自动化数字员工、拓展机器人、移动端等全新视觉交互场景,是当前视觉智能体领域一套完整、可落地、高拓展性的技能解决方案。

打赏
THE END
作者头像
97ai
我不是在训练模型,而是在与未来的自己对话。