Mano-P 1.0:明略科技开源的端侧GUI-VLA智能体,自主完成复杂电脑操作

原创 发布日期:
160

Mano-P 1.0是什么

Mano-P 1.0是明略科技(Mininglamp-AI)开源的GUI-VLA(Vision-Language-Action)端侧智能体模型,核心定位为面向个人与企业的本地计算机使用自动化(CUA)解决方案,专为苹果M系列芯片(M4 Pro/Max/Ultra及以上)边缘设备优化,实现完全本地推理、零数据上传、高安全性的电脑自主操作。

该模型以“AI for Personal”为核心理念,打破传统云端AI依赖API、数据隐私风险高的痛点,让用户在Mac mini、MacBook等设备上即可运行具备复杂界面理解、长任务规划、自主执行与结果验证的全链路智能体,在OSWorld、ScreenSpot-V2、MMBench等全球权威GUI智能体基准测试中斩获多项SOTA,其中OSWorld专用模型成功率达**58.2%**,位列全球第一。

Mano-P 1.0采用分阶段开源策略,当前已开放Mano-CUA Skills组件,支持与OpenClaw、Claude Code等生态集成,后续将逐步开源本地侧模型、SDK、训练方案与量化技术,面向开发者、企业IT团队、个人效率用户提供可定制、可私有化部署的GUI智能体能力。

功能特色

  1. 全本地隐私安全
    所有视觉感知、决策推理、操作执行均在本地设备完成,截图、操作数据不上传任何云端服务器,彻底杜绝数据泄露风险,满足企业涉密场景与个人隐私保护需求。

  2. 复杂GUI自主操作
    支持识别数百个交互元素的复杂界面,自主完成点击、输入、滚动、文件读写、软件配置等全流程操作,无需人工干预即可执行数十至上百步连续任务。

  3. 跨系统无API数据整合
    无需对接各类软件API,通过纯视觉理解提取浏览器、办公软件、客户端软件中的数据,自动整合生成结构化报表、总结文档,打通数据孤岛。

  4. 思考-行动-验证闭环
    内置Think-Act-Verify循环推理机制,每一步操作前规划路径、执行后校验结果,失败自动重试或调整策略,大幅提升任务成功率。

  5. 端侧高性能推理
    4B量化模型(w4a16)在M4 Pro设备上实现476 tokens/s预填充、76 tokens/s解码,峰值内存仅4.3GB,32GB内存设备即可流畅运行。

  6. 开源可定制扩展
    基于Apache 2.0协议开源,提供Python SDK、技能组件、部署脚本,支持二次开发、模型微调、行业场景定制,兼容OpenClaw等主流Agent生态。

  7. 多场景开箱即用
    覆盖办公自动化、应用开发、视频运营、数据处理、日常娱乐等场景,提供预设技能模板,降低使用门槛。

Mano-P 1.0:明略科技开源的端侧GUI-VLA智能体,自主完成复杂电脑操作

技术细节

核心技术架构

Mano-P 1.0基于明略科技Mano技术栈构建,采用三阶段渐进式训练+双向自强化学习技术路线:

  1. 监督微调(SFT):在高保真模拟系统环境中学习基础GUI操作逻辑;

  2. 离线强化学习:基于海量操作轨迹优化决策策略,提升复杂任务适配性;

  3. 在线强化学习:通过实时交互反馈持续迭代,强化错误修正与结果验证能力。

关键技术模块

  • Mano-Action双向自强化学习:同时优化操作决策与结果校验,解决传统智能体“执行后无反馈”的痛点;

  • 视觉Token剪枝:对屏幕画面进行轻量化编码,降低端侧算力消耗,提升推理速度;

  • 混合精度量化(w4a16):在保持精度的前提下大幅压缩模型体积,适配边缘设备;

  • ScreenSpot-V2视觉感知:界面元素识别准确率达93.5%,精准定位按钮、输入框、菜单等控件;

  • 长上下文任务规划:支持百级步骤流程拆解,自动处理分支逻辑与异常情况。

性能基准数据

基准测试 核心指标 Mano-P 1.0-72B 行业地位
OSWorld 专用模型成功率 58.2% 全球第一
ScreenSpot-V2 界面定位准确率 93.5% SOTA
MMBench 多模态理解 87.5% 第一梯队
WebRetriever NavEval得分 41.7 超越Gemini 2.5 Pro/Claude 4.5

部署技术要求

  • 硬件:苹果M4 Pro/Max/Ultra芯片,≥32GB统一内存;

  • 系统:macOS Sonoma及以上版本;

  • 推理引擎:MLX框架,支持本地量化推理;

  • 开发环境:Python 3.10+,Homebrew包管理工具。

应用场景

1. 办公自动化

  • 自动整理文件、批量重命名、格式转换、数据汇总;

  • 自动填写表单、发送邮件、生成周报/月报/数据分析报告;

  • 跨软件数据迁移,无需复制粘贴,一键完成Excel、Word、浏览器数据同步。

2. 应用全流程开发

  • 自然语言描述需求,自动完成需求分析、架构设计、代码编写;

  • 自主部署项目、执行多维度测试,定位Bug并自动修复;

  • 生成项目文档、接口说明,交付可直接运行的完整应用。

3. 视频内容运营

  • 自动剪辑视频、添加字幕、调整参数;

  • 批量上传视频平台、填写标题与标签、监控播放数据;

  • 生成运营报告,分析流量趋势与用户反馈。

4. 企业业务流程自动化

  • 财务数据提取、报表生成、对账校验;

  • 客户信息录入、工单处理、售后回访;

  • 工业系统界面监控、数据采集、异常告警。

5. 个人日常效率提升

  • 网页信息批量爬取、整理成笔记;

  • 软件自动配置、环境一键搭建;

  • 游戏界面理解、策略决策(如麻将牌型识别与出牌建议)。

Mano-P 1.0:明略科技开源的端侧GUI-VLA智能体,自主完成复杂电脑操作

使用方法

环境准备

  1. 安装macOS Sonoma 14.0+系统;

  2. 安装Homebrew:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
  1. 安装Python 3.10+:

brew install python3
  1. 安装MLX推理依赖:

pip install mlx mlx-lm

项目部署

  1. 克隆GitHub仓库:

git clone https://github.com/Mininglamp-AI/Mano-P.git
cd Mano-P
  1. 安装项目依赖:

pip install -r requirements.txt
  1. 下载量化模型文件(官方提供4B/72B版本);

  2. 配置本地模型路径:

# config.py
MODEL_PATH = "./mano-p-4b-w4a16"
DEVICE = "mps"

快速运行

  1. 基础GUI操作示例:

python main.py --task "打开浏览器并搜索Mano-P项目"
  1. 自定义任务执行:

python main.py --task "整理桌面文件,按类型分类到对应文件夹"
  1. 技能组件调用:

python skill_runner.py --skill report --data "./data.xlsx"

云端备用模式

未配置本地模型时,可临时使用明略官方推理接口,本地仅传输截图与任务描述,文件与隐私数据仍保留在设备:

python main.py --mode cloud --api-key "your-key"

竞品对比

对比维度 Mano-P 1.0 Claude Computer Use Gemini 3.1 Pro Computer Use
部署方式 全本地开源 云端API 云端API
OSWorld成绩 58.2%(专用模型第一) 72.7%(通用模型) 约60%(通用模型)
数据隐私 零上传,本地闭环 数据上传Anthropic服务器 数据上传Google服务器
硬件要求 M4+,32GB内存 无,仅需网络 无,仅需网络
开源程度 全开源(Apache 2.0) 闭源,无定制能力 闭源,无定制能力
推理速度 本地76 tokens/s 依赖网络延迟 依赖网络延迟
适用场景 个人/企业私有化、涉密场景 通用轻量任务 通用多模态任务
二次开发 支持SDK、技能扩展 不支持 有限支持

常见问题解答

Mano-P 1.0支持Windows或Linux系统吗?

当前版本仅针对苹果M系列芯片macOS系统优化,暂不支持Windows与Linux,官方未公布跨平台适配时间表。

Mano-P 1.0最低硬件配置是什么?

推荐M4 Pro及以上芯片,32GB统一内存;16GB内存设备可运行4B量化模型,但会出现明显卡顿,不建议用于生产环境。

运行Mano-P需要付费吗?

项目基于Apache 2.0开源协议,个人与商业使用均免费,无授权费用,模型文件可从官方渠道免费下载。

Mano-P执行错误任务怎么办?

模型内置Think-Act-Verify机制,会自动校验结果并重试;仍失败可通过自然语言重新描述任务,或调整任务拆解粒度。

可以自己训练定制版Mano-P模型吗?

项目第三阶段将开源训练代码、数据集与量化方案,届时开发者可基于行业数据微调专属模型,当前仅支持技能组件定制。

Mano-P与OpenClaw、Claude Code如何集成?

已开源Mano-CUA Skills组件,通过Python接口直接对接,可将Mano-P的GUI操作能力注入现有Agent工作流,提升自动化深度。

本地推理时发热与功耗如何?

4B量化模型在M4 Pro上运行功耗约15-20W,发热控制良好,适合长时间办公使用;72B模型功耗较高,建议外接电源使用。

相关链接

总结

Mano-P 1.0是明略科技推出的全球领先端侧GUI-VLA智能体模型,以全本地运行、数据隐私安全、高性能推理与开源可定制为核心优势,在OSWorld等权威基准测试中斩获专用模型第一,能够自主完成复杂电脑操作、长流程任务执行与跨系统数据整合,既满足个人用户提升办公与日常效率的需求,也为企业提供私有化、可定制的计算机使用自动化解决方案,依托Apache 2.0开源协议与完整技术生态,降低了GUI智能体的落地门槛,成为端侧AI自动化领域的标杆级开源项目。

打赏
THE END
作者头像
97ai
我不是在训练模型,而是在与未来的自己对话。