Mano-P 1.0:明略科技开源的端侧GUI-VLA智能体,自主完成复杂电脑操作
Mano-P 1.0是什么
Mano-P 1.0是明略科技(Mininglamp-AI)开源的GUI-VLA(Vision-Language-Action)端侧智能体模型,核心定位为面向个人与企业的本地计算机使用自动化(CUA)解决方案,专为苹果M系列芯片(M4 Pro/Max/Ultra及以上)边缘设备优化,实现完全本地推理、零数据上传、高安全性的电脑自主操作。
该模型以“AI for Personal”为核心理念,打破传统云端AI依赖API、数据隐私风险高的痛点,让用户在Mac mini、MacBook等设备上即可运行具备复杂界面理解、长任务规划、自主执行与结果验证的全链路智能体,在OSWorld、ScreenSpot-V2、MMBench等全球权威GUI智能体基准测试中斩获多项SOTA,其中OSWorld专用模型成功率达**58.2%**,位列全球第一。
Mano-P 1.0采用分阶段开源策略,当前已开放Mano-CUA Skills组件,支持与OpenClaw、Claude Code等生态集成,后续将逐步开源本地侧模型、SDK、训练方案与量化技术,面向开发者、企业IT团队、个人效率用户提供可定制、可私有化部署的GUI智能体能力。
功能特色
全本地隐私安全
所有视觉感知、决策推理、操作执行均在本地设备完成,截图、操作数据不上传任何云端服务器,彻底杜绝数据泄露风险,满足企业涉密场景与个人隐私保护需求。复杂GUI自主操作
支持识别数百个交互元素的复杂界面,自主完成点击、输入、滚动、文件读写、软件配置等全流程操作,无需人工干预即可执行数十至上百步连续任务。跨系统无API数据整合
无需对接各类软件API,通过纯视觉理解提取浏览器、办公软件、客户端软件中的数据,自动整合生成结构化报表、总结文档,打通数据孤岛。思考-行动-验证闭环
内置Think-Act-Verify循环推理机制,每一步操作前规划路径、执行后校验结果,失败自动重试或调整策略,大幅提升任务成功率。端侧高性能推理
4B量化模型(w4a16)在M4 Pro设备上实现476 tokens/s预填充、76 tokens/s解码,峰值内存仅4.3GB,32GB内存设备即可流畅运行。开源可定制扩展
基于Apache 2.0协议开源,提供Python SDK、技能组件、部署脚本,支持二次开发、模型微调、行业场景定制,兼容OpenClaw等主流Agent生态。多场景开箱即用
覆盖办公自动化、应用开发、视频运营、数据处理、日常娱乐等场景,提供预设技能模板,降低使用门槛。

技术细节
核心技术架构
Mano-P 1.0基于明略科技Mano技术栈构建,采用三阶段渐进式训练+双向自强化学习技术路线:
监督微调(SFT):在高保真模拟系统环境中学习基础GUI操作逻辑;
离线强化学习:基于海量操作轨迹优化决策策略,提升复杂任务适配性;
在线强化学习:通过实时交互反馈持续迭代,强化错误修正与结果验证能力。
关键技术模块
Mano-Action双向自强化学习:同时优化操作决策与结果校验,解决传统智能体“执行后无反馈”的痛点;
视觉Token剪枝:对屏幕画面进行轻量化编码,降低端侧算力消耗,提升推理速度;
混合精度量化(w4a16):在保持精度的前提下大幅压缩模型体积,适配边缘设备;
ScreenSpot-V2视觉感知:界面元素识别准确率达93.5%,精准定位按钮、输入框、菜单等控件;
长上下文任务规划:支持百级步骤流程拆解,自动处理分支逻辑与异常情况。
性能基准数据
| 基准测试 | 核心指标 | Mano-P 1.0-72B | 行业地位 |
|---|---|---|---|
| OSWorld | 专用模型成功率 | 58.2% | 全球第一 |
| ScreenSpot-V2 | 界面定位准确率 | 93.5% | SOTA |
| MMBench | 多模态理解 | 87.5% | 第一梯队 |
| WebRetriever | NavEval得分 | 41.7 | 超越Gemini 2.5 Pro/Claude 4.5 |
部署技术要求
硬件:苹果M4 Pro/Max/Ultra芯片,≥32GB统一内存;
系统:macOS Sonoma及以上版本;
推理引擎:MLX框架,支持本地量化推理;
开发环境:Python 3.10+,Homebrew包管理工具。
应用场景
1. 办公自动化
自动整理文件、批量重命名、格式转换、数据汇总;
自动填写表单、发送邮件、生成周报/月报/数据分析报告;
跨软件数据迁移,无需复制粘贴,一键完成Excel、Word、浏览器数据同步。
2. 应用全流程开发
自然语言描述需求,自动完成需求分析、架构设计、代码编写;
自主部署项目、执行多维度测试,定位Bug并自动修复;
生成项目文档、接口说明,交付可直接运行的完整应用。
3. 视频内容运营
自动剪辑视频、添加字幕、调整参数;
批量上传视频平台、填写标题与标签、监控播放数据;
生成运营报告,分析流量趋势与用户反馈。
4. 企业业务流程自动化
财务数据提取、报表生成、对账校验;
客户信息录入、工单处理、售后回访;
工业系统界面监控、数据采集、异常告警。
5. 个人日常效率提升
网页信息批量爬取、整理成笔记;
软件自动配置、环境一键搭建;
游戏界面理解、策略决策(如麻将牌型识别与出牌建议)。

使用方法
环境准备
安装macOS Sonoma 14.0+系统;
安装Homebrew:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
安装Python 3.10+:
brew install python3
安装MLX推理依赖:
pip install mlx mlx-lm
项目部署
克隆GitHub仓库:
git clone https://github.com/Mininglamp-AI/Mano-P.git cd Mano-P
安装项目依赖:
pip install -r requirements.txt
下载量化模型文件(官方提供4B/72B版本);
配置本地模型路径:
# config.py MODEL_PATH = "./mano-p-4b-w4a16" DEVICE = "mps"
快速运行
基础GUI操作示例:
python main.py --task "打开浏览器并搜索Mano-P项目"
自定义任务执行:
python main.py --task "整理桌面文件,按类型分类到对应文件夹"
技能组件调用:
python skill_runner.py --skill report --data "./data.xlsx"
云端备用模式
未配置本地模型时,可临时使用明略官方推理接口,本地仅传输截图与任务描述,文件与隐私数据仍保留在设备:
python main.py --mode cloud --api-key "your-key"
竞品对比
| 对比维度 | Mano-P 1.0 | Claude Computer Use | Gemini 3.1 Pro Computer Use |
|---|---|---|---|
| 部署方式 | 全本地开源 | 云端API | 云端API |
| OSWorld成绩 | 58.2%(专用模型第一) | 72.7%(通用模型) | 约60%(通用模型) |
| 数据隐私 | 零上传,本地闭环 | 数据上传Anthropic服务器 | 数据上传Google服务器 |
| 硬件要求 | M4+,32GB内存 | 无,仅需网络 | 无,仅需网络 |
| 开源程度 | 全开源(Apache 2.0) | 闭源,无定制能力 | 闭源,无定制能力 |
| 推理速度 | 本地76 tokens/s | 依赖网络延迟 | 依赖网络延迟 |
| 适用场景 | 个人/企业私有化、涉密场景 | 通用轻量任务 | 通用多模态任务 |
| 二次开发 | 支持SDK、技能扩展 | 不支持 | 有限支持 |
常见问题解答
Mano-P 1.0支持Windows或Linux系统吗?
当前版本仅针对苹果M系列芯片macOS系统优化,暂不支持Windows与Linux,官方未公布跨平台适配时间表。
Mano-P 1.0最低硬件配置是什么?
推荐M4 Pro及以上芯片,32GB统一内存;16GB内存设备可运行4B量化模型,但会出现明显卡顿,不建议用于生产环境。
运行Mano-P需要付费吗?
项目基于Apache 2.0开源协议,个人与商业使用均免费,无授权费用,模型文件可从官方渠道免费下载。
Mano-P执行错误任务怎么办?
模型内置Think-Act-Verify机制,会自动校验结果并重试;仍失败可通过自然语言重新描述任务,或调整任务拆解粒度。
可以自己训练定制版Mano-P模型吗?
项目第三阶段将开源训练代码、数据集与量化方案,届时开发者可基于行业数据微调专属模型,当前仅支持技能组件定制。
Mano-P与OpenClaw、Claude Code如何集成?
已开源Mano-CUA Skills组件,通过Python接口直接对接,可将Mano-P的GUI操作能力注入现有Agent工作流,提升自动化深度。
本地推理时发热与功耗如何?
4B量化模型在M4 Pro上运行功耗约15-20W,发热控制良好,适合长时间办公使用;72B模型功耗较高,建议外接电源使用。
相关链接
GitHub开源仓库:https://github.com/Mininglamp-AI/Mano-P
技术论文arXiv:https://arxiv.org/abs/2509.17336
总结
Mano-P 1.0是明略科技推出的全球领先端侧GUI-VLA智能体模型,以全本地运行、数据隐私安全、高性能推理与开源可定制为核心优势,在OSWorld等权威基准测试中斩获专用模型第一,能够自主完成复杂电脑操作、长流程任务执行与跨系统数据整合,既满足个人用户提升办公与日常效率的需求,也为企业提供私有化、可定制的计算机使用自动化解决方案,依托Apache 2.0开源协议与完整技术生态,降低了GUI智能体的落地门槛,成为端侧AI自动化领域的标杆级开源项目。
版权及免责申明:本文由@97ai原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/mano-p-1-0.html

