Mano-P 1.0：明略科技开源的端侧GUI-VLA智能体，自主完成复杂电脑操作

AI新闻 97ai 3个月前

703

Mano-P 1.0是什么

Mano-P 1.0是明略科技（Mininglamp-AI）开源的GUI-VLA（Vision-Language-Action）端侧智能体模型，核心定位为面向个人与企业的本地计算机使用自动化（CUA）解决方案，专为苹果M系列芯片（M4 Pro/Max/Ultra及以上）边缘设备优化，实现完全本地推理、零数据上传、高安全性的电脑自主操作。

该模型以“AI for Personal”为核心理念，打破传统云端AI依赖API、数据隐私风险高的痛点，让用户在Mac mini、MacBook等设备上即可运行具备复杂界面理解、长任务规划、自主执行与结果验证的全链路智能体，在OSWorld、ScreenSpot-V2、MMBench等全球权威GUI智能体基准测试中斩获多项SOTA，其中OSWorld专用模型成功率达**58.2%**，位列全球第一。

Mano-P 1.0采用分阶段开源策略，当前已开放Mano-CUA Skills组件，支持与OpenClaw、Claude Code等生态集成，后续将逐步开源本地侧模型、SDK、训练方案与量化技术，面向开发者、企业IT团队、个人效率用户提供可定制、可私有化部署的GUI智能体能力。

功能特色

全本地隐私安全
所有视觉感知、决策推理、操作执行均在本地设备完成，截图、操作数据不上传任何云端服务器，彻底杜绝数据泄露风险，满足企业涉密场景与个人隐私保护需求。
复杂GUI自主操作
支持识别数百个交互元素的复杂界面，自主完成点击、输入、滚动、文件读写、软件配置等全流程操作，无需人工干预即可执行数十至上百步连续任务。
跨系统无API数据整合
无需对接各类软件API，通过纯视觉理解提取浏览器、办公软件、客户端软件中的数据，自动整合生成结构化报表、总结文档，打通数据孤岛。
思考-行动-验证闭环
内置Think-Act-Verify循环推理机制，每一步操作前规划路径、执行后校验结果，失败自动重试或调整策略，大幅提升任务成功率。
端侧高性能推理
4B量化模型（w4a16）在M4 Pro设备上实现476 tokens/s预填充、76 tokens/s解码，峰值内存仅4.3GB，32GB内存设备即可流畅运行。
开源可定制扩展
基于Apache 2.0协议开源，提供Python SDK、技能组件、部署脚本，支持二次开发、模型微调、行业场景定制，兼容OpenClaw等主流Agent生态。
多场景开箱即用
覆盖办公自动化、应用开发、视频运营、数据处理、日常娱乐等场景，提供预设技能模板，降低使用门槛。

Mano-P 1.0：明略科技开源的端侧GUI-VLA智能体，自主完成复杂电脑操作

技术细节

核心技术架构

Mano-P 1.0基于明略科技Mano技术栈构建，采用三阶段渐进式训练+双向自强化学习技术路线：

监督微调（SFT）：在高保真模拟系统环境中学习基础GUI操作逻辑；
离线强化学习：基于海量操作轨迹优化决策策略，提升复杂任务适配性；
在线强化学习：通过实时交互反馈持续迭代，强化错误修正与结果验证能力。

关键技术模块

Mano-Action双向自强化学习：同时优化操作决策与结果校验，解决传统智能体“执行后无反馈”的痛点；
视觉Token剪枝：对屏幕画面进行轻量化编码，降低端侧算力消耗，提升推理速度；
混合精度量化（w4a16）：在保持精度的前提下大幅压缩模型体积，适配边缘设备；
ScreenSpot-V2视觉感知：界面元素识别准确率达93.5%，精准定位按钮、输入框、菜单等控件；
长上下文任务规划：支持百级步骤流程拆解，自动处理分支逻辑与异常情况。

性能基准数据

基准测试	核心指标	Mano-P 1.0-72B	行业地位
OSWorld	专用模型成功率	58.2%	全球第一
ScreenSpot-V2	界面定位准确率	93.5%	SOTA
MMBench	多模态理解	87.5%	第一梯队
WebRetriever	NavEval得分	41.7	超越Gemini 2.5 Pro/Claude 4.5

部署技术要求

硬件：苹果M4 Pro/Max/Ultra芯片，≥32GB统一内存；
系统：macOS Sonoma及以上版本；
推理引擎：MLX框架，支持本地量化推理；
开发环境：Python 3.10+，Homebrew包管理工具。

应用场景

1. 办公自动化

自动整理文件、批量重命名、格式转换、数据汇总；
自动填写表单、发送邮件、生成周报/月报/数据分析报告；
跨软件数据迁移，无需复制粘贴，一键完成Excel、Word、浏览器数据同步。

2. 应用全流程开发

自然语言描述需求，自动完成需求分析、架构设计、代码编写；
自主部署项目、执行多维度测试，定位Bug并自动修复；
生成项目文档、接口说明，交付可直接运行的完整应用。

3. 视频内容运营

自动剪辑视频、添加字幕、调整参数；
批量上传视频平台、填写标题与标签、监控播放数据；
生成运营报告，分析流量趋势与用户反馈。

4. 企业业务流程自动化

财务数据提取、报表生成、对账校验；
客户信息录入、工单处理、售后回访；
工业系统界面监控、数据采集、异常告警。

5. 个人日常效率提升

网页信息批量爬取、整理成笔记；
软件自动配置、环境一键搭建；
游戏界面理解、策略决策（如麻将牌型识别与出牌建议）。

Mano-P 1.0：明略科技开源的端侧GUI-VLA智能体，自主完成复杂电脑操作

使用方法

环境准备

安装macOS Sonoma 14.0+系统；
安装Homebrew：

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

安装Python 3.10+：

brew install python3

安装MLX推理依赖：

pip install mlx mlx-lm

项目部署

克隆GitHub仓库：

git clone https://github.com/Mininglamp-AI/Mano-P.git
cd Mano-P

安装项目依赖：

pip install -r requirements.txt

下载量化模型文件（官方提供4B/72B版本）；
配置本地模型路径：

# config.py
MODEL_PATH = "./mano-p-4b-w4a16"
DEVICE = "mps"

快速运行

基础GUI操作示例：

python main.py --task "打开浏览器并搜索Mano-P项目"

自定义任务执行：

python main.py --task "整理桌面文件，按类型分类到对应文件夹"

技能组件调用：

python skill_runner.py --skill report --data "./data.xlsx"

云端备用模式

未配置本地模型时，可临时使用明略官方推理接口，本地仅传输截图与任务描述，文件与隐私数据仍保留在设备：

python main.py --mode cloud --api-key "your-key"

竞品对比

对比维度	Mano-P 1.0	Claude Computer Use	Gemini 3.1 Pro Computer Use
部署方式	全本地开源	云端API	云端API
OSWorld成绩	58.2%（专用模型第一）	72.7%（通用模型）	约60%（通用模型）
数据隐私	零上传，本地闭环	数据上传Anthropic服务器	数据上传Google服务器
硬件要求	M4+，32GB内存	无，仅需网络	无，仅需网络
开源程度	全开源（Apache 2.0）	闭源，无定制能力	闭源，无定制能力
推理速度	本地76 tokens/s	依赖网络延迟	依赖网络延迟
适用场景	个人/企业私有化、涉密场景	通用轻量任务	通用多模态任务
二次开发	支持SDK、技能扩展	不支持	有限支持

常见问题解答

Mano-P 1.0支持Windows或Linux系统吗？

当前版本仅针对苹果M系列芯片macOS系统优化，暂不支持Windows与Linux，官方未公布跨平台适配时间表。

Mano-P 1.0最低硬件配置是什么？

推荐M4 Pro及以上芯片，32GB统一内存；16GB内存设备可运行4B量化模型，但会出现明显卡顿，不建议用于生产环境。

运行Mano-P需要付费吗？

项目基于Apache 2.0开源协议，个人与商业使用均免费，无授权费用，模型文件可从官方渠道免费下载。

Mano-P执行错误任务怎么办？

模型内置Think-Act-Verify机制，会自动校验结果并重试；仍失败可通过自然语言重新描述任务，或调整任务拆解粒度。

可以自己训练定制版Mano-P模型吗？

项目第三阶段将开源训练代码、数据集与量化方案，届时开发者可基于行业数据微调专属模型，当前仅支持技能组件定制。

Mano-P与OpenClaw、Claude Code如何集成？

已开源Mano-CUA Skills组件，通过Python接口直接对接，可将Mano-P的GUI操作能力注入现有Agent工作流，提升自动化深度。

本地推理时发热与功耗如何？

4B量化模型在M4 Pro上运行功耗约15-20W，发热控制良好，适合长时间办公使用；72B模型功耗较高，建议外接电源使用。

总结

Mano-P 1.0是明略科技推出的全球领先端侧GUI-VLA智能体模型，以全本地运行、数据隐私安全、高性能推理与开源可定制为核心优势，在OSWorld等权威基准测试中斩获专用模型第一，能够自主完成复杂电脑操作、长流程任务执行与跨系统数据整合，既满足个人用户提升办公与日常效率的需求，也为企业提供私有化、可定制的计算机使用自动化解决方案，依托Apache 2.0开源协议与完整技术生态，降低了GUI智能体的落地门槛，成为端侧AI自动化领域的标杆级开源项目。

AI智能体

打赏

版权及免责申明：本文由@97ai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/mano-p-1-0.html

THE END

97ai

我不是在训练模型，而是在与未来的自己对话。

+ 关注

Mano-P 1.0：明略科技开源的端侧GUI-VLA智能体，自主完成复杂电脑操作

文章目录

Mano-P 1.0是什么

功能特色

技术细节

核心技术架构

关键技术模块

性能基准数据

部署技术要求

应用场景

1. 办公自动化

2. 应用全流程开发

3. 视频内容运营

4. 企业业务流程自动化

5. 个人日常效率提升

使用方法

环境准备

项目部署

快速运行

云端备用模式

竞品对比

常见问题解答

相关链接

总结

Mano-P 1.0：明略科技开源的端侧GUI-VLA智能体，自主完成复杂电脑操作

文章目录

Mano-P 1.0是什么

功能特色

技术细节

核心技术架构

关键技术模块

性能基准数据

部署技术要求

应用场景

1. 办公自动化

2. 应用全流程开发

3. 视频内容运营

4. 企业业务流程自动化

5. 个人日常效率提升

使用方法

环境准备

项目部署

快速运行

云端备用模式

竞品对比

常见问题解答

相关链接

总结

相关文章