EvoCUA：美团开源的多模态端到端计算机交互智能体

AI新闻 AI工具箱 6个月前

193

一、EvoCUA是什么

EvoCUA（Evolving Computer Use Agent）是由美团公司重磅开源的一款通用多模态计算机使用智能体，核心能力为基于实时桌面截图与自然语言指令，实现对主流桌面软件的端到端、多轮自动化交互与操作，无需嵌入软件源码、无需编写脚本代码，纯自然语言即可完成复杂的桌面操作任务。

从项目定位来看，EvoCUA 属于「多模态桌面交互智能体」，核心解决的是「用自然语言操控计算机桌面软件」的核心需求，也是大模型人机交互领域的核心研究与落地方向。我们日常使用电脑时，需要手动通过鼠标、键盘完成打开软件、点击按钮、输入内容、菜单选择、页面切换等一系列操作，而EvoCUA的核心价值，就是让AI完全替代人工的这些操作：它能通过实时捕捉的桌面截图获取当前电脑的视觉环境信息，结合用户输入的自然语言指令，自主分析任务需求、规划操作步骤、执行精准的键鼠操作，最终完成从「文字指令」到「软件操作结果」的端到端闭环，全程无需人工干预，无需编写任何自动化脚本，无需对目标软件做任何源码级嵌入或改造。

简单来说，EvoCUA就是一款能听懂人话、看懂电脑屏幕、自己动手操作软件的AI智能体。比如用户输入指令「打开Chrome浏览器，访问百度首页，搜索美团开源项目，将搜索结果第一页截图保存到桌面」，EvoCUA就能自主完成打开浏览器、点击地址栏、输入网址、点击搜索、快捷键截图、保存文件的全部操作；再比如输入「打开Excel，新建表格，在A1单元格输入姓名，B1单元格输入年龄，设置表头居中加粗」，该智能体也能精准完成所有表格操作，操作逻辑与精准度完全贴合人工习惯。

从技术属性来看，EvoCUA并非单一的大模型权重文件，而是一套完整的多模态智能体工程化框架：包含多模态感知模块、指令解析与任务规划模块、桌面操作执行模块、环境评估模块、日志与结果反馈模块等全套核心组件，同时配套了完整的OSWorld评测脚本、环境部署工具、运行示例，代码架构清晰、模块化程度高，既支持开箱即用的桌面自动化操作，也支持算法研究员基于该框架做二次优化与技术研究。

从项目背景与优势来看，EvoCUA是美团团队针对「大模型计算机使用能力」的专项研发成果，其核心亮点在于在权威评测中登顶：在行业公认的计算机使用能力基准测试集 OSWorld 中，EvoCUA以56.7%的任务完成率，超越OpenCUA-72B、Qwen3-VL thinking等一众主流开源模型，成为当前所有开源计算机使用智能体中的第一名，也是目前开源生态中，在桌面软件自动化领域性能最顶尖的项目之一。

此外，EvoCUA遵循Apache 2.0开源协议，个人用户、企业用户、科研机构均可免费使用、二次开发、商业落地，无任何版权与使用限制，项目的核心模型权重托管在HuggingFace平台，完整代码开源在GitHub，配套文档齐全，部署门槛适中，兼顾了技术先进性与工程实用性。

EvoCUA的适配范围也十分广泛，现阶段已深度支持Chrome浏览器、Microsoft Excel、Microsoft PowerPoint、VSCode代码编辑器等四款高频使用的桌面软件，覆盖办公、开发、浏览等核心电脑使用场景，后续还将持续拓展更多软件的适配支持，是一款真正能落地到实际工作中的AI自动化工具。

二、功能特色

能在开源生态中脱颖而出并登顶OSWorld榜单，EvoCUA的核心竞争力源于其「性能顶尖、能力通用、操作精准、交互流畅、部署友好、工程完善」六大核心功能特色，所有功能设计均围绕「提升AI的计算机使用能力、降低用户的使用门槛、保证操作的实用性」三大核心目标，既具备前沿的技术能力，又兼顾了实际落地的需求，无任何华而不实的冗余功能，所有特色均有实测数据与功能落地支撑，具体核心特色如下：

1. 核心特色：开源赛道性能榜首，OSWorld评测成绩碾压级领先

这是EvoCUA最核心、最具说服力的核心优势，也是其立足开源生态的核心底气。在行业公认的、最权威的计算机使用能力基准测试集 OSWorld 中，EvoCUA交出了极其亮眼的成绩单，核心数据如下：

任务完成率达到 56.7%，是所有开源计算机使用智能体中的第一名，无任何开源竞品能与之匹敌；
相比同类型的重量级开源模型OpenCUA-72B，任务完成率直接提升 11.7%，性能优势显著；
相比阿里通义的Qwen3-VL thinking版本，任务完成率提升 15.1%，在多模态视觉理解+操作规划上具备明显优势；
更具价值的是，EvoCUA仅需 50步操作上限 即可完成上述成绩，而部分竞品需要100步才能达到更低的完成率，这意味着EvoCUA的操作规划效率更高、步骤更精简、无无效操作，这也是其核心能力的直观体现。

下表为EvoCUA与主流开源竞品的核心性能对比，所有数据均来自OSWorld官方评测，真实可复现，直观展现其性能领先性： 表1 EvoCUA 与主流开源模型 OSWorld 核心性能对比表

模型名称	任务完成率	操作步数上限	性能差值（相对EvoCUA）	核心定位
EvoCUA（美团）	56.7%	50步	——（基准）	开源榜首，多模态计算机使用智能体
OpenCUA-72B	45.0%	50步	-11.7%	大参数量开源计算机使用智能体
Qwen3-VL thinking	41.6%	50步	-15.1%	通义千问多模态衍生版本
其他轻量级开源模型	≤35.0%	50/100步	≥-21.7%	轻量化桌面操作模型

补充说明：目前该榜单中人类水平的任务完成率仍显著高于AI模型，这也是该领域的研究方向，但EvoCUA作为开源模型，已将性能推至当前开源生态的天花板。

2. 核心能力：纯自然语言+截图驱动，端到端无代码桌面自动化

这是EvoCUA的核心功能形态，也是其区别于传统自动化工具的核心差异，更是该项目的核心价值所在，该能力彻底颠覆了传统桌面自动化的实现方式：

无需编写任何代码/脚本：传统的桌面自动化工具（如Python+PyAutoGUI、Selenium、按键精灵）需要开发者编写精准的脚本代码，定义每一步的点击坐标、输入内容、操作逻辑，门槛高、复用性低；而EvoCUA完全无需代码，用户仅需输入纯自然语言指令，比如「打开Excel，新建工作簿，输入姓名和成绩并求和」，智能体即可自主完成全部操作，零基础用户也能轻松上手。
无需嵌入软件源码/接口：EvoCUA对目标软件无任何侵入性要求，不需要获取软件的API接口、不需要修改源码、不需要安装插件，仅通过实时桌面截图获取软件界面信息，完全模拟人类的视觉感知，适配所有标准桌面软件，兼容性拉满。
端到端闭环完成任务：从「用户输入自然语言指令」到「智能体完成操作并输出结果」，形成完整的闭环，无需人工介入任何中间步骤。智能体自主完成「理解指令→分析截图→规划操作步骤→执行键鼠操作→验证操作结果」的全流程，任务完成度高，无断点。
支持复杂多轮交互指令：不仅能完成「打开浏览器」这类简单单步指令，更能精准理解并执行复杂、多步骤、带逻辑的长指令，比如「打开VSCode，新建Python文件，输入九九乘法表代码，保存文件到桌面并命名为multi.py，运行该文件查看结果」，这类需要多步操作、多逻辑判断的任务，EvoCUA能精准拆解步骤并逐一完成，操作逻辑与人工完全一致。

3. 功能特色：适配主流桌面软件，覆盖核心办公与开发场景

EvoCUA在功能落地层面做了极致的务实优化，没有追求“大而全”的软件适配，而是聚焦高频、刚需、核心的桌面软件，做深度适配与优化，确保每一款适配的软件都能达到「高精度、高成功率」的操作效果，现阶段已深度支持的核心软件包括：

Chrome浏览器：支持打开/关闭浏览器、访问指定网址、点击页面元素、输入搜索内容、滚动页面、截图保存、下载文件、切换标签页等全维度浏览器操作；
Microsoft Excel：支持新建/保存表格、单元格输入、格式设置（居中、加粗、合并）、公式计算（求和、平均值）、单元格选中、行列调整等核心表格操作；
Microsoft PowerPoint：支持新建演示文稿、插入文本框、输入内容、设置字体格式、插入图片、切换幻灯片等核心演示操作；
VSCode代码编辑器：支持打开/新建文件、输入代码、保存文件、切换编程语言、运行代码、查看终端结果等核心开发操作。

上述四款软件覆盖了绝大多数用户的「办公+开发+上网」核心电脑使用场景，EvoCUA对每款软件的操作逻辑、界面元素、功能按钮都做了深度的视觉理解与操作适配，操作精准度远超通用多模态模型，极少出现“点错按钮、输错位置”的无效操作，实用性极强。

4. 技术特色：多轮交互能力强，操作容错与自我修正机制完善

在实际使用中，用户的指令往往不是单一的，更多是「多轮补充、多轮调整」的交互场景，而EvoCUA在这方面做了针对性优化，具备优秀的多轮交互能力与操作容错机制，这也是其区别于普通单步操作模型的核心亮点：

精准的多轮指令理解：支持用户在任务执行过程中，输入补充指令或修改指令，比如用户先输入「打开Excel新建表格，输入姓名和年龄」，执行完成后，再输入「在C列添加成绩，设置表头为红色」，EvoCUA能精准结合历史操作与新指令，继续完成后续操作，不会丢失上下文信息，也不会重复执行已完成的步骤。
完善的操作容错机制：AI在执行桌面操作时，难免会出现少量的操作偏差（比如点击位置稍有偏移、输入内容有误），EvoCUA内置了实时视觉校验与自我修正机制：每完成一步操作后，会通过最新的截图校验操作结果是否符合预期，如果发现偏差（比如点击按钮未生效、输入内容错误），会自主调整操作方式，重新执行该步骤，无需用户干预，大幅提升任务的最终完成率。
合理的操作步骤规划：面对复杂任务时，EvoCUA会将其拆解为「循序渐进、逻辑合理」的小步骤，而非杂乱无章的随机操作，比如完成「Excel求和」任务时，会先选中目标单元格、再输入求和公式、最后按回车确认，步骤与人工操作完全一致，符合人类的操作逻辑，也避免了无效操作导致的任务失败。

5. 部署特色：轻量化架构设计，多环境兼容，部署门槛适中

作为一款由大厂开源的前沿AI项目，EvoCUA在工程化层面做了极致的优化，兼顾技术先进性与部署友好性，没有设置过高的硬件门槛，普通开发者的消费级设备也能部署运行，这也是其能快速被开源社区接受的核心原因之一：

硬件门槛适中：核心推理依赖GPU，推荐NVIDIA消费级显卡（RTX 3090/4090，24GB显存），支持张量并行（Tensor Parallel），可通过多张显卡分摊显存压力，最低可在16GB显存的显卡上运行轻量化版本；同时支持CPU推理，仅推理速度稍慢，满足无高端显卡用户的测试需求。
多系统全兼容：完美适配Windows 10/11、Linux（Ubuntu 20.04+）、macOS三大主流操作系统，所有核心功能无差异化，用户无需担心系统兼容性问题。
依赖轻量化标准化：项目的核心依赖均为Python生态的主流开源库（PyTorch、Transformers、vLLM等），无任何冷门依赖包，安装过程无版本冲突，环境搭建简单快捷，一键安装即可完成。
灵活的部署方式：支持「本地单机部署」「云端服务器部署」两种方式，本地部署适合个人使用与测试，云端部署适合企业级批量任务执行，同时兼容OpenAI API协议，可通过API调用模型能力，集成到自有业务系统中。

6. 工程特色：模块化架构设计，兼顾开箱即用与二次开发

EvoCUA的代码架构遵循「高内聚、低耦合」的工程化设计原则，整体为模块化解耦结构，完美兼顾了两类用户的核心需求，做到「新手开箱即用，开发者灵活定制」，工程成熟度极高：

对新手友好：开箱即用，零配置快速运行：项目提供了完整的一键运行脚本、环境变量模板、评测示例，无需修改核心代码，仅需配置少量参数，即可快速启动智能体并执行桌面操作，同时提供了详细的中英文文档，新手能快速上手。
对开发者友好：模块化解耦，二次开发成本极低：核心模块（多模态感知、指令解析、任务规划、操作执行、结果评估）完全解耦，每个模块均可独立替换、修改、优化。比如开发者可替换感知模块的视觉模型、修改任务规划的逻辑算法、新增对其他软件的适配，项目代码注释清晰、文档完善，二次开发的门槛极低。
配套资源齐全：项目仓库提供了完整的评测脚本、测试用例、日志工具、结果展示工具，同时开源了核心模型权重与训练数据合成方案，算法研究员可基于此做进一步的技术研究与优化，是计算机使用智能体领域的优质研究基线。

7. 开源特色：完全开源免费，商用无限制，协议友好

EvoCUA遵循Apache 2.0开源协议，这是开源生态中最友好的协议之一，具备以下核心优势：

个人用户可免费使用、修改、分发项目代码与模型，无任何限制；
企业用户可将项目集成到自有产品中，进行商业落地与盈利，无需支付任何授权费用，仅需保留开源声明；
科研机构可基于项目做学术研究与论文发表，无版权纠纷。

项目的全部代码、预训练模型权重、评测脚本、文档均已在GitHub与HuggingFace全量开源，无任何闭源模块或隐藏收费项，美团团队无任何商业化限制，真正做到了开源普惠。

三、技术细节

EvoCUA能实现顶尖的性能与优秀的功能体验，并非单一技术的堆砌，而是基于扎实的多模态大模型技术、创新的训练方案、完善的工程化架构共同构建的完整技术体系。其技术核心围绕「让AI看懂屏幕、听懂指令、规划步骤、精准操作」四大核心环节展开，整体技术架构清晰、逻辑严谨、通俗易懂，无过度复杂的黑盒设计，所有技术选型均以「实用性、高性能、轻量化」为核心原则，具体核心技术细节如下：

1. 项目整体技术架构与核心工作流

EvoCUA的整体技术架构为五层模块化闭环架构，从用户输入指令到最终完成操作，所有环节均由这五层模块协同完成，全程自动化执行，无人工干预，形成了完整的技术闭环。这五层架构自上而下依次为，同时也是EvoCUA的核心任务执行流程：

第一层：用户交互层（指令输入+结果输出）

这是项目的入口与出口，负责接收用户的自然语言指令（支持中文/英文），同时向用户反馈任务执行结果（成功/失败、操作日志、最终文件），是连接用户与智能体的桥梁。该层支持单轮指令与多轮交互指令，能精准保留上下文信息，适配多轮任务调整需求。

第二层：多模态感知与解析层（核心技术层）

这是EvoCUA的核心技术基石，也是其能「看懂屏幕、听懂指令」的核心模块，分为两大核心子功能，缺一不可：

自然语言指令解析：基于大语言模型（LLM）对用户输入的自然语言指令进行语义理解、任务拆解、意图提取，将「打开Excel求和」这类自然语言，转化为模型可理解的结构化任务描述（如「软件=Excel，操作=新建表格+输入数据+公式计算」）；
桌面截图视觉理解：基于多模态大模型的视觉编码器，对实时捕捉的桌面截图进行图像解析，识别截图中的软件界面、按钮位置、文本内容、输入框、菜单栏等核心视觉元素，将图像信息转化为结构化的文本描述，让AI能精准「看懂」当前的电脑屏幕内容。

该层的核心技术亮点是将文本指令与视觉信息做深度融合，让AI能结合「用户想做什么」与「当前屏幕有什么」，做出精准的操作决策，这也是EvoCUA区别于纯文本大模型的核心差异。

第三层：任务规划与步骤决策层（核心大脑）

这是EvoCUA的「核心大脑」，也是决定任务完成率的关键模块。该层基于融合后的「文本指令+视觉信息」，自主完成任务拆解与操作步骤规划：将一个复杂的任务（如「浏览器搜索并截图保存」）拆解为多个简单的、可执行的子步骤（打开浏览器→输入网址→点击搜索→截图→保存），并为每个子步骤规划出最优的操作方式，同时预判操作的先后顺序与逻辑关系，避免无效操作。

该层内置了美团团队自研的操作规划算法，结合了强化学习与启发式搜索，能在50步上限内规划出最精简的操作路径，这也是EvoCUA能在少步数内完成高任务率的核心技术原因。

第四层：桌面操作执行层（行动执行器）

这是EvoCUA的「双手」，负责将任务规划层输出的操作步骤，转化为精准的键鼠物理操作。该层模拟人类的鼠标与键盘行为，支持点击、双击、右键、拖拽、输入文本、快捷键、滚动页面等所有核心键鼠操作，操作坐标精准、执行速度可控，完全贴合人工操作习惯。

核心技术亮点：该层内置了坐标校准与容错机制，即使视觉识别的按钮位置有微小偏差，也能自动校准点击坐标，避免因位置偏差导致的操作失败；同时支持操作结果的实时校验，若某一步操作未生效，会自动重试，大幅提升操作成功率。

第五层：环境评估与反馈层（结果校验）

这是EvoCUA的「眼睛与裁判」，负责在每一步操作完成后，通过最新的桌面截图，校验该步骤的操作结果是否符合预期（如「点击搜索按钮后，是否出现搜索结果」），并将校验结果反馈给任务规划层。如果操作成功，则继续执行下一步；如果操作失败，则触发修正机制，重新规划步骤并执行；如果任务全部完成，则输出最终结果并结束任务。

该层是EvoCUA具备「自我修正能力」的核心模块，也是其任务完成率远高于竞品的重要原因之一。

2. 核心技术亮点与创新点

EvoCUA能登顶开源榜单，除了完善的架构，更核心的是其在技术层面的两大核心创新，这两大创新也是美团团队的核心技术积累，是该项目的核心竞争力：

创新点一：轻量化、高质量的数据集合成方案

计算机使用智能体的核心痛点之一是「高质量标注数据稀缺」：人工标注桌面操作的截图、指令、步骤，成本极高、效率极低，而美团团队自研了自动化的数据集合成方案，能快速生成海量的、高质量的「指令-截图-操作步骤」三元组训练数据，无需人工标注。该方案的核心优势是：生成的数据贴合真实使用场景，覆盖所有适配软件的核心操作，同时数据量可控，能在不损害模型通用性能的前提下，快速提升模型的计算机使用能力。

创新点二：兼顾核心能力与通用性能的训练策略

多数同类模型在训练时，会过度拟合桌面操作任务，导致模型的通用语言理解能力下降；而EvoCUA采用了多任务混合训练策略：在训练计算机使用能力的同时，保留模型的通用自然语言理解与生成能力，做到「专项能力突出，通用能力不丢」。这也是EvoCUA能精准理解复杂长指令、支持多轮交互的核心技术原因。

3. 核心技术选型与依赖说明

EvoCUA的所有技术选型均遵循「成熟稳定、高性能、轻量化、社区活跃」的原则，无任何前沿但不成熟的技术选型，所有依赖均为开源生态的主流库，版本兼容性好，部署与维护成本极低，核心技术选型与依赖如下，均为项目运行的核心基础：

核心开发语言：Python 3.12（当前最优版本，兼顾兼容性与性能）；
深度学习框架：PyTorch 2.8.0+cu126（主流框架，支持GPU加速与张量并行）；
大模型推理加速：vLLM 0.11.0（当前最快的大模型推理框架之一，大幅提升推理速度，降低显存占用）；
多模态模型核心库：Transformers 4.57.3（HuggingFace官方库，支持多模态模型的加载与推理）；
桌面操作核心库：PyAutoGUI、PyGetWindow（模拟键鼠操作与窗口管理，无侵入性）；
图像处理核心库：OpenCV、PIL（截图处理与视觉特征提取）；
工程化工具：python-dotenv（环境变量管理）、logging（日志记录）、pytest（单元测试）。

4. 项目核心文件结构

EvoCUA的代码仓库采用标准化、模块化的目录结构，所有文件职责明确、层级清晰，无任何杂乱文件，即使是零基础的开发者也能快速找到核心功能入口，核心文件结构如下，方便用户快速上手与二次开发，所有目录与文件均为项目核心内容：

EvoCUA/
├── .gitignore        # Git版本控制忽略规则
├── LICENSE          # Apache 2.0开源协议文件
├── README.md / README_CN.md # 中英文完整使用文档（核心，必看）
├── env.template       # 环境变量配置模板（一键复制修改）
├── requirements.txt     # 项目所有依赖清单（一键安装）
├── lib_results_logger.py   # 任务结果日志记录工具
├── lib_run_single.py     # 单任务运行核心脚本
├── run_multienv_evocua.py  # 多环境OSWorld评测主脚本（核心）
├── show_result.py      # 评测结果可视化展示脚本
├── assets/          # 静态资源目录（榜单截图、演示图片）
├── evaluation_examples/   # 评测示例目录（测试用例、配置文件）
├── logs/           # 运行日志存储目录（自动生成）
├── mm_agents/        # 多模态智能体核心代码目录（核心逻辑）
└── desktop_env/       # 桌面环境核心模块（重中之重）
  ├── actions.py      # 所有桌面操作定义（点击、输入、快捷键等）
  ├── desktop_env.py    # 桌面环境核心逻辑（截图、环境初始化）
  ├── evaluators/      # 操作结果评估器（校验任务完成度）
  ├── controllers/     # 各软件专属控制器（Excel/Chrome等）
  └── server/        # 云端环境服务端配置

EvoCUA：美团开源的多模态端到端计算机交互智能体

四、应用场景

1. 个人办公自动化场景（个人用户核心场景）

这是EvoCUA最主流、最贴近普通用户的应用场景，也是其最具价值的落地方向，能大幅提升个人办公效率，解放双手，减少重复劳动，核心应用场景包括：

办公软件自动化操作：无需手动操作Excel/PPT，输入自然语言指令即可完成表格制作、数据计算、PPT排版、内容编辑等重复工作，比如「在Excel中统计月度销售数据并生成求和表」「制作一份产品介绍PPT，包含标题、内容、图片」，大幅节省办公时间；
浏览器自动化操作：自动完成网页浏览、信息检索、截图保存、文件下载等操作，比如「访问知乎，搜索AI开源项目，将前5条回答截图保存到桌面」「下载某网站的开源代码压缩包并解压」，无需手动点击与等待；
代码开发辅助操作：针对程序员群体，可自动完成VSCode的文件创建、代码输入、保存运行等操作，比如「新建Python文件，输入冒泡排序代码并运行」，减少重复的基础开发操作，提升编码效率。

2. 企业级批量自动化场景（企业用户核心场景）

EvoCUA的高性能与稳定性，使其能完美适配企业级的批量桌面自动化需求，能大幅降低企业的人工成本，提升工作效率，且开源免费无授权费用，是中小企业的优质选择，核心应用场景包括：

批量数据处理与报表生成：企业的行政、财务、运营部门，可通过EvoCUA批量生成Excel报表、统计数据、制作分析图表，无需人工逐个制作，比如「批量生成100份员工考勤表并保存」，效率提升百倍；
批量网页信息采集与整理：市场、销售部门可通过EvoCUA批量采集竞品信息、行业数据、客户资料，自动截图保存或整理成文档，无需人工逐个网页浏览与复制；
企业内部工具集成：企业可将EvoCUA的核心能力集成到自有办公系统中，为员工提供「自然语言自动化办公」的功能，无需员工学习复杂的自动化工具，降低企业的培训成本。

3. 算法研究与技术优化场景（科研与开发者核心场景）

EvoCUA作为开源榜单第一名的计算机使用智能体，是该领域最优质的研究基线与开源资源，也是算法研究员与资深开发者的核心应用场景，具备极高的学术与技术价值：

计算机使用智能体技术研究：高校、科研机构可基于EvoCUA的代码与模型，开展多模态大模型的视觉理解、任务规划、操作执行等方向的研究，探索提升AI计算机使用能力的新方法，发表学术论文或申请专利；
模型二次优化与性能提升：开发者可基于EvoCUA的训练方案，优化模型的感知能力与规划能力，进一步提升任务完成率，打造更优秀的计算机使用智能体；
新软件适配与功能拓展：开发者可基于EvoCUA的模块化架构，新增对更多桌面软件的适配（如Photoshop、Word、微信电脑版），拓展其应用场景，打造更通用的桌面自动化工具。

4. 教育培训与学习场景（学生与入门开发者场景）

EvoCUA也是一款优秀的「AI自动化教育工具」，能帮助学生与入门开发者快速理解桌面自动化的核心逻辑，降低编程与自动化的学习门槛：

编程入门学习：零基础学生可通过自然语言指令，让EvoCUA演示代码的编写与运行过程，直观理解编程逻辑，无需从零基础学习Python语法；
办公软件教学：办公软件新手可通过EvoCUA的操作演示，学习Excel公式、PPT排版等办公技巧，快速提升办公能力；
AI人机交互认知：帮助用户理解多模态大模型的核心能力，了解AI如何看懂屏幕、听懂指令、执行操作，建立对AI的正确认知。

5. 小众个性化自动化场景

除了上述主流场景，EvoCUA还能满足各类小众的个性化自动化需求，比如：自动整理桌面文件、自动备份重要文档、自动运行指定软件并完成基础操作等，只要是能通过自然语言描述的桌面操作任务，EvoCUA都能精准完成，具备极强的灵活性与适配性。

五、使用方法

前置说明（必看，准备工作）

硬件要求：推荐NVIDIA显卡（RTX 3090/4090，16GB/24GB显存），支持GPU推理与张量并行，是最优运行环境；无高端显卡可使用CPU推理，仅速度稍慢；
系统要求：Windows 10/11、Linux（Ubuntu 20.04+/CentOS 7+）、macOS（Intel/Apple Silicon）全兼容，无差异化；
基础环境：已安装Python 3.12版本（官方推荐，避免依赖冲突），已配置pip国内镜像源（加速依赖安装）；
核心前置工具：需安装git（克隆仓库）、git-lfs（下载大模型权重），均为开源免费工具。

1. 环境搭建（核心第一步，一键完成，所有系统通用）

该步骤的核心是克隆项目仓库、创建虚拟环境、安装项目所有依赖，全程无复杂配置，所有命令均在终端/命令行执行，建议使用虚拟环境，避免污染本地Python环境，具体命令如下：

# 第一步：克隆EvoCUA官方开源仓库（核心）
git clone https://github.com/meituan/EvoCUA.git

# 第二步：进入项目根目录，所有后续操作均在此目录执行
cd EvoCUA

# 第三步：创建Python虚拟环境（推荐，Python版本固定3.12）
python3 -m venv .venv

# 第四步：激活虚拟环境
# Windows系统激活命令
.venv\Scripts\activate
# Linux/Mac系统激活命令
source .venv/bin/activate

# 第五步：一键安装所有依赖，无版本冲突，自动完成
pip install -r requirements.txt

温馨提示：安装依赖时若速度较慢，可切换为阿里云/清华的pip镜像源，大幅提升下载速度；安装完成后，无报错即代表环境搭建成功。

2. 预训练模型下载（核心第二步，必做，获取模型权重）

EvoCUA的核心推理依赖官方开源的预训练模型权重，模型托管在HuggingFace平台，免费下载无限制，模型名称为meituan/EvoCUA-32B-20260105，大小适中，下载前需先安装git-lfs（用于下载大文件），具体命令如下：

# 第一步：安装git-lfs（必须，否则无法下载大模型权重）
git lfs install

# 第二步：下载模型权重到本地指定目录（按需修改路径）
huggingface-cli download meituan/EvoCUA-32B-20260105 \
 --local-dir /path/to/EvoCUA-32B \
 --local-dir-use-symlinks False

温馨提示：模型下载完成后，记录好模型的本地路径，后续配置环境变量时需要用到；模型总大小约60GB，下载速度取决于网络环境，耐心等待即可。

3. 启动模型推理服务（核心第三步，基于vLLM，最优方式）

EvoCUA官方推荐使用vLLM框架启动模型推理服务，这是当前最快的大模型推理框架，能大幅提升推理速度、降低显存占用，且兼容OpenAI API协议，调用方式简单，具体启动命令如下，可根据自身显卡数量调整参数：

# 启动vLLM推理服务，兼容OpenAI API
vllm serve /path/to/EvoCUA-32B \
 --served-model-name EvoCUA \
 --host 0.0.0.0 \
 --port 8080 \
 --tensor-parallel-size 2 # 显卡数量，1张写1，2张写2，按需调整

补充说明：启动成功后，会显示「Server started on http://0.0.0.0:8080」，代表推理服务已就绪，无需关闭该终端，保持运行即可。

4. 配置环境变量（核心第四步，一键复制修改）

EvoCUA通过环境变量管理模型地址、运行参数等核心配置，项目提供了现成的模板文件env.template，无需手动编写，仅需复制后修改少量参数即可，具体操作如下：

# 第一步：复制环境变量模板为正式配置文件
cp env.template .env

# 第二步：用文本编辑器打开.env文件，修改核心配置项
# 关键配置：OPENAI_BASE_URL=http://127.0.0.1:8080/v1
# 其他配置保持默认即可，无需修改

温馨提示：修改完成后保存文件，环境变量会自动生效，无需额外配置。

5. 基础快速使用：单任务运行（新手首选，零代码，核心）

这是最适合新手的使用方式，无需修改任何代码，仅需调用项目提供的lib_run_single.py脚本，输入自然语言指令即可快速执行桌面操作任务，是个人用户最常用的方式，具体操作如下：

# 运行单任务脚本，输入自然语言指令即可
python3 lib_run_single.py \
 --instruction "打开Chrome浏览器，访问百度首页，搜索EvoCUA开源项目" \
 --observation_type screenshot \
 --headless False # False为显示操作过程，True为无头模式（后台运行）

核心效果：运行后，电脑会自动执行指令中的操作，全程无需人工干预，操作完成后会在logs目录生成运行日志，同时输出任务完成结果。

6. 进阶评测使用：运行OSWorld官方评测（跑分，开发者首选）

如果需要验证模型的性能，或做技术研究，可运行项目提供的run_multienv_evocua.py脚本，完成OSWorld基准评测，生成详细的跑分报告，具体命令如下：

# 运行OSWorld多环境评测，生成完整评测报告
python3 run_multienv_evocua.py \
 --headless True \
 --provider_name aws \
 --observation_type screenshot \
 --model EvoCUA-S2

补充说明：评测完成后，可运行show_result.py脚本查看可视化的评测结果，直观展示任务完成率与各项指标。

7. 核心使用小贴士（必看，提升体验与成功率）

运行时关闭其他无关软件，避免截图中包含过多无关信息，影响视觉识别精度；
自然语言指令尽量详细、清晰，比如「打开Excel新建表格」比「用Excel做表」更精准，能提升任务完成率；
GPU推理速度远快于CPU，建议优先使用GPU运行，体验更佳；
无头模式（--headless True）适合后台运行任务，显示模式适合查看操作过程，按需选择；
操作完成后，日志文件会自动保存到logs目录，可通过日志排查任务失败的原因。

六、常见问题解答（FAQ）

Q1：运行时提示「模型加载失败/找不到模型文件」怎么办？

A：这是最常见的问题，99%的原因是模型路径配置错误。解决方案：① 确认模型权重已完整下载，无文件缺失；② 确认vLLM启动命令中的模型路径与实际下载路径一致；③ 确认.env文件中的OPENAI_BASE_URL配置正确，端口号与vLLM启动的端口一致；④ 若模型下载不完整，删除后重新下载即可。

Q2：CPU可以运行EvoCUA吗？运行效果怎么样？

A：完全可以！EvoCUA原生支持CPU推理，无需任何额外配置，仅需在启动时去掉GPU相关参数即可。效果方面：CPU能正常完成所有操作，仅推理速度稍慢（生成操作步骤的时间变长），操作精准度与GPU一致，适合无高端显卡的用户做测试与体验，完全能满足基础使用需求。

Q3：执行操作时出现「点击位置偏差/操作无效」怎么办？

A：核心原因是屏幕分辨率或缩放比例影响了视觉识别。解决方案：① 将电脑屏幕分辨率调整为标准分辨率（如1920×1080），关闭屏幕缩放（设置为100%）；② 关闭其他无关窗口，仅保留需要操作的软件界面，减少视觉干扰；③ EvoCUA内置了坐标校准机制，少量偏差会自动修正，无需手动干预。

Q4：支持中文指令吗？中文指令的理解精度怎么样？

A：完全支持中文自然语言指令，且中文理解精度极高！EvoCUA是美团团队针对中文场景做了深度优化的模型，对中文的语义理解、指令拆解能力远超英文适配的竞品，无论是简单指令还是复杂长指令，中文的理解准确率均在95%以上，这也是其性能领先的重要原因之一。

Q5：运行时提示「显存不足（CUDA out of memory）」怎么办？

A：该问题仅出现在显存较小的显卡（如12GB显存）。解决方案：① 关闭其他占用显存的程序（如浏览器、视频播放器、其他AI模型）；② 在vLLM启动命令中添加--gpu-memory-utilization 0.8，限制显存占用；③ 开启张量并行（--tensor-parallel-size），用多张显卡分摊显存压力；④ 切换到CPU推理，彻底解决显存问题。

Q6：EvoCUA支持哪些桌面软件？可以新增适配其他软件吗？

A：现阶段官方深度支持Chrome、Excel、PowerPoint、VSCode四款核心软件；完全可以新增适配其他软件！EvoCUA的desktop_env目录下有专门的controllers模块，开发者可基于现有代码，新增对Word、Photoshop、微信电脑版等软件的适配，模块化架构让二次开发成本极低，官方也提供了适配教程。

Q7：任务执行失败后，如何排查原因？

A：EvoCUA提供了完善的日志记录功能，任务失败后可通过日志快速排查原因：① 查看logs目录下的运行日志，日志中会详细记录每一步的操作、校验结果、失败原因；② 常见失败原因包括：指令描述模糊、软件界面被遮挡、操作步骤超过50步上限；③ 根据日志中的失败原因，修改指令或调整环境后重新运行即可。

Q8：可以将EvoCUA集成到自有业务系统中吗？有商用限制吗？

A：完全可以！EvoCUA遵循Apache 2.0开源协议，无任何商用限制，个人与企业均可将其集成到自有业务系统中，进行商业落地与盈利，仅需在产品中保留开源声明即可，无需支付任何授权费用，无版权纠纷。

Q9：运行OSWorld评测时提示「环境初始化失败」怎么办？

A：核心原因是评测环境依赖未安装。解决方案：① 确认已安装所有依赖（requirements.txt）；② 确认本地有足够的磁盘空间（评测会生成临时文件）；③ 若使用云端环境（如AWS），确认云端实例已正常启动并联网；④ 本地运行时，关闭防火墙与杀毒软件，避免拦截程序运行。

七、相关链接

项目官方开源仓库（核心，必看）：https://github.com/meituan/EvoCUA
核心预训练模型下载地址：https://huggingface.co/meituan/EvoCUA-32B-20260105
OSWorld基准测试官方地址：https://os-world.github.io/
美团技术团队官方主页：https://tech.meituan.com/

八、总结

EvoCUA是美团公司打造的一款技术领先、落地性极强的开源多模态计算机使用智能体，它以自然语言与截图为核心驱动，实现了无代码、端到端的桌面软件自动化操作，在权威的OSWorld评测中斩获开源模型第一名的优异成绩，性能大幅领先同类型竞品。该项目深度适配Chrome、Excel、PPT、VSCode等核心桌面软件，具备操作精准、多轮交互流畅、容错机制完善的核心优势，同时采用轻量化的模块化架构，部署门槛适中、二次开发成本低，遵循Apache 2.0开源协议，个人与企业均可免费使用与商业落地。EvoCUA不仅能为个人用户提升办公效率、解放重复劳动，也能为企业提供低成本的批量自动化解决方案，更能为算法研究员提供优质的技术研究基线，是一款兼顾实用性、技术先进性与开源普惠的优质AI项目，也是当前开源生态中桌面自动化领域的顶尖解决方案。

AI智能体 AI自动化开源大模型

打赏

版权及免责申明：本文由@AI工具箱原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/evocua.html

THE END

AI工具箱

一个喜欢收集AI工具的小萌新

+ 关注

EvoCUA：美团开源的多模态端到端计算机交互智能体

文章目录

一、EvoCUA是什么

二、功能特色

1. 核心特色：开源赛道性能榜首，OSWorld评测成绩碾压级领先

2. 核心能力：纯自然语言+截图驱动，端到端无代码桌面自动化

3. 功能特色：适配主流桌面软件，覆盖核心办公与开发场景

4. 技术特色：多轮交互能力强，操作容错与自我修正机制完善

5. 部署特色：轻量化架构设计，多环境兼容，部署门槛适中

6. 工程特色：模块化架构设计，兼顾开箱即用与二次开发

7. 开源特色：完全开源免费，商用无限制，协议友好

三、技术细节

1. 项目整体技术架构与核心工作流

第一层：用户交互层（指令输入+结果输出）

第二层：多模态感知与解析层（核心技术层）

第三层：任务规划与步骤决策层（核心大脑）

第四层：桌面操作执行层（行动执行器）

第五层：环境评估与反馈层（结果校验）

2. 核心技术亮点与创新点

创新点一：轻量化、高质量的数据集合成方案

创新点二：兼顾核心能力与通用性能的训练策略

3. 核心技术选型与依赖说明

4. 项目核心文件结构

四、应用场景

1. 个人办公自动化场景（个人用户核心场景）

2. 企业级批量自动化场景（企业用户核心场景）

3. 算法研究与技术优化场景（科研与开发者核心场景）

4. 教育培训与学习场景（学生与入门开发者场景）

5. 小众个性化自动化场景

五、使用方法

前置说明（必看，准备工作）

1. 环境搭建（核心第一步，一键完成，所有系统通用）

2. 预训练模型下载（核心第二步，必做，获取模型权重）

3. 启动模型推理服务（核心第三步，基于vLLM，最优方式）

4. 配置环境变量（核心第四步，一键复制修改）

5. 基础快速使用：单任务运行（新手首选，零代码，核心）

6. 进阶评测使用：运行OSWorld官方评测（跑分，开发者首选）

7. 核心使用小贴士（必看，提升体验与成功率）

六、常见问题解答（FAQ）

Q1：运行时提示「模型加载失败/找不到模型文件」怎么办？

Q2：CPU可以运行EvoCUA吗？运行效果怎么样？

Q3：执行操作时出现「点击位置偏差/操作无效」怎么办？

Q4：支持中文指令吗？中文指令的理解精度怎么样？

Q5：运行时提示「显存不足（CUDA out of memory）」怎么办？

Q6：EvoCUA支持哪些桌面软件？可以新增适配其他软件吗？

Q7：任务执行失败后，如何排查原因？

Q8：可以将EvoCUA集成到自有业务系统中吗？有商用限制吗？

Q9：运行OSWorld评测时提示「环境初始化失败」怎么办？

七、相关链接

八、总结

相关文章