EvoCUA:美团开源的多模态端到端计算机交互智能体

原创 发布日期:
85

一、EvoCUA是什么

EvoCUA(Evolving Computer Use Agent)是由美团公司重磅开源的一款通用多模态计算机使用智能体,核心能力为基于实时桌面截图与自然语言指令,实现对主流桌面软件的端到端、多轮自动化交互与操作,无需嵌入软件源码、无需编写脚本代码,纯自然语言即可完成复杂的桌面操作任务。

从项目定位来看,EvoCUA 属于「多模态桌面交互智能体」,核心解决的是「用自然语言操控计算机桌面软件」的核心需求,也是大模型人机交互领域的核心研究与落地方向。我们日常使用电脑时,需要手动通过鼠标、键盘完成打开软件、点击按钮、输入内容、菜单选择、页面切换等一系列操作,而EvoCUA的核心价值,就是让AI完全替代人工的这些操作:它能通过实时捕捉的桌面截图获取当前电脑的视觉环境信息,结合用户输入的自然语言指令,自主分析任务需求、规划操作步骤、执行精准的键鼠操作,最终完成从「文字指令」到「软件操作结果」的端到端闭环,全程无需人工干预,无需编写任何自动化脚本,无需对目标软件做任何源码级嵌入或改造。

简单来说,EvoCUA就是一款能听懂人话、看懂电脑屏幕、自己动手操作软件的AI智能体。比如用户输入指令「打开Chrome浏览器,访问百度首页,搜索美团开源项目,将搜索结果第一页截图保存到桌面」,EvoCUA就能自主完成打开浏览器、点击地址栏、输入网址、点击搜索、快捷键截图、保存文件的全部操作;再比如输入「打开Excel,新建表格,在A1单元格输入姓名,B1单元格输入年龄,设置表头居中加粗」,该智能体也能精准完成所有表格操作,操作逻辑与精准度完全贴合人工习惯。

从技术属性来看,EvoCUA并非单一的大模型权重文件,而是一套完整的多模态智能体工程化框架:包含多模态感知模块、指令解析与任务规划模块、桌面操作执行模块、环境评估模块、日志与结果反馈模块等全套核心组件,同时配套了完整的OSWorld评测脚本、环境部署工具、运行示例,代码架构清晰、模块化程度高,既支持开箱即用的桌面自动化操作,也支持算法研究员基于该框架做二次优化与技术研究。

从项目背景与优势来看,EvoCUA是美团团队针对「大模型计算机使用能力」的专项研发成果,其核心亮点在于在权威评测中登顶:在行业公认的计算机使用能力基准测试集 OSWorld 中,EvoCUA以56.7%的任务完成率,超越OpenCUA-72B、Qwen3-VL thinking等一众主流开源模型,成为当前所有开源计算机使用智能体中的第一名,也是目前开源生态中,在桌面软件自动化领域性能最顶尖的项目之一。

此外,EvoCUA遵循Apache 2.0开源协议,个人用户、企业用户、科研机构均可免费使用、二次开发、商业落地,无任何版权与使用限制,项目的核心模型权重托管在HuggingFace平台,完整代码开源在GitHub,配套文档齐全,部署门槛适中,兼顾了技术先进性与工程实用性。

EvoCUA的适配范围也十分广泛,现阶段已深度支持Chrome浏览器、Microsoft Excel、Microsoft PowerPoint、VSCode代码编辑器等四款高频使用的桌面软件,覆盖办公、开发、浏览等核心电脑使用场景,后续还将持续拓展更多软件的适配支持,是一款真正能落地到实际工作中的AI自动化工具。

二、功能特色

能在开源生态中脱颖而出并登顶OSWorld榜单,EvoCUA的核心竞争力源于其「性能顶尖、能力通用、操作精准、交互流畅、部署友好、工程完善」六大核心功能特色,所有功能设计均围绕「提升AI的计算机使用能力、降低用户的使用门槛、保证操作的实用性」三大核心目标,既具备前沿的技术能力,又兼顾了实际落地的需求,无任何华而不实的冗余功能,所有特色均有实测数据与功能落地支撑,具体核心特色如下:

1. 核心特色:开源赛道性能榜首,OSWorld评测成绩碾压级领先

这是EvoCUA最核心、最具说服力的核心优势,也是其立足开源生态的核心底气。在行业公认的、最权威的计算机使用能力基准测试集 OSWorld 中,EvoCUA交出了极其亮眼的成绩单,核心数据如下:

  • 任务完成率达到 56.7%,是所有开源计算机使用智能体中的第一名,无任何开源竞品能与之匹敌;

  • 相比同类型的重量级开源模型OpenCUA-72B,任务完成率直接提升 11.7%,性能优势显著;

  • 相比阿里通义的Qwen3-VL thinking版本,任务完成率提升 15.1%,在多模态视觉理解+操作规划上具备明显优势;

  • 更具价值的是,EvoCUA仅需 50步操作上限 即可完成上述成绩,而部分竞品需要100步才能达到更低的完成率,这意味着EvoCUA的操作规划效率更高、步骤更精简、无无效操作,这也是其核心能力的直观体现。

下表为EvoCUA与主流开源竞品的核心性能对比,所有数据均来自OSWorld官方评测,真实可复现,直观展现其性能领先性: 表1 EvoCUA 与主流开源模型 OSWorld 核心性能对比表

模型名称 任务完成率 操作步数上限 性能差值(相对EvoCUA) 核心定位
EvoCUA(美团) 56.7% 50步 ——(基准) 开源榜首,多模态计算机使用智能体
OpenCUA-72B 45.0% 50步 -11.7% 大参数量开源计算机使用智能体
Qwen3-VL thinking 41.6% 50步 -15.1% 通义千问多模态衍生版本
其他轻量级开源模型 ≤35.0% 50/100步 ≥-21.7% 轻量化桌面操作模型

补充说明:目前该榜单中人类水平的任务完成率仍显著高于AI模型,这也是该领域的研究方向,但EvoCUA作为开源模型,已将性能推至当前开源生态的天花板。

2. 核心能力:纯自然语言+截图驱动,端到端无代码桌面自动化

这是EvoCUA的核心功能形态,也是其区别于传统自动化工具的核心差异,更是该项目的核心价值所在,该能力彻底颠覆了传统桌面自动化的实现方式:

  • 无需编写任何代码/脚本:传统的桌面自动化工具(如Python+PyAutoGUI、Selenium、按键精灵)需要开发者编写精准的脚本代码,定义每一步的点击坐标、输入内容、操作逻辑,门槛高、复用性低;而EvoCUA完全无需代码,用户仅需输入纯自然语言指令,比如「打开Excel,新建工作簿,输入姓名和成绩并求和」,智能体即可自主完成全部操作,零基础用户也能轻松上手。

  • 无需嵌入软件源码/接口:EvoCUA对目标软件无任何侵入性要求,不需要获取软件的API接口、不需要修改源码、不需要安装插件,仅通过实时桌面截图获取软件界面信息,完全模拟人类的视觉感知,适配所有标准桌面软件,兼容性拉满。

  • 端到端闭环完成任务:从「用户输入自然语言指令」到「智能体完成操作并输出结果」,形成完整的闭环,无需人工介入任何中间步骤。智能体自主完成「理解指令→分析截图→规划操作步骤→执行键鼠操作→验证操作结果」的全流程,任务完成度高,无断点。

  • 支持复杂多轮交互指令:不仅能完成「打开浏览器」这类简单单步指令,更能精准理解并执行复杂、多步骤、带逻辑的长指令,比如「打开VSCode,新建Python文件,输入九九乘法表代码,保存文件到桌面并命名为multi.py,运行该文件查看结果」,这类需要多步操作、多逻辑判断的任务,EvoCUA能精准拆解步骤并逐一完成,操作逻辑与人工完全一致。

3. 功能特色:适配主流桌面软件,覆盖核心办公与开发场景

EvoCUA在功能落地层面做了极致的务实优化,没有追求“大而全”的软件适配,而是聚焦高频、刚需、核心的桌面软件,做深度适配与优化,确保每一款适配的软件都能达到「高精度、高成功率」的操作效果,现阶段已深度支持的核心软件包括:

  1. Chrome浏览器:支持打开/关闭浏览器、访问指定网址、点击页面元素、输入搜索内容、滚动页面、截图保存、下载文件、切换标签页等全维度浏览器操作;

  2. Microsoft Excel:支持新建/保存表格、单元格输入、格式设置(居中、加粗、合并)、公式计算(求和、平均值)、单元格选中、行列调整等核心表格操作;

  3. Microsoft PowerPoint:支持新建演示文稿、插入文本框、输入内容、设置字体格式、插入图片、切换幻灯片等核心演示操作;

  4. VSCode代码编辑器:支持打开/新建文件、输入代码、保存文件、切换编程语言、运行代码、查看终端结果等核心开发操作。

上述四款软件覆盖了绝大多数用户的「办公+开发+上网」核心电脑使用场景,EvoCUA对每款软件的操作逻辑、界面元素、功能按钮都做了深度的视觉理解与操作适配,操作精准度远超通用多模态模型,极少出现“点错按钮、输错位置”的无效操作,实用性极强。

4. 技术特色:多轮交互能力强,操作容错与自我修正机制完善

在实际使用中,用户的指令往往不是单一的,更多是「多轮补充、多轮调整」的交互场景,而EvoCUA在这方面做了针对性优化,具备优秀的多轮交互能力与操作容错机制,这也是其区别于普通单步操作模型的核心亮点:

  • 精准的多轮指令理解:支持用户在任务执行过程中,输入补充指令或修改指令,比如用户先输入「打开Excel新建表格,输入姓名和年龄」,执行完成后,再输入「在C列添加成绩,设置表头为红色」,EvoCUA能精准结合历史操作与新指令,继续完成后续操作,不会丢失上下文信息,也不会重复执行已完成的步骤。

  • 完善的操作容错机制:AI在执行桌面操作时,难免会出现少量的操作偏差(比如点击位置稍有偏移、输入内容有误),EvoCUA内置了实时视觉校验与自我修正机制:每完成一步操作后,会通过最新的截图校验操作结果是否符合预期,如果发现偏差(比如点击按钮未生效、输入内容错误),会自主调整操作方式,重新执行该步骤,无需用户干预,大幅提升任务的最终完成率。

  • 合理的操作步骤规划:面对复杂任务时,EvoCUA会将其拆解为「循序渐进、逻辑合理」的小步骤,而非杂乱无章的随机操作,比如完成「Excel求和」任务时,会先选中目标单元格、再输入求和公式、最后按回车确认,步骤与人工操作完全一致,符合人类的操作逻辑,也避免了无效操作导致的任务失败。

5. 部署特色:轻量化架构设计,多环境兼容,部署门槛适中

作为一款由大厂开源的前沿AI项目,EvoCUA在工程化层面做了极致的优化,兼顾技术先进性与部署友好性,没有设置过高的硬件门槛,普通开发者的消费级设备也能部署运行,这也是其能快速被开源社区接受的核心原因之一:

  • 硬件门槛适中:核心推理依赖GPU,推荐NVIDIA消费级显卡(RTX 3090/4090,24GB显存),支持张量并行(Tensor Parallel),可通过多张显卡分摊显存压力,最低可在16GB显存的显卡上运行轻量化版本;同时支持CPU推理,仅推理速度稍慢,满足无高端显卡用户的测试需求。

  • 多系统全兼容:完美适配Windows 10/11、Linux(Ubuntu 20.04+)、macOS三大主流操作系统,所有核心功能无差异化,用户无需担心系统兼容性问题。

  • 依赖轻量化标准化:项目的核心依赖均为Python生态的主流开源库(PyTorch、Transformers、vLLM等),无任何冷门依赖包,安装过程无版本冲突,环境搭建简单快捷,一键安装即可完成。

  • 灵活的部署方式:支持「本地单机部署」「云端服务器部署」两种方式,本地部署适合个人使用与测试,云端部署适合企业级批量任务执行,同时兼容OpenAI API协议,可通过API调用模型能力,集成到自有业务系统中。

6. 工程特色:模块化架构设计,兼顾开箱即用与二次开发

EvoCUA的代码架构遵循「高内聚、低耦合」的工程化设计原则,整体为模块化解耦结构,完美兼顾了两类用户的核心需求,做到「新手开箱即用,开发者灵活定制」,工程成熟度极高:

  • 对新手友好:开箱即用,零配置快速运行:项目提供了完整的一键运行脚本、环境变量模板、评测示例,无需修改核心代码,仅需配置少量参数,即可快速启动智能体并执行桌面操作,同时提供了详细的中英文文档,新手能快速上手。

  • 对开发者友好:模块化解耦,二次开发成本极低:核心模块(多模态感知、指令解析、任务规划、操作执行、结果评估)完全解耦,每个模块均可独立替换、修改、优化。比如开发者可替换感知模块的视觉模型、修改任务规划的逻辑算法、新增对其他软件的适配,项目代码注释清晰、文档完善,二次开发的门槛极低。

  • 配套资源齐全:项目仓库提供了完整的评测脚本、测试用例、日志工具、结果展示工具,同时开源了核心模型权重与训练数据合成方案,算法研究员可基于此做进一步的技术研究与优化,是计算机使用智能体领域的优质研究基线。

7. 开源特色:完全开源免费,商用无限制,协议友好

EvoCUA遵循Apache 2.0开源协议,这是开源生态中最友好的协议之一,具备以下核心优势:

  • 个人用户可免费使用、修改、分发项目代码与模型,无任何限制;

  • 企业用户可将项目集成到自有产品中,进行商业落地与盈利,无需支付任何授权费用,仅需保留开源声明;

  • 科研机构可基于项目做学术研究与论文发表,无版权纠纷。

项目的全部代码、预训练模型权重、评测脚本、文档均已在GitHub与HuggingFace全量开源,无任何闭源模块或隐藏收费项,美团团队无任何商业化限制,真正做到了开源普惠。

三、技术细节

EvoCUA能实现顶尖的性能与优秀的功能体验,并非单一技术的堆砌,而是基于扎实的多模态大模型技术、创新的训练方案、完善的工程化架构共同构建的完整技术体系。其技术核心围绕「让AI看懂屏幕、听懂指令、规划步骤、精准操作」四大核心环节展开,整体技术架构清晰、逻辑严谨、通俗易懂,无过度复杂的黑盒设计,所有技术选型均以「实用性、高性能、轻量化」为核心原则,具体核心技术细节如下:

1. 项目整体技术架构与核心工作流

EvoCUA的整体技术架构为五层模块化闭环架构,从用户输入指令到最终完成操作,所有环节均由这五层模块协同完成,全程自动化执行,无人工干预,形成了完整的技术闭环。这五层架构自上而下依次为,同时也是EvoCUA的核心任务执行流程:

第一层:用户交互层(指令输入+结果输出)

这是项目的入口与出口,负责接收用户的自然语言指令(支持中文/英文),同时向用户反馈任务执行结果(成功/失败、操作日志、最终文件),是连接用户与智能体的桥梁。该层支持单轮指令与多轮交互指令,能精准保留上下文信息,适配多轮任务调整需求。

第二层:多模态感知与解析层(核心技术层)

这是EvoCUA的核心技术基石,也是其能「看懂屏幕、听懂指令」的核心模块,分为两大核心子功能,缺一不可:

  1. 自然语言指令解析:基于大语言模型(LLM)对用户输入的自然语言指令进行语义理解、任务拆解、意图提取,将「打开Excel求和」这类自然语言,转化为模型可理解的结构化任务描述(如「软件=Excel,操作=新建表格+输入数据+公式计算」);

  2. 桌面截图视觉理解:基于多模态大模型的视觉编码器,对实时捕捉的桌面截图进行图像解析,识别截图中的软件界面、按钮位置、文本内容、输入框、菜单栏等核心视觉元素,将图像信息转化为结构化的文本描述,让AI能精准「看懂」当前的电脑屏幕内容。

该层的核心技术亮点是将文本指令与视觉信息做深度融合,让AI能结合「用户想做什么」与「当前屏幕有什么」,做出精准的操作决策,这也是EvoCUA区别于纯文本大模型的核心差异。

第三层:任务规划与步骤决策层(核心大脑)

这是EvoCUA的「核心大脑」,也是决定任务完成率的关键模块。该层基于融合后的「文本指令+视觉信息」,自主完成任务拆解与操作步骤规划:将一个复杂的任务(如「浏览器搜索并截图保存」)拆解为多个简单的、可执行的子步骤(打开浏览器→输入网址→点击搜索→截图→保存),并为每个子步骤规划出最优的操作方式,同时预判操作的先后顺序与逻辑关系,避免无效操作。

该层内置了美团团队自研的操作规划算法,结合了强化学习与启发式搜索,能在50步上限内规划出最精简的操作路径,这也是EvoCUA能在少步数内完成高任务率的核心技术原因。

第四层:桌面操作执行层(行动执行器)

这是EvoCUA的「双手」,负责将任务规划层输出的操作步骤,转化为精准的键鼠物理操作。该层模拟人类的鼠标与键盘行为,支持点击、双击、右键、拖拽、输入文本、快捷键、滚动页面等所有核心键鼠操作,操作坐标精准、执行速度可控,完全贴合人工操作习惯。

核心技术亮点:该层内置了坐标校准与容错机制,即使视觉识别的按钮位置有微小偏差,也能自动校准点击坐标,避免因位置偏差导致的操作失败;同时支持操作结果的实时校验,若某一步操作未生效,会自动重试,大幅提升操作成功率。

第五层:环境评估与反馈层(结果校验)

这是EvoCUA的「眼睛与裁判」,负责在每一步操作完成后,通过最新的桌面截图,校验该步骤的操作结果是否符合预期(如「点击搜索按钮后,是否出现搜索结果」),并将校验结果反馈给任务规划层。如果操作成功,则继续执行下一步;如果操作失败,则触发修正机制,重新规划步骤并执行;如果任务全部完成,则输出最终结果并结束任务。

该层是EvoCUA具备「自我修正能力」的核心模块,也是其任务完成率远高于竞品的重要原因之一。

2. 核心技术亮点与创新点

EvoCUA能登顶开源榜单,除了完善的架构,更核心的是其在技术层面的两大核心创新,这两大创新也是美团团队的核心技术积累,是该项目的核心竞争力:

创新点一:轻量化、高质量的数据集合成方案

计算机使用智能体的核心痛点之一是「高质量标注数据稀缺」:人工标注桌面操作的截图、指令、步骤,成本极高、效率极低,而美团团队自研了自动化的数据集合成方案,能快速生成海量的、高质量的「指令-截图-操作步骤」三元组训练数据,无需人工标注。该方案的核心优势是:生成的数据贴合真实使用场景,覆盖所有适配软件的核心操作,同时数据量可控,能在不损害模型通用性能的前提下,快速提升模型的计算机使用能力。

创新点二:兼顾核心能力与通用性能的训练策略

多数同类模型在训练时,会过度拟合桌面操作任务,导致模型的通用语言理解能力下降;而EvoCUA采用了多任务混合训练策略:在训练计算机使用能力的同时,保留模型的通用自然语言理解与生成能力,做到「专项能力突出,通用能力不丢」。这也是EvoCUA能精准理解复杂长指令、支持多轮交互的核心技术原因。

3. 核心技术选型与依赖说明

EvoCUA的所有技术选型均遵循「成熟稳定、高性能、轻量化、社区活跃」的原则,无任何前沿但不成熟的技术选型,所有依赖均为开源生态的主流库,版本兼容性好,部署与维护成本极低,核心技术选型与依赖如下,均为项目运行的核心基础:

  • 核心开发语言:Python 3.12(当前最优版本,兼顾兼容性与性能);

  • 深度学习框架:PyTorch 2.8.0+cu126(主流框架,支持GPU加速与张量并行);

  • 大模型推理加速:vLLM 0.11.0(当前最快的大模型推理框架之一,大幅提升推理速度,降低显存占用);

  • 多模态模型核心库:Transformers 4.57.3(HuggingFace官方库,支持多模态模型的加载与推理);

  • 桌面操作核心库:PyAutoGUI、PyGetWindow(模拟键鼠操作与窗口管理,无侵入性);

  • 图像处理核心库:OpenCV、PIL(截图处理与视觉特征提取);

  • 工程化工具:python-dotenv(环境变量管理)、logging(日志记录)、pytest(单元测试)。

4. 项目核心文件结构

EvoCUA的代码仓库采用标准化、模块化的目录结构,所有文件职责明确、层级清晰,无任何杂乱文件,即使是零基础的开发者也能快速找到核心功能入口,核心文件结构如下,方便用户快速上手与二次开发,所有目录与文件均为项目核心内容:

EvoCUA/
├── .gitignore        # Git版本控制忽略规则
├── LICENSE          # Apache 2.0开源协议文件
├── README.md / README_CN.md # 中英文完整使用文档(核心,必看)
├── env.template       # 环境变量配置模板(一键复制修改)
├── requirements.txt     # 项目所有依赖清单(一键安装)
├── lib_results_logger.py   # 任务结果日志记录工具
├── lib_run_single.py     # 单任务运行核心脚本
├── run_multienv_evocua.py  # 多环境OSWorld评测主脚本(核心)
├── show_result.py      # 评测结果可视化展示脚本
├── assets/          # 静态资源目录(榜单截图、演示图片)
├── evaluation_examples/   # 评测示例目录(测试用例、配置文件)
├── logs/           # 运行日志存储目录(自动生成)
├── mm_agents/        # 多模态智能体核心代码目录(核心逻辑)
└── desktop_env/       # 桌面环境核心模块(重中之重)
  ├── actions.py      # 所有桌面操作定义(点击、输入、快捷键等)
  ├── desktop_env.py    # 桌面环境核心逻辑(截图、环境初始化)
  ├── evaluators/      # 操作结果评估器(校验任务完成度)
  ├── controllers/     # 各软件专属控制器(Excel/Chrome等)
  └── server/        # 云端环境服务端配置

EvoCUA:美团开源的多模态端到端计算机交互智能体

四、应用场景

1. 个人办公自动化场景(个人用户核心场景)

这是EvoCUA最主流、最贴近普通用户的应用场景,也是其最具价值的落地方向,能大幅提升个人办公效率,解放双手,减少重复劳动,核心应用场景包括:

  • 办公软件自动化操作:无需手动操作Excel/PPT,输入自然语言指令即可完成表格制作、数据计算、PPT排版、内容编辑等重复工作,比如「在Excel中统计月度销售数据并生成求和表」「制作一份产品介绍PPT,包含标题、内容、图片」,大幅节省办公时间;

  • 浏览器自动化操作:自动完成网页浏览、信息检索、截图保存、文件下载等操作,比如「访问知乎,搜索AI开源项目,将前5条回答截图保存到桌面」「下载某网站的开源代码压缩包并解压」,无需手动点击与等待;

  • 代码开发辅助操作:针对程序员群体,可自动完成VSCode的文件创建、代码输入、保存运行等操作,比如「新建Python文件,输入冒泡排序代码并运行」,减少重复的基础开发操作,提升编码效率。

2. 企业级批量自动化场景(企业用户核心场景)

EvoCUA的高性能与稳定性,使其能完美适配企业级的批量桌面自动化需求,能大幅降低企业的人工成本,提升工作效率,且开源免费无授权费用,是中小企业的优质选择,核心应用场景包括:

  • 批量数据处理与报表生成:企业的行政、财务、运营部门,可通过EvoCUA批量生成Excel报表、统计数据、制作分析图表,无需人工逐个制作,比如「批量生成100份员工考勤表并保存」,效率提升百倍;

  • 批量网页信息采集与整理:市场、销售部门可通过EvoCUA批量采集竞品信息、行业数据、客户资料,自动截图保存或整理成文档,无需人工逐个网页浏览与复制;

  • 企业内部工具集成:企业可将EvoCUA的核心能力集成到自有办公系统中,为员工提供「自然语言自动化办公」的功能,无需员工学习复杂的自动化工具,降低企业的培训成本。

3. 算法研究与技术优化场景(科研与开发者核心场景)

EvoCUA作为开源榜单第一名的计算机使用智能体,是该领域最优质的研究基线与开源资源,也是算法研究员与资深开发者的核心应用场景,具备极高的学术与技术价值:

  • 计算机使用智能体技术研究:高校、科研机构可基于EvoCUA的代码与模型,开展多模态大模型的视觉理解、任务规划、操作执行等方向的研究,探索提升AI计算机使用能力的新方法,发表学术论文或申请专利;

  • 模型二次优化与性能提升:开发者可基于EvoCUA的训练方案,优化模型的感知能力与规划能力,进一步提升任务完成率,打造更优秀的计算机使用智能体;

  • 新软件适配与功能拓展:开发者可基于EvoCUA的模块化架构,新增对更多桌面软件的适配(如Photoshop、Word、微信电脑版),拓展其应用场景,打造更通用的桌面自动化工具。

4. 教育培训与学习场景(学生与入门开发者场景)

EvoCUA也是一款优秀的「AI自动化教育工具」,能帮助学生与入门开发者快速理解桌面自动化的核心逻辑,降低编程与自动化的学习门槛:

  • 编程入门学习:零基础学生可通过自然语言指令,让EvoCUA演示代码的编写与运行过程,直观理解编程逻辑,无需从零基础学习Python语法;

  • 办公软件教学:办公软件新手可通过EvoCUA的操作演示,学习Excel公式、PPT排版等办公技巧,快速提升办公能力;

  • AI人机交互认知:帮助用户理解多模态大模型的核心能力,了解AI如何看懂屏幕、听懂指令、执行操作,建立对AI的正确认知。

5. 小众个性化自动化场景

除了上述主流场景,EvoCUA还能满足各类小众的个性化自动化需求,比如:自动整理桌面文件、自动备份重要文档、自动运行指定软件并完成基础操作等,只要是能通过自然语言描述的桌面操作任务,EvoCUA都能精准完成,具备极强的灵活性与适配性。

五、使用方法

前置说明(必看,准备工作)

  1. 硬件要求:推荐NVIDIA显卡(RTX 3090/4090,16GB/24GB显存),支持GPU推理与张量并行,是最优运行环境;无高端显卡可使用CPU推理,仅速度稍慢;

  2. 系统要求:Windows 10/11、Linux(Ubuntu 20.04+/CentOS 7+)、macOS(Intel/Apple Silicon)全兼容,无差异化;

  3. 基础环境:已安装Python 3.12版本(官方推荐,避免依赖冲突),已配置pip国内镜像源(加速依赖安装);

  4. 核心前置工具:需安装git(克隆仓库)、git-lfs(下载大模型权重),均为开源免费工具。

1. 环境搭建(核心第一步,一键完成,所有系统通用)

该步骤的核心是克隆项目仓库、创建虚拟环境、安装项目所有依赖,全程无复杂配置,所有命令均在终端/命令行执行,建议使用虚拟环境,避免污染本地Python环境,具体命令如下:

# 第一步:克隆EvoCUA官方开源仓库(核心)
git clone https://github.com/meituan/EvoCUA.git

# 第二步:进入项目根目录,所有后续操作均在此目录执行
cd EvoCUA

# 第三步:创建Python虚拟环境(推荐,Python版本固定3.12)
python3 -m venv .venv

# 第四步:激活虚拟环境
# Windows系统激活命令
.venv\Scripts\activate
# Linux/Mac系统激活命令
source .venv/bin/activate

# 第五步:一键安装所有依赖,无版本冲突,自动完成
pip install -r requirements.txt

温馨提示:安装依赖时若速度较慢,可切换为阿里云/清华的pip镜像源,大幅提升下载速度;安装完成后,无报错即代表环境搭建成功。

2. 预训练模型下载(核心第二步,必做,获取模型权重)

EvoCUA的核心推理依赖官方开源的预训练模型权重,模型托管在HuggingFace平台,免费下载无限制,模型名称为meituan/EvoCUA-32B-20260105,大小适中,下载前需先安装git-lfs(用于下载大文件),具体命令如下:

# 第一步:安装git-lfs(必须,否则无法下载大模型权重)
git lfs install

# 第二步:下载模型权重到本地指定目录(按需修改路径)
huggingface-cli download meituan/EvoCUA-32B-20260105 \
 --local-dir /path/to/EvoCUA-32B \
 --local-dir-use-symlinks False

温馨提示:模型下载完成后,记录好模型的本地路径,后续配置环境变量时需要用到;模型总大小约60GB,下载速度取决于网络环境,耐心等待即可。

3. 启动模型推理服务(核心第三步,基于vLLM,最优方式)

EvoCUA官方推荐使用vLLM框架启动模型推理服务,这是当前最快的大模型推理框架,能大幅提升推理速度、降低显存占用,且兼容OpenAI API协议,调用方式简单,具体启动命令如下,可根据自身显卡数量调整参数:

# 启动vLLM推理服务,兼容OpenAI API
vllm serve /path/to/EvoCUA-32B \
 --served-model-name EvoCUA \
 --host 0.0.0.0 \
 --port 8080 \
 --tensor-parallel-size 2 # 显卡数量,1张写1,2张写2,按需调整

补充说明:启动成功后,会显示「Server started on http://0.0.0.0:8080」,代表推理服务已就绪,无需关闭该终端,保持运行即可。

4. 配置环境变量(核心第四步,一键复制修改)

EvoCUA通过环境变量管理模型地址、运行参数等核心配置,项目提供了现成的模板文件env.template,无需手动编写,仅需复制后修改少量参数即可,具体操作如下:

# 第一步:复制环境变量模板为正式配置文件
cp env.template .env

# 第二步:用文本编辑器打开.env文件,修改核心配置项
# 关键配置:OPENAI_BASE_URL=http://127.0.0.1:8080/v1
# 其他配置保持默认即可,无需修改

温馨提示:修改完成后保存文件,环境变量会自动生效,无需额外配置。

5. 基础快速使用:单任务运行(新手首选,零代码,核心)

这是最适合新手的使用方式,无需修改任何代码,仅需调用项目提供的lib_run_single.py脚本,输入自然语言指令即可快速执行桌面操作任务,是个人用户最常用的方式,具体操作如下:

# 运行单任务脚本,输入自然语言指令即可
python3 lib_run_single.py \
 --instruction "打开Chrome浏览器,访问百度首页,搜索EvoCUA开源项目" \
 --observation_type screenshot \
 --headless False # False为显示操作过程,True为无头模式(后台运行)

核心效果:运行后,电脑会自动执行指令中的操作,全程无需人工干预,操作完成后会在logs目录生成运行日志,同时输出任务完成结果。

6. 进阶评测使用:运行OSWorld官方评测(跑分,开发者首选)

如果需要验证模型的性能,或做技术研究,可运行项目提供的run_multienv_evocua.py脚本,完成OSWorld基准评测,生成详细的跑分报告,具体命令如下:

# 运行OSWorld多环境评测,生成完整评测报告
python3 run_multienv_evocua.py \
 --headless True \
 --provider_name aws \
 --observation_type screenshot \
 --model EvoCUA-S2

补充说明:评测完成后,可运行show_result.py脚本查看可视化的评测结果,直观展示任务完成率与各项指标。

7. 核心使用小贴士(必看,提升体验与成功率)

  1. 运行时关闭其他无关软件,避免截图中包含过多无关信息,影响视觉识别精度;

  2. 自然语言指令尽量详细、清晰,比如「打开Excel新建表格」比「用Excel做表」更精准,能提升任务完成率;

  3. GPU推理速度远快于CPU,建议优先使用GPU运行,体验更佳;

  4. 无头模式(--headless True)适合后台运行任务,显示模式适合查看操作过程,按需选择;

  5. 操作完成后,日志文件会自动保存到logs目录,可通过日志排查任务失败的原因。

六、常见问题解答(FAQ)

Q1:运行时提示「模型加载失败/找不到模型文件」怎么办?

A:这是最常见的问题,99%的原因是模型路径配置错误。解决方案:① 确认模型权重已完整下载,无文件缺失;② 确认vLLM启动命令中的模型路径与实际下载路径一致;③ 确认.env文件中的OPENAI_BASE_URL配置正确,端口号与vLLM启动的端口一致;④ 若模型下载不完整,删除后重新下载即可。

Q2:CPU可以运行EvoCUA吗?运行效果怎么样?

A:完全可以!EvoCUA原生支持CPU推理,无需任何额外配置,仅需在启动时去掉GPU相关参数即可。效果方面:CPU能正常完成所有操作,仅推理速度稍慢(生成操作步骤的时间变长),操作精准度与GPU一致,适合无高端显卡的用户做测试与体验,完全能满足基础使用需求。

Q3:执行操作时出现「点击位置偏差/操作无效」怎么办?

A:核心原因是屏幕分辨率或缩放比例影响了视觉识别。解决方案:① 将电脑屏幕分辨率调整为标准分辨率(如1920×1080),关闭屏幕缩放(设置为100%);② 关闭其他无关窗口,仅保留需要操作的软件界面,减少视觉干扰;③ EvoCUA内置了坐标校准机制,少量偏差会自动修正,无需手动干预。

Q4:支持中文指令吗?中文指令的理解精度怎么样?

A:完全支持中文自然语言指令,且中文理解精度极高!EvoCUA是美团团队针对中文场景做了深度优化的模型,对中文的语义理解、指令拆解能力远超英文适配的竞品,无论是简单指令还是复杂长指令,中文的理解准确率均在95%以上,这也是其性能领先的重要原因之一。

Q5:运行时提示「显存不足(CUDA out of memory)」怎么办?

A:该问题仅出现在显存较小的显卡(如12GB显存)。解决方案:① 关闭其他占用显存的程序(如浏览器、视频播放器、其他AI模型);② 在vLLM启动命令中添加--gpu-memory-utilization 0.8,限制显存占用;③ 开启张量并行(--tensor-parallel-size),用多张显卡分摊显存压力;④ 切换到CPU推理,彻底解决显存问题。

Q6:EvoCUA支持哪些桌面软件?可以新增适配其他软件吗?

A:现阶段官方深度支持Chrome、Excel、PowerPoint、VSCode四款核心软件;完全可以新增适配其他软件!EvoCUA的desktop_env目录下有专门的controllers模块,开发者可基于现有代码,新增对Word、Photoshop、微信电脑版等软件的适配,模块化架构让二次开发成本极低,官方也提供了适配教程。

Q7:任务执行失败后,如何排查原因?

A:EvoCUA提供了完善的日志记录功能,任务失败后可通过日志快速排查原因:① 查看logs目录下的运行日志,日志中会详细记录每一步的操作、校验结果、失败原因;② 常见失败原因包括:指令描述模糊、软件界面被遮挡、操作步骤超过50步上限;③ 根据日志中的失败原因,修改指令或调整环境后重新运行即可。

Q8:可以将EvoCUA集成到自有业务系统中吗?有商用限制吗?

A:完全可以!EvoCUA遵循Apache 2.0开源协议,无任何商用限制,个人与企业均可将其集成到自有业务系统中,进行商业落地与盈利,仅需在产品中保留开源声明即可,无需支付任何授权费用,无版权纠纷。

Q9:运行OSWorld评测时提示「环境初始化失败」怎么办?

A:核心原因是评测环境依赖未安装。解决方案:① 确认已安装所有依赖(requirements.txt);② 确认本地有足够的磁盘空间(评测会生成临时文件);③ 若使用云端环境(如AWS),确认云端实例已正常启动并联网;④ 本地运行时,关闭防火墙与杀毒软件,避免拦截程序运行。

七、相关链接

  1. 项目官方开源仓库(核心,必看):https://github.com/meituan/EvoCUA

  2. 核心预训练模型下载地址:https://huggingface.co/meituan/EvoCUA-32B-20260105

  3. OSWorld基准测试官方地址:https://os-world.github.io/

  4. 美团技术团队官方主页:https://tech.meituan.com/

八、总结

EvoCUA是美团公司打造的一款技术领先、落地性极强的开源多模态计算机使用智能体,它以自然语言与截图为核心驱动,实现了无代码、端到端的桌面软件自动化操作,在权威的OSWorld评测中斩获开源模型第一名的优异成绩,性能大幅领先同类型竞品。该项目深度适配Chrome、Excel、PPT、VSCode等核心桌面软件,具备操作精准、多轮交互流畅、容错机制完善的核心优势,同时采用轻量化的模块化架构,部署门槛适中、二次开发成本低,遵循Apache 2.0开源协议,个人与企业均可免费使用与商业落地。EvoCUA不仅能为个人用户提升办公效率、解放重复劳动,也能为企业提供低成本的批量自动化解决方案,更能为算法研究员提供优质的技术研究基线,是一款兼顾实用性、技术先进性与开源普惠的优质AI项目,也是当前开源生态中桌面自动化领域的顶尖解决方案。

打赏
THE END
作者头像
AI工具箱
一个喜欢收集AI工具的小萌新