Computer Use Preview:谷歌开源的AI浏览器自动化工具,自然语言掌控网页操作

原创 发布日期:
73

一、Computer Use Preview是什么

Computer Use Preview是由Google Gemini团队开发并开源的一款AI驱动型计算机操作工具,本质上是Computer-Using Agent(CUA)模型的实用化实现。它基于Python语言开发,核心目标是通过自然语言指令,驱动浏览器或桌面应用完成一系列自动化操作,无需用户手动编写复杂脚本。

简单来说,这个工具相当于给计算机配备了一个“AI助手”——你只需用日常语言描述需求,比如“打开京东搜索笔记本电脑,筛选5000-8000元产品并提取前10名信息”,工具就能自动解析意图,通过视觉识别理解网页界面,模拟人类完成点击、输入、滚动、数据提取等操作。

作为开源项目,它采用宽松的Apache License 2.0许可证,允许个人与企业自由使用、修改、分发甚至用于商业场景,仅需保留原始版权信息。项目代码结构清晰,包含核心代理逻辑、双浏览器环境适配、测试案例等完整模块,既适合普通用户直接使用,也能满足开发者的二次开发需求。

与传统自动化工具(如Selenium、AutoHotkey)相比,Computer Use Preview的核心优势在于“AI驱动的智能适配”——它无需依赖固定的网页元素选择器,而是像人类一样“看懂”界面布局,即便网页按钮位置、表单结构发生变化,也能自动调整操作策略,大幅提升了自动化任务的稳定性与适用性。

二、功能特色

(一)自然语言交互,零代码门槛

这是项目最核心的特色之一。用户无需掌握Python、JavaScript等编程语言,也不用了解CSS选择器、XPath等技术概念,只需用自然语言完整描述任务需求,工具即可自动解析并执行。例如:

  • 基础需求:“打开百度,搜索‘开源AI工具’并查看前5条搜索结果”

  • 复杂需求:“访问电商平台,筛选销量Top10的无线耳机,提取产品名称、价格、好评率并保存为Excel文件” 这种交互方式彻底降低了自动化工具的使用门槛,让非技术人员也能轻松实现高效办公。

(二)双浏览器环境支持,灵活适配多场景

项目提供本地与云端两种运行环境,用户可根据数据安全性、使用场景灵活选择:

  1. 本地Playwright环境:集成微软Playwright自动化框架,支持Chrome、Firefox、Safari、Edge等主流浏览器,所有操作均在本地完成,数据不经过第三方服务器,适合对隐私安全要求较高的场景(如企业内部系统操作、敏感数据采集)。

  2. Browserbase云浏览器环境:通过API对接Browserbase云浏览器服务,无需本地安装浏览器,支持远程执行、多设备同步,适合大规模自动化任务、无本地环境的场景(如服务器部署、多账号批量操作)。

(三)全场景网页操作覆盖,满足多样化需求

工具支持网页操作的全流程需求,从基础导航到高级数据处理均能轻松应对,具体包括:

  • 基础操作:网页跳转、按钮点击、文本输入、下拉菜单选择、复选框勾选、表单提交;

  • 进阶操作:页面滚动、截图捕获、文件上传/下载、Cookie管理、标签页控制;

  • 数据处理:网页文本提取、表格数据抓取、结构化信息整理、数据格式转换(如CSV/Excel导出);

  • 异常处理:自动识别弹窗广告、网络延迟适配、操作失败重试,确保任务持续推进。

(四)AI视觉识别+智能推理,自适应界面变化

依托Gemini大模型的多模态能力,工具具备强大的界面理解与自适应能力:

  • 视觉识别:通过实时截图分析网页布局,精准识别按钮、输入框、菜单等交互元素,无需依赖固定的HTML结构;

  • 智能推理:理解多步骤任务的逻辑关联,例如“登录→搜索→筛选→导出”的流程化操作,能自主规划执行顺序;

  • 自适应变化:当网页界面更新(如按钮位置移动、表单字段增减)时,无需修改指令,工具可自动调整操作方式,避免传统脚本“一换页面就失效”的问题。

(五)开源免费+高度可扩展,支持二次开发

作为开源项目,工具本身无任何使用费用,且代码架构灵活,支持多种扩展方式:

  • 功能定制:开发者可基于核心代码添加自定义操作(如特定网站的专属适配、复杂数据处理算法);

  • 生态集成:可集成到现有系统(如CRM、办公自动化平台),实现自动化流程闭环;

  • 社区支持:GitHub仓库提供完整的文档与测试案例,开发者可通过Issue反馈问题、参与功能优化,形成活跃的技术社区。

(六)安全可控,操作透明化

工具在设计时注重安全性与可控性,避免自动化操作带来的风险:

  • 安全检查:通过pending_safety_checks参数对高风险操作(如支付、删除数据)进行预警,防止误操作;

  • 操作日志:实时输出执行过程中的推理摘要与操作记录,用户可清晰查看AI的决策逻辑与每一步动作;

  • 沙盒支持:可在隔离环境中运行,避免对本地系统或业务数据造成影响,尤其适合测试场景。

三、技术细节

(一)核心架构设计

项目采用三层架构设计,逻辑清晰且解耦性强,确保不同模块可独立扩展与维护:

  1. 智能层(BrowserAgent):核心决策模块,位于agent.py文件中。负责接收用户自然语言指令,与Gemini模型交互,生成高层操作指令(如“点击页面右上角登录按钮”),同时维护任务上下文与执行状态,确保操作的连贯性。

  2. 抽象层(Computer接口):定义了15个标准操作接口,涵盖鼠标点击、键盘输入、导航、截图等核心功能。任何浏览器环境(本地或云端)只需实现这些接口,即可接入工具,实现“一套核心逻辑,多环境适配”。

  3. 执行层(环境实现):包含computers/目录下的两个子模块,分别对应本地与云端环境:

    • playwright/:基于Playwright框架实现本地浏览器控制,负责将AI生成的操作指令转化为具体的浏览器行为;

    • browserbase/:通过API对接Browserbase云服务,实现远程浏览器的控制与操作结果返回。

(二)关键技术亮点

  1. 坐标归一化技术:解决跨设备、跨分辨率适配问题。LLM模型仅识别0-1000的标准化坐标系,工具通过denormalize_xdenormalize_y函数,将标准化坐标转换为当前设备的实际像素坐标,无论屏幕尺寸如何变化,都能精准定位操作元素。

    def denormalize_x(x: int) -> int:
      screen_width, _ = computer.screen_size()
      return int(x / 1000 * screen_width)
  2. 截图滑动窗口策略:避免长任务导致的上下文过载。工具仅保留最近3轮的截图数据, older截图会被删除(保留结构信息),既保证AI能获取必要的上下文,又不会因截图过多导致模型推理变慢或内存占用过高。

    MAX_RECENT_TURN_WITH_SCREENSHOTS = 3
    for i, content in enumerate(contents[:-MAX_RECENT_TURN_WITH_SCREENSHOTS]):
      if has_screenshot(content):
        remove_screenshot(content) # 保留结构,删除图片数据
  3. 新页面劫持机制:简化多标签页复杂场景。当操作触发新标签页打开时,工具会自动关闭新标签页,并在当前标签页中打开目标URL,将多标签场景转化为单标签操作,降低AI决策难度,提升任务执行稳定性。

  4. 视觉-动作循环机制:实现“感知-决策-执行”闭环。工具通过截图获取当前界面状态,Gemini模型结合用户指令生成操作指令,执行后再次截图反馈给模型,循环迭代直至完成任务。这种机制让工具能动态应对操作过程中的各种异常情况(如网络延迟、弹窗干扰)。

(三)AI模型与依赖支持

  1. 核心AI模型:默认对接Gemini 2.5 Computer Use专项模型(gemini-2.5-computer-use-preview-10-2025),该模型专为GUI界面交互设计,具备精准的UI元素识别与像素级动作生成能力,是实现自然语言转操作指令的核心动力。

  2. 模型适配:支持两种AI服务接入方式,满足不同用户需求:

    • Gemini开发者API:适合个人用户与小型团队,配置GEMINI_API_KEY即可快速接入;

    • Vertex AI:适合企业级用户,支持大规模部署与定制化需求,需配置VERTEXAI_PROJECTVERTEXAI_LOCATION等环境变量。

  3. 核心依赖:项目基于Python 3.8+开发,主要依赖包括Playwright(浏览器控制)、Google AI Python Client(Gemini API对接)、Pillow(截图处理)等,所有依赖均在requirements.txt中明确列出,安装便捷。

四、应用场景

(一)办公自动化:解放重复性劳动

  1. 数据采集与整理:市场调研人员可通过指令“采集3家竞品官网的产品价格与参数,整理为对比表格”,工具自动完成网页访问、数据提取、格式整理,将原本2小时的工作缩短至15分钟以内;HR可批量采集招聘网站简历信息,自动筛选符合条件的候选人。

  2. 表单填写与申报:行政人员处理报销单、考勤表时,可通过指令“根据Excel中的员工信息,批量填写线上考勤申报表单”,工具自动识别表单字段并填充数据,避免人工录入错误;财务人员可自动提取PDF发票信息,填写税务申报表单。

  3. 信息监控与同步:运营人员可设置定时任务“每天上午10点监控行业核心网站的新闻动态,提取标题与摘要同步至工作群”,实现信息实时同步,无需人工反复查看。

(二)开发与测试:提升研发效率

  1. 自动化测试:Web开发者可通过指令“测试登录页面的用户名密码验证功能,包括正确输入、空值、错误密码三种场景”,工具自动模拟用户操作,记录响应结果与异常点,替代传统的手动测试或复杂脚本编写,将回归测试效率提升10倍以上。

  2. 接口联调与数据准备:后端开发者可通过指令“访问测试环境API文档,调用用户列表接口,提取10条测试数据并保存为JSON文件”,快速完成测试数据准备,无需手动访问网页与复制粘贴。

  3. 网页功能验证:前端开发者可通过指令“验证首页所有导航链接是否正常跳转,按钮点击是否有响应”,自动完成页面功能遍历,及时发现链接失效、按钮无响应等问题。

(三)企业与团队协作:降低运营成本

  1. 电商运营:电商卖家可通过指令“批量上架10款商品至多个电商平台,填写商品名称、价格、库存等信息”,实现多平台同步运营,节省大量重复劳动;还可自动采集竞品销量与评价,辅助定价与产品优化。

  2. 内容创作:自媒体运营者可通过指令“采集行业热点新闻,提取核心观点并整理为创作素材”,快速获取内容灵感;还可自动上传文章至多个平台,同步更新账号内容。

  3. 科研与调研:科研人员可通过指令“采集学术数据库中相关领域的论文标题、摘要与关键词,整理为文献综述表格”,高效完成文献调研;学生可自动收集课程相关资料,辅助作业与论文写作。

(四)二次开发与定制化场景

  1. 定制化自动化工具:开发者可基于项目核心逻辑,开发针对特定行业的自动化工具(如金融数据采集工具、教育平台自动答题工具),满足垂直领域需求。

  2. 智能助手集成:可将工具集成到个人AI助手(如自定义聊天机器人)中,实现“语音指令→文本转换→浏览器自动化”的全流程,打造专属智能办公助手。

  3. 企业系统对接:可与企业现有CRM、ERP系统对接,实现数据自动同步(如将网页客户咨询信息自动录入CRM系统),优化业务流程闭环。

Computer Use Preview:谷歌开源的AI浏览器自动化工具,自然语言掌控网页操作

五、使用方法

(一)前期准备

  1. 环境要求:确保本地安装Python 3.8及以上版本,兼容Windows、macOS、Ubuntu等主流操作系统。

  2. 仓库克隆:通过Git命令克隆项目代码到本地,或直接从GitHub下载源码压缩包。

    git clone https://github.com/google-gemini/computer-use-preview.git
  3. 进入项目目录:

    cd computer-use-preview
  4. 依赖安装:执行以下命令安装项目所需的所有依赖包:

    pip install -r requirements.txt
  5. 浏览器依赖安装(本地环境):若使用本地Playwright环境,需安装对应浏览器依赖:

    playwright install

    该命令会自动安装Chrome、Firefox、Safari等主流浏览器的自动化版本,无需手动下载。

(二)环境变量配置

项目需配置AI服务与浏览器环境相关的环境变量,不同使用场景配置方式不同,具体如下:

配置类型 所需环境变量 配置说明 适用场景
Gemini开发者API GEMINI_API_KEY 访问Google AI Studio获取API密钥,作为环境变量添加 个人用户、小型团队、功能测试
Vertex AI USE_VERTEXAI=true、VERTEXAI_PROJECT=项目ID、VERTEXAI_LOCATION=区域(如us-central1) 登录Google Cloud创建项目,获取项目ID与区域信息 企业级部署、大规模使用
本地Playwright环境 无额外变量 依赖安装完成后自动生效 本地使用、数据隐私要求高
Browserbase云环境 BROWSERBASE_API_KEY、BROWSERBASE_PROJECT_ID 登录Browserbase官网创建项目,获取API密钥与项目ID 云端部署、远程执行、多设备同步

环境变量配置方法(以Windows为例):

  1. 右键“此电脑”→“属性”→“高级系统设置”→“环境变量”;

  2. 在“系统变量”中点击“新建”,输入变量名(如GEMINI_API_KEY)与对应值;

  3. 配置完成后重启命令行工具,确保变量生效。

(三)执行自动化任务

项目的核心执行入口为main.py文件,通过命令行传入参数即可启动任务,基本语法如下:

python main.py --query "你的自然语言任务指令" --env="运行环境"

参数说明

  • --query:必填参数,用于输入任务描述,需清晰、完整地表达需求。例如:

    • 简单任务:"打开谷歌搜索'开源AI工具'并显示前3条结果"

    • 复杂任务:"访问京东官网,搜索'笔记本电脑',筛选价格5000-8000元、好评率95%以上的产品,提取前10名的名称、价格、好评数,保存为Excel文件到桌面"

  • --env:可选参数,指定运行环境,取值为playwright(本地环境)或browserbase(云环境),默认值为playwright

示例演示

  1. 本地环境执行简单搜索任务:

python main.py --query "Open Google and type 'Hello World' into the search bar" --env="playwright"

执行后,本地Chrome浏览器会自动启动,导航到谷歌首页,在搜索框中输入“Hello World”并显示搜索结果,命令行会实时输出执行日志与推理摘要。

  1. 云环境执行数据采集任务:

python main.py --query "访问知乎热榜,提取前5条热榜的标题、作者与点赞数,保存为CSV文件" --env="browserbase"

执行后,任务会在Browserbase云浏览器中运行,无需本地启动浏览器,执行结果文件会保存到项目指定目录。

(四)结果查看与后续操作

  1. 实时日志:任务执行过程中,命令行会输出每一步的操作描述(如“点击搜索框”“输入文本”)、推理摘要(如“已成功定位搜索框,下一步输入关键词”)以及执行状态(成功/失败)。

  2. 结果文件:若任务包含数据保存需求(如Excel、CSV、截图),文件会默认保存到项目根目录的output文件夹中,用户可直接打开查看或进一步处理。

  3. 任务中断与调整:若执行过程中发现任务不符合预期,可在命令行中按Ctrl+C中断执行,修改--query参数后重新运行。

六、常见问题解答

(一)非技术人员能否快速上手?

完全可以。项目的核心设计理念就是“零代码门槛”,无需了解编程知识或网页技术,只需用自然语言清晰描述任务需求即可。建议初次使用时从简单任务(如搜索、单页面数据提取)开始尝试,熟悉后再逐步推进到复杂任务。若遇到指令解析不准确的情况,可适当细化描述(如明确按钮位置、筛选条件)。

(二)工具支持哪些浏览器和操作系统?

  • 浏览器支持:本地环境(Playwright)支持Chrome、Firefox、Safari、Edge等所有主流浏览器;云环境(Browserbase)无需本地安装浏览器,支持云端Chrome浏览器。

  • 操作系统支持:兼容Windows 10+、macOS 11+、Ubuntu 20.04+等,只要能运行Python 3.8及以上版本即可使用。

(三)执行任务时出现错误怎么办?

首先查看命令行输出的错误日志,工具会明确提示错误原因,常见问题及解决方案如下:

  1. 环境变量配置错误:提示“API Key无效”或“项目ID不存在”,需检查GEMINI_API_KEYBROWSERBASE_PROJECT_ID等配置是否正确,重新配置后重启命令行。

  2. 依赖安装失败:提示“ModuleNotFoundError”,需确保Python环境正常,执行pip install --upgrade pip更新pip后,重新运行pip install -r requirements.txt

  3. 网页元素无法识别:提示“未找到目标元素”,可优化指令描述(如“点击页面右上角的蓝色登录按钮”),或检查网页是否需要登录、存在反爬机制。

  4. 网络问题:提示“无法访问网页”,需检查网络连接是否正常,若访问境外网站需配置合规网络环境。

(四)使用过程中数据安全有保障吗?

有。工具本身不会存储、上传或泄露用户数据,数据安全性取决于所选的运行环境:

  • 本地Playwright环境:所有操作均在本地完成,网页数据、执行日志仅保存在本地设备,完全由用户掌控;

  • Browserbase云环境:数据传输遵循Browserbase的加密协议,执行结果仅返回给用户,云端不会留存敏感数据。 建议处理敏感数据(如企业内部信息、个人隐私数据)时优先选择本地环境,并启用沙盒模式。

(五)能否实现定时执行自动化任务?

项目本身未集成定时功能,但可通过系统自带的定时任务工具实现:

  • Windows:使用“任务计划程序”,设置定时执行指定的命令行脚本;

  • macOS/Linux:使用crontab命令,配置定时任务(如每天上午9点执行数据采集任务)。 开发者也可基于项目代码添加定时模块,实现更灵活的定时执行逻辑。

(六)开源项目是否提供技术支持?

项目通过GitHub仓库提供官方支持渠道:

  1. 文档支持:仓库包含详细的README.md文件,涵盖安装、配置、使用示例等基础内容;

  2. Issue反馈:用户可在GitHub仓库的“Issues”板块提交问题或建议,开发团队会定期回复;

  3. 社区交流:Gemini开发者社区、Browserbase社区中存在相关讨论,用户可交流使用经验与解决方案。 企业级用户若需专业技术支持,可通过Google Cloud或Browserbase的付费服务获取。

(七)使用过程中会产生费用吗?

项目本身作为开源工具完全免费,但使用依赖的第三方服务可能产生费用,具体如下:

  1. Gemini API:免费版提供基础调用配额(每周刷新),高频使用或复杂任务需升级至Google AI Pro($19.99/月)或Ultra($249.99/月)套餐;

  2. Browserbase云环境:免费套餐提供基础使用时长,高频使用按流量计费(约$0.05/分钟);

  3. Vertex AI:按调用次数计费(Gemini模型约$0.001/1K tokens),适合企业级大规模使用。 用户可根据自身需求选择免费服务组合(如本地环境+Gemini免费版),控制使用成本。

七、相关链接

八、总结

Computer Use Preview是谷歌开源的一款极具实用价值的AI自动化工具,它以Gemini大模型的视觉识别与推理能力为核心,将自然语言指令转化为浏览器自动化操作,彻底打破了传统自动化工具的技术壁垒。其零代码门槛、双环境支持、全场景操作覆盖等特点,让普通用户能轻松实现办公效率提升,也为开发者提供了灵活的二次开发框架。项目的三层架构设计、坐标归一化、截图滑动窗口等技术亮点,确保了操作的精准性与稳定性,而开源免费的特性则降低了使用与扩展成本。无论是办公族、开发者、中小企业还是科研人员,都能在其中找到适配的使用场景,实现重复性任务的自动化解放。作为一款预览级开源项目,它虽存在部分局限性(如复杂任务需细化指令、依赖Gemini API密钥),但已展现出AI驱动自动化的巨大潜力,是值得个人与企业深入探索和应用的开源利器。

打赏
THE END
作者头像
dotaai
正在和我的聊天机器人谈恋爱,它很会捧场。