Computer Use Preview：谷歌开源的AI浏览器自动化工具，自然语言掌控网页操作

原创发布日期：2026-01-05

108

一、Computer Use Preview是什么

Computer Use Preview是由Google Gemini团队开发并开源的一款AI驱动型计算机操作工具，本质上是Computer-Using Agent（CUA）模型的实用化实现。它基于Python语言开发，核心目标是通过自然语言指令，驱动浏览器或桌面应用完成一系列自动化操作，无需用户手动编写复杂脚本。

简单来说，这个工具相当于给计算机配备了一个“AI助手”——你只需用日常语言描述需求，比如“打开京东搜索笔记本电脑，筛选5000-8000元产品并提取前10名信息”，工具就能自动解析意图，通过视觉识别理解网页界面，模拟人类完成点击、输入、滚动、数据提取等操作。

作为开源项目，它采用宽松的Apache License 2.0许可证，允许个人与企业自由使用、修改、分发甚至用于商业场景，仅需保留原始版权信息。项目代码结构清晰，包含核心代理逻辑、双浏览器环境适配、测试案例等完整模块，既适合普通用户直接使用，也能满足开发者的二次开发需求。

与传统自动化工具（如Selenium、AutoHotkey）相比，Computer Use Preview的核心优势在于“AI驱动的智能适配”——它无需依赖固定的网页元素选择器，而是像人类一样“看懂”界面布局，即便网页按钮位置、表单结构发生变化，也能自动调整操作策略，大幅提升了自动化任务的稳定性与适用性。

二、功能特色

（一）自然语言交互，零代码门槛

这是项目最核心的特色之一。用户无需掌握Python、JavaScript等编程语言，也不用了解CSS选择器、XPath等技术概念，只需用自然语言完整描述任务需求，工具即可自动解析并执行。例如：

基础需求：“打开百度，搜索‘开源AI工具’并查看前5条搜索结果”
复杂需求：“访问电商平台，筛选销量Top10的无线耳机，提取产品名称、价格、好评率并保存为Excel文件” 这种交互方式彻底降低了自动化工具的使用门槛，让非技术人员也能轻松实现高效办公。

（二）双浏览器环境支持，灵活适配多场景

项目提供本地与云端两种运行环境，用户可根据数据安全性、使用场景灵活选择：

本地Playwright环境：集成微软Playwright自动化框架，支持Chrome、Firefox、Safari、Edge等主流浏览器，所有操作均在本地完成，数据不经过第三方服务器，适合对隐私安全要求较高的场景（如企业内部系统操作、敏感数据采集）。
Browserbase云浏览器环境：通过API对接Browserbase云浏览器服务，无需本地安装浏览器，支持远程执行、多设备同步，适合大规模自动化任务、无本地环境的场景（如服务器部署、多账号批量操作）。

（三）全场景网页操作覆盖，满足多样化需求

工具支持网页操作的全流程需求，从基础导航到高级数据处理均能轻松应对，具体包括：

基础操作：网页跳转、按钮点击、文本输入、下拉菜单选择、复选框勾选、表单提交；
进阶操作：页面滚动、截图捕获、文件上传/下载、Cookie管理、标签页控制；
数据处理：网页文本提取、表格数据抓取、结构化信息整理、数据格式转换（如CSV/Excel导出）；
异常处理：自动识别弹窗广告、网络延迟适配、操作失败重试，确保任务持续推进。

（四）AI视觉识别+智能推理，自适应界面变化

依托Gemini大模型的多模态能力，工具具备强大的界面理解与自适应能力：

视觉识别：通过实时截图分析网页布局，精准识别按钮、输入框、菜单等交互元素，无需依赖固定的HTML结构；
智能推理：理解多步骤任务的逻辑关联，例如“登录→搜索→筛选→导出”的流程化操作，能自主规划执行顺序；
自适应变化：当网页界面更新（如按钮位置移动、表单字段增减）时，无需修改指令，工具可自动调整操作方式，避免传统脚本“一换页面就失效”的问题。

（五）开源免费+高度可扩展，支持二次开发

作为开源项目，工具本身无任何使用费用，且代码架构灵活，支持多种扩展方式：

功能定制：开发者可基于核心代码添加自定义操作（如特定网站的专属适配、复杂数据处理算法）；
生态集成：可集成到现有系统（如CRM、办公自动化平台），实现自动化流程闭环；
社区支持：GitHub仓库提供完整的文档与测试案例，开发者可通过Issue反馈问题、参与功能优化，形成活跃的技术社区。

（六）安全可控，操作透明化

工具在设计时注重安全性与可控性，避免自动化操作带来的风险：

安全检查：通过pending_safety_checks参数对高风险操作（如支付、删除数据）进行预警，防止误操作；
操作日志：实时输出执行过程中的推理摘要与操作记录，用户可清晰查看AI的决策逻辑与每一步动作；
沙盒支持：可在隔离环境中运行，避免对本地系统或业务数据造成影响，尤其适合测试场景。

三、技术细节

（一）核心架构设计

项目采用三层架构设计，逻辑清晰且解耦性强，确保不同模块可独立扩展与维护：

智能层（BrowserAgent）：核心决策模块，位于agent.py文件中。负责接收用户自然语言指令，与Gemini模型交互，生成高层操作指令（如“点击页面右上角登录按钮”），同时维护任务上下文与执行状态，确保操作的连贯性。
抽象层（Computer接口）：定义了15个标准操作接口，涵盖鼠标点击、键盘输入、导航、截图等核心功能。任何浏览器环境（本地或云端）只需实现这些接口，即可接入工具，实现“一套核心逻辑，多环境适配”。
执行层（环境实现）：包含computers/目录下的两个子模块，分别对应本地与云端环境：

playwright/：基于Playwright框架实现本地浏览器控制，负责将AI生成的操作指令转化为具体的浏览器行为；
browserbase/：通过API对接Browserbase云服务，实现远程浏览器的控制与操作结果返回。

（二）关键技术亮点

坐标归一化技术：解决跨设备、跨分辨率适配问题。LLM模型仅识别0-1000的标准化坐标系，工具通过denormalize_x和denormalize_y函数，将标准化坐标转换为当前设备的实际像素坐标，无论屏幕尺寸如何变化，都能精准定位操作元素。
```
def denormalize_x(x: int) -> int:
  screen_width, _ = computer.screen_size()
  return int(x / 1000 * screen_width)
```
截图滑动窗口策略：避免长任务导致的上下文过载。工具仅保留最近3轮的截图数据， older截图会被删除（保留结构信息），既保证AI能获取必要的上下文，又不会因截图过多导致模型推理变慢或内存占用过高。
```
MAX_RECENT_TURN_WITH_SCREENSHOTS = 3
for i, content in enumerate(contents[:-MAX_RECENT_TURN_WITH_SCREENSHOTS]):
  if has_screenshot(content):
    remove_screenshot(content) # 保留结构，删除图片数据
```
新页面劫持机制：简化多标签页复杂场景。当操作触发新标签页打开时，工具会自动关闭新标签页，并在当前标签页中打开目标URL，将多标签场景转化为单标签操作，降低AI决策难度，提升任务执行稳定性。
视觉-动作循环机制：实现“感知-决策-执行”闭环。工具通过截图获取当前界面状态，Gemini模型结合用户指令生成操作指令，执行后再次截图反馈给模型，循环迭代直至完成任务。这种机制让工具能动态应对操作过程中的各种异常情况（如网络延迟、弹窗干扰）。

（三）AI模型与依赖支持

核心AI模型：默认对接Gemini 2.5 Computer Use专项模型（gemini-2.5-computer-use-preview-10-2025），该模型专为GUI界面交互设计，具备精准的UI元素识别与像素级动作生成能力，是实现自然语言转操作指令的核心动力。
模型适配：支持两种AI服务接入方式，满足不同用户需求：

Gemini开发者API：适合个人用户与小型团队，配置GEMINI_API_KEY即可快速接入；
Vertex AI：适合企业级用户，支持大规模部署与定制化需求，需配置VERTEXAI_PROJECT、VERTEXAI_LOCATION等环境变量。

核心依赖：项目基于Python 3.8+开发，主要依赖包括Playwright（浏览器控制）、Google AI Python Client（Gemini API对接）、Pillow（截图处理）等，所有依赖均在requirements.txt中明确列出，安装便捷。

四、应用场景

（一）办公自动化：解放重复性劳动

数据采集与整理：市场调研人员可通过指令“采集3家竞品官网的产品价格与参数，整理为对比表格”，工具自动完成网页访问、数据提取、格式整理，将原本2小时的工作缩短至15分钟以内；HR可批量采集招聘网站简历信息，自动筛选符合条件的候选人。
表单填写与申报：行政人员处理报销单、考勤表时，可通过指令“根据Excel中的员工信息，批量填写线上考勤申报表单”，工具自动识别表单字段并填充数据，避免人工录入错误；财务人员可自动提取PDF发票信息，填写税务申报表单。
信息监控与同步：运营人员可设置定时任务“每天上午10点监控行业核心网站的新闻动态，提取标题与摘要同步至工作群”，实现信息实时同步，无需人工反复查看。

（二）开发与测试：提升研发效率

自动化测试：Web开发者可通过指令“测试登录页面的用户名密码验证功能，包括正确输入、空值、错误密码三种场景”，工具自动模拟用户操作，记录响应结果与异常点，替代传统的手动测试或复杂脚本编写，将回归测试效率提升10倍以上。
接口联调与数据准备：后端开发者可通过指令“访问测试环境API文档，调用用户列表接口，提取10条测试数据并保存为JSON文件”，快速完成测试数据准备，无需手动访问网页与复制粘贴。
网页功能验证：前端开发者可通过指令“验证首页所有导航链接是否正常跳转，按钮点击是否有响应”，自动完成页面功能遍历，及时发现链接失效、按钮无响应等问题。

（三）企业与团队协作：降低运营成本

电商运营：电商卖家可通过指令“批量上架10款商品至多个电商平台，填写商品名称、价格、库存等信息”，实现多平台同步运营，节省大量重复劳动；还可自动采集竞品销量与评价，辅助定价与产品优化。
内容创作：自媒体运营者可通过指令“采集行业热点新闻，提取核心观点并整理为创作素材”，快速获取内容灵感；还可自动上传文章至多个平台，同步更新账号内容。
科研与调研：科研人员可通过指令“采集学术数据库中相关领域的论文标题、摘要与关键词，整理为文献综述表格”，高效完成文献调研；学生可自动收集课程相关资料，辅助作业与论文写作。

（四）二次开发与定制化场景

定制化自动化工具：开发者可基于项目核心逻辑，开发针对特定行业的自动化工具（如金融数据采集工具、教育平台自动答题工具），满足垂直领域需求。
智能助手集成：可将工具集成到个人AI助手（如自定义聊天机器人）中，实现“语音指令→文本转换→浏览器自动化”的全流程，打造专属智能办公助手。
企业系统对接：可与企业现有CRM、ERP系统对接，实现数据自动同步（如将网页客户咨询信息自动录入CRM系统），优化业务流程闭环。

Computer Use Preview：谷歌开源的AI浏览器自动化工具，自然语言掌控网页操作

五、使用方法

（一）前期准备

环境要求：确保本地安装Python 3.8及以上版本，兼容Windows、macOS、Ubuntu等主流操作系统。
仓库克隆：通过Git命令克隆项目代码到本地，或直接从GitHub下载源码压缩包。
```
git clone https://github.com/google-gemini/computer-use-preview.git
```
进入项目目录：
```
cd computer-use-preview
```
依赖安装：执行以下命令安装项目所需的所有依赖包：
```
pip install -r requirements.txt
```
浏览器依赖安装（本地环境）：若使用本地Playwright环境，需安装对应浏览器依赖：
```
playwright install
```
该命令会自动安装Chrome、Firefox、Safari等主流浏览器的自动化版本，无需手动下载。

（二）环境变量配置

项目需配置AI服务与浏览器环境相关的环境变量，不同使用场景配置方式不同，具体如下：

配置类型	所需环境变量	配置说明	适用场景
Gemini开发者API	GEMINI_API_KEY	访问Google AI Studio获取API密钥，作为环境变量添加	个人用户、小型团队、功能测试
Vertex AI	USE_VERTEXAI=true、VERTEXAI_PROJECT=项目ID、VERTEXAI_LOCATION=区域（如us-central1）	登录Google Cloud创建项目，获取项目ID与区域信息	企业级部署、大规模使用
本地Playwright环境	无额外变量	依赖安装完成后自动生效	本地使用、数据隐私要求高
Browserbase云环境	BROWSERBASE_API_KEY、BROWSERBASE_PROJECT_ID	登录Browserbase官网创建项目，获取API密钥与项目ID	云端部署、远程执行、多设备同步

环境变量配置方法（以Windows为例）：

右键“此电脑”→“属性”→“高级系统设置”→“环境变量”；
在“系统变量”中点击“新建”，输入变量名（如GEMINI_API_KEY）与对应值；
配置完成后重启命令行工具，确保变量生效。

（三）执行自动化任务

项目的核心执行入口为main.py文件，通过命令行传入参数即可启动任务，基本语法如下：

python main.py --query "你的自然语言任务指令" --env="运行环境"

参数说明

--query：必填参数，用于输入任务描述，需清晰、完整地表达需求。例如：

简单任务："打开谷歌搜索'开源AI工具'并显示前3条结果"
复杂任务："访问京东官网，搜索'笔记本电脑'，筛选价格5000-8000元、好评率95%以上的产品，提取前10名的名称、价格、好评数，保存为Excel文件到桌面"

--env：可选参数，指定运行环境，取值为playwright（本地环境）或browserbase（云环境），默认值为playwright。

示例演示

本地环境执行简单搜索任务：

python main.py --query "Open Google and type 'Hello World' into the search bar" --env="playwright"

执行后，本地Chrome浏览器会自动启动，导航到谷歌首页，在搜索框中输入“Hello World”并显示搜索结果，命令行会实时输出执行日志与推理摘要。

云环境执行数据采集任务：

python main.py --query "访问知乎热榜，提取前5条热榜的标题、作者与点赞数，保存为CSV文件" --env="browserbase"

执行后，任务会在Browserbase云浏览器中运行，无需本地启动浏览器，执行结果文件会保存到项目指定目录。

（四）结果查看与后续操作

实时日志：任务执行过程中，命令行会输出每一步的操作描述（如“点击搜索框”“输入文本”）、推理摘要（如“已成功定位搜索框，下一步输入关键词”）以及执行状态（成功/失败）。
结果文件：若任务包含数据保存需求（如Excel、CSV、截图），文件会默认保存到项目根目录的output文件夹中，用户可直接打开查看或进一步处理。
任务中断与调整：若执行过程中发现任务不符合预期，可在命令行中按Ctrl+C中断执行，修改--query参数后重新运行。

六、常见问题解答

（一）非技术人员能否快速上手？

完全可以。项目的核心设计理念就是“零代码门槛”，无需了解编程知识或网页技术，只需用自然语言清晰描述任务需求即可。建议初次使用时从简单任务（如搜索、单页面数据提取）开始尝试，熟悉后再逐步推进到复杂任务。若遇到指令解析不准确的情况，可适当细化描述（如明确按钮位置、筛选条件）。

（二）工具支持哪些浏览器和操作系统？

浏览器支持：本地环境（Playwright）支持Chrome、Firefox、Safari、Edge等所有主流浏览器；云环境（Browserbase）无需本地安装浏览器，支持云端Chrome浏览器。
操作系统支持：兼容Windows 10+、macOS 11+、Ubuntu 20.04+等，只要能运行Python 3.8及以上版本即可使用。

（三）执行任务时出现错误怎么办？

首先查看命令行输出的错误日志，工具会明确提示错误原因，常见问题及解决方案如下：

环境变量配置错误：提示“API Key无效”或“项目ID不存在”，需检查GEMINI_API_KEY、BROWSERBASE_PROJECT_ID等配置是否正确，重新配置后重启命令行。
依赖安装失败：提示“ModuleNotFoundError”，需确保Python环境正常，执行pip install --upgrade pip更新pip后，重新运行pip install -r requirements.txt。
网页元素无法识别：提示“未找到目标元素”，可优化指令描述（如“点击页面右上角的蓝色登录按钮”），或检查网页是否需要登录、存在反爬机制。
网络问题：提示“无法访问网页”，需检查网络连接是否正常，若访问境外网站需配置合规网络环境。

（四）使用过程中数据安全有保障吗？

有。工具本身不会存储、上传或泄露用户数据，数据安全性取决于所选的运行环境：

本地Playwright环境：所有操作均在本地完成，网页数据、执行日志仅保存在本地设备，完全由用户掌控；
Browserbase云环境：数据传输遵循Browserbase的加密协议，执行结果仅返回给用户，云端不会留存敏感数据。建议处理敏感数据（如企业内部信息、个人隐私数据）时优先选择本地环境，并启用沙盒模式。

（五）能否实现定时执行自动化任务？

项目本身未集成定时功能，但可通过系统自带的定时任务工具实现：

Windows：使用“任务计划程序”，设置定时执行指定的命令行脚本；
macOS/Linux：使用crontab命令，配置定时任务（如每天上午9点执行数据采集任务）。开发者也可基于项目代码添加定时模块，实现更灵活的定时执行逻辑。

（六）开源项目是否提供技术支持？

项目通过GitHub仓库提供官方支持渠道：

文档支持：仓库包含详细的README.md文件，涵盖安装、配置、使用示例等基础内容；
Issue反馈：用户可在GitHub仓库的“Issues”板块提交问题或建议，开发团队会定期回复；
社区交流：Gemini开发者社区、Browserbase社区中存在相关讨论，用户可交流使用经验与解决方案。企业级用户若需专业技术支持，可通过Google Cloud或Browserbase的付费服务获取。

（七）使用过程中会产生费用吗？

项目本身作为开源工具完全免费，但使用依赖的第三方服务可能产生费用，具体如下：

Gemini API：免费版提供基础调用配额（每周刷新），高频使用或复杂任务需升级至Google AI Pro（$19.99/月）或Ultra（$249.99/月）套餐；
Browserbase云环境：免费套餐提供基础使用时长，高频使用按流量计费（约$0.05/分钟）；
Vertex AI：按调用次数计费（Gemini模型约$0.001/1K tokens），适合企业级大规模使用。用户可根据自身需求选择免费服务组合（如本地环境+Gemini免费版），控制使用成本。

七、相关链接

项目GitHub仓库：https://github.com/google-gemini/computer-use-preview

八、总结

Computer Use Preview是谷歌开源的一款极具实用价值的AI自动化工具，它以Gemini大模型的视觉识别与推理能力为核心，将自然语言指令转化为浏览器自动化操作，彻底打破了传统自动化工具的技术壁垒。其零代码门槛、双环境支持、全场景操作覆盖等特点，让普通用户能轻松实现办公效率提升，也为开发者提供了灵活的二次开发框架。项目的三层架构设计、坐标归一化、截图滑动窗口等技术亮点，确保了操作的精准性与稳定性，而开源免费的特性则降低了使用与扩展成本。无论是办公族、开发者、中小企业还是科研人员，都能在其中找到适配的使用场景，实现重复性任务的自动化解放。作为一款预览级开源项目，它虽存在部分局限性（如复杂任务需细化指令、依赖Gemini API密钥），但已展现出AI驱动自动化的巨大潜力，是值得个人与企业深入探索和应用的开源利器。

网页自动化工具浏览器自动化

打赏

版权及免责申明：本文由@dotaai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/computer-use-preview.html

THE END

dotaai

正在和我的聊天机器人谈恋爱，它很会捧场。

+ 关注

Computer Use Preview：谷歌开源的AI浏览器自动化工具，自然语言掌控网页操作

文章目录

一、Computer Use Preview是什么

二、功能特色

（一）自然语言交互，零代码门槛

（二）双浏览器环境支持，灵活适配多场景

（三）全场景网页操作覆盖，满足多样化需求

（四）AI视觉识别+智能推理，自适应界面变化

（五）开源免费+高度可扩展，支持二次开发

（六）安全可控，操作透明化

三、技术细节

（一）核心架构设计

（二）关键技术亮点

（三）AI模型与依赖支持

四、应用场景

（一）办公自动化：解放重复性劳动

（二）开发与测试：提升研发效率

（三）企业与团队协作：降低运营成本

（四）二次开发与定制化场景

五、使用方法

（一）前期准备

（二）环境变量配置

（三）执行自动化任务

参数说明

示例演示

（四）结果查看与后续操作

六、常见问题解答

（一）非技术人员能否快速上手？

（二）工具支持哪些浏览器和操作系统？

（三）执行任务时出现错误怎么办？

（四）使用过程中数据安全有保障吗？

（五）能否实现定时执行自动化任务？

（六）开源项目是否提供技术支持？

（七）使用过程中会产生费用吗？

七、相关链接

八、总结

相关文章