BrowserAct Skills:BrowserAct团队开源的AI Agent专用浏览器自动化Skill工具集

原创 发布日期:
70

一、BrowserAct Skills是什么

BrowserAct Skills是由新加坡ECOCREATE TECHNOLOGY PTE. LTD.旗下BrowserAct团队开源的AI Agent浏览器技能开源项目,主打为各类大模型AI智能体赋能真实浏览器操控能力,是一套模块化、可插拔的浏览器自动化Skill工具集。

项目整体拆分为两大独立可安装子组件:browser-act即时浏览器执行模块、browser-act-skill-forge技能工厂生成模块,核心解决传统AI Agent仅能读取静态文本、无法操作带登录态/反爬校验/动态渲染网页的行业痛点,让Claude Code、Cursor、OpenClaw、Gemini CLI、Codex等主流代码型、对话型AI Agent,依靠自然语言指令直接操控实体浏览器完成网页交互任务,截至2026年项目GitHub Star突破1400,内置30+平台预制技能,覆盖国内外主流网站生态。

区别于传统Puppeteer、Playwright需要人工编写代码实现自动化,BrowserAct Skills以自然语言驱动+浏览器原生会话复用+技能沉淀复用为产品内核,把复杂浏览器操作封装为标准化Skill指令,降低AI上网自动化的开发与使用门槛。

二、功能特色

2.1 两大核心模块功能

1)browser-act(即时浏览器操控引擎)

面向临时单次网页任务,充当AI Agent的“浏览器手脚”,内置50+标准化浏览器操作指令,覆盖全场景网页交互需求:

  • ✅ 基础页面操作:打开/关闭标签页、页面跳转、元素点击、文本输入、页面滚动、悬停选择、全页/局部截图、PDF导出;

  • ✅ 数据捕获能力:抓取XHR/Fetch异步接口、捕获HAR网络日志、结构化清洗页面数据、过滤广告/冗余DOM节点,网页原始HTML冗余信息剔除90%以上,大幅节约LLM上下文Token损耗

  • ✅ 会话与登录管理:复用本地Chrome原生Cookie、账号登录态、浏览器扩展配置,无需重复登录各类平台;

  • ✅ 反爬与验证码处理:三层反检测架构绕过网站Bot拦截,自动解析滑块、图形验证码,remote-assist远程扫码辅助登录;

  • ✅ 多标签管控:标签命名分组、自由切换标签、隔离独立浏览器会话,支持多页面并行作业。

2)browser-act-skill-forge(技能自动化生成工厂)

面向周期性重复网页任务,实现单次调试、永久复用,把跑通的网页流程封装成标准化SKILL.md技能文件:

  1. AI自动探测目标网站可用后端API,优先调用接口抓取数据,接口失效自动降级DOM页面解析;

  2. 自动生成规范Skill配置文档与执行脚本,预制知乎、亚马逊、Google Maps、微信、Reddit等30+现成技能包;

  3. 生成后的Skill可跨设备、跨Agent分享安装,团队协作复用自动化资产,避免全员重复调试同类网页逻辑。

2.2 差异化特色亮点

  1. 三种浏览器运行模式自由切换

    运行模式 适用场景 核心优势
    stealth隐身模式 反爬严格、带验证码防护站点 内置浏览器指纹伪装、无头标识屏蔽、动态代理,规避Cloudflare/DataDome风控检测
    chrome原生接管模式 需要已有账号登录的后台、会员站点 直接接管本机正在运行Chrome,继承全部Cookie、账号登录记录、浏览器配置
    chrome-direct直连模式 快速简易本地调试 零配置启动,一键关联本地Chrome进程,启动速度优于无头环境
  2. 轻量化Token优化机制:不向大模型传入完整原始网页源码,浏览器端提前完成页面降噪、数据结构化,同页面LLM消耗Token降低91%~95%,减少大模型调用成本;

  3. 人机协同兜底方案remote-assist生成临时远程协助链接,手机端完成短信验证、扫码登录等人机校验步骤后,AI接续原有会话继续执行任务,中断无需重跑全流程;

  4. 全生态Agent兼容:一套Skill适配Cursor、Claude全系列、OpenClaw、Gemini、VSCode Copilot等市面主流AI编程与对话Agent,无需针对不同模型二次改造代码。

BrowserAct Skills:BrowserAct团队开源的AI Agent专用浏览器自动化Skill工具集

三、技术细节

3.1 底层技术栈构成

  • 主体开发语言:Python+TypeScript,基于Playwright浏览器内核做二次封装,底层调用Chromium浏览器引擎;

  • 反检测技术:集成StealthPlugin指纹伪装库、webdriver隐藏补丁、随机UA/屏幕分辨率/设备指纹生成逻辑;

  • 指令规范:遵循项目自研SKILL标准化协议,所有技能统一以SKILL.md做配置说明,CLI指令兼容NPM技能管理规范;

  • 网络层:内置HAR抓包引擎、XHR请求拦截器、动态代理调度器,可按需拦截、篡改前端接口请求参数。

3.2 三层防拦截技术架构(核心技术壁垒)

  1. 环境防护层:浏览器运行环境隔离,随机化浏览器指纹、操作系统标识、画布指纹,动态轮换代理IP,从环境特征规避站点Bot识别;

  2. 执行解析层:内置轻量验证码解析引擎,自动识别滑块、字母、点选验证码,受加密JS渲染页面自动执行JS预渲染后提取内容;

  3. 人机协作层:远程协助链路基于WebSocket实现会话互通,人工完成校验后同步Cookie与Session至原有浏览器上下文,任务无缝续跑。

3.3 数据精简技术逻辑

传统AI读取网页逻辑:全量HTML→原始DOM传入LLM(冗余广告、样式、无效节点占用大量token);
BrowserAct处理逻辑:浏览器预渲染→过滤无用DOM/JS/广告→提取结构化字段+关键页面快照→清洗后精简数据传入大模型,从数据源层面控制上下文开销。

3.4 Skill Forge生成原理

  1. Agent通过自然语言下发任务,浏览器探索页面链路,优先遍历站点开放API接口;

  2. 接口可用性校验成功则封装API调用参数,接口不可用自动切换DOM元素定位逻辑;

  3. 整合全流程步骤、异常容错规则、参数配置,自动输出SKILL.md配置文件与可执行脚本,存入本地技能仓库,后续调用直接加载预制配置。

四、应用场景

4.1 AI编程辅助场景(核心落地场景)

开发人员借助Cursor/Claude Code实现:登录第三方开发者后台查看接口状态、抓取接口文档、自动填写平台表单、部署完成后页面验收截图、竞品官网功能巡检,AI不再局限本地代码文件,实现代码+网页全链路开发自动化。

4.2 行业数据自动化采集

电商运营:定时爬取亚马逊、京东商品价格、库存、评论数据,自动整理CSV报表;新媒体从业者:知乎、小红书榜单数据每日自动抓取、热点文章汇总;投融资人员:企业工商、投融资平台信息批量采集归档。

4.3 后台运营自动化

跨境商家:自动登录Shopify、亚马逊卖家后台,按月导出订单数据、库存报表;企业行政:登录OA、财税系统自动导出月度考勤、报税表单,替代重复人工填表操作。

4.4 前端自动化UI测试

测试工程师用自然语言下达测试用例,AI操控浏览器:校验登录正误提示、表单提交校验、页面跳转逻辑、按钮交互效果,自动全页截图生成测试报告,省去手写Playwright测试脚本成本。

4.5 个人效率自动化

日常资讯聚合:每日定时抓取指定新闻、行业资讯汇总文档;理财盯盘:定时登录券商页面抓取持仓、行情数据,价格异动自动保存页面记录。

五、使用方法

前置环境:Node.js 18+、本地安装Chrome浏览器、支持NPM包管理器,在Cursor/Claude Code/OpenClaw等AI Agent终端内执行安装指令

5.1 一键安装两大核心模块

# 安装browser-act基础浏览器操控技能
npx skills add browser-act/skills --skill browser-act
# 安装Skill Forge技能生成工具
npx skills add browser-act/skills --skill browser-act-skill-forge
# 拉取官方预制核心技能包
browser-act get-skills core --skill-version 2.0.0

5.2 browser-act即时任务使用示例

在AI对话窗口直接自然语言下发指令:

打开知乎首页,搜索关键词「AI Agent浏览器自动化」,抓取排名前10文章标题、作者、发布时间,保存为本地csv文件

Agent自动调用browser-act启动浏览器,完成页面打开→搜索→翻页→数据提取→文件导出全流程。

5.3 Skill Forge生成自定义技能示例

向AI发送自然语言指令:

访问B站搜索页面,完成关键词搜索、筛选播放量大于10万视频流程,将整套流程沉淀为可复用B站搜索Skill

工具自动分析B站接口与DOM,生成标准化SKILL文件,后续直接调用该技能无需重复描述操作步骤。

5.4 切换浏览器运行模式

# 启用隐身反爬模式启动浏览器
browser-act launch mode=stealth url=https://www.amazon.com
# 接管本机已打开Chrome
browser-act launch mode=chrome url=https://zhihu.com

六、竞品对比

选取BrowserUse、Browserbase Skills、原生Playwright三款市面主流产品做横向对比:

对比维度 BrowserAct SkillsBrowserUse Browserbase Skills 原生Playwright
产品定位 AI Agent专用技能库,模块化可插拔 通用LLM视觉驱动浏览器框架 云端+本地双端浏览器SDK 代码驱动传统自动化框架
使用门槛 自然语言指令,零代码使用,支持技能沉淀 自然语言,依赖视觉VLM,算力消耗偏高 部分功能依赖云端付费服务 必须手写JS/Python代码,开发门槛高
本地Chrome会话复用 ✅完美继承Cookie、账号、扩展 ❌仅独立无头环境 ✅支持本地,高级会话需付费云实例 ❌无法复用本机登录态
Token优化能力 ✅页面预处理降噪,Token节省90%+ ❌依赖截图多模态输入,Token消耗高 ✅基础精简,云端任务不占用本地Token 无LLM关联,不存在Token消耗
反爬防护能力 三层架构+远程人工协助,免费全功能 基础指纹伪装,无远程协助 云端代理反爬,高阶能力收费 原生无反爬,需额外集成Stealth插件
技能沉淀复用 ✅Skill Forge一键生成可复用技能包 ❌无标准化技能封装机制 ✅云端保存任务模板,本地不可导出 ❌脚本无法自动沉淀,改版即失效
开源协议 MIT完全开源免费 MIT开源 基础开源,商用云端收费 MIT开源

七、常见问题解答

Q1:安装BrowserAct Skills后,启动浏览器提示找不到Chrome怎么办?

A:优先确认本地已安装正版Chrome稳定版,若环境无本地浏览器,切换stealth隐身模式,该模式会自动下载内置Chromium内核,无需依赖本机Chrome。

Q2:目标网站开启强Cloudflare人机验证,browser-act无法自动通过怎么办?

A:指令中添加remote-assist参数,工具生成临时远程链接,使用手机打开链接完成人机验证、扫码登录,人工操作结束后关闭页面,原任务自动接续执行。

Q3:Skill Forge生成的SKILL文件可以在其他电脑、其他AI Agent上使用吗?

A:可以,SKILL.md为标准化配置文件,直接复制技能文件夹,在目标环境执行npx skills add本地引入即可,跨设备、跨Cursor/Claude等多类Agent通用。

Q4:运行任务时LLM Token消耗依旧很高,如何进一步优化?

A:优先启用Skill Forge把高频任务固化为预制技能,重复任务直接调用技能,AI仅接收最终结果不再解析全流程页面,可再降低70%以上Token开销。

Q5:BrowserAct Skills支持Windows、Mac、Linux全系统吗?

A:全平台兼容,三大操作系统均可正常安装运行,Linux无桌面环境时默认启用stealth无头模式。

Q6:能否自定义新增浏览器操作指令,拓展原生50+命令之外的功能?

A:支持,遵循项目SKILL规范编写自定义指令配置文件,放入本地skills目录即可完成自定义技能注册。

八、相关链接

  1. 项目GitHub开源主仓库:https://github.com/browser-act/skills

  2. browser-act子模块源码地址:https://github.com/browser-act/skills/tree/main/browser-act

  3. skill-forge子模块源码地址:https://github.com/browser-act/skills/tree/main/browser-act-skill-forge

九、总结

BrowserAct Skills作为面向AI智能体场景的轻量化开源浏览器技能工具集,依托双模块拆分设计、三层反爬防护架构与原生Chrome会话复用的核心优势,既解决了传统AI无法操作带登录、反爬防护网页的行业痛点,又依靠Skill Forge技能沉淀机制大幅降低重复自动化任务的落地成本,对比传统代码型自动化框架和同类AI浏览器工具,在使用门槛、Token优化、免费商用、技能复用四大维度形成独特产品竞争力,适配从个人开发者、测试人员到中小运营团队全场景的网页自动化需求,是当前AI Agent生态中实用性极强的浏览器赋能开源方案。

打赏
THE END
作者头像
AI铺子
关注ai行业发展,专注ai工具推荐