BrowserAct Skills：BrowserAct团队开源的AI Agent专用浏览器自动化Skill工具集

AI新闻 AI铺子 1个月前

443

一、BrowserAct Skills是什么

BrowserAct Skills是由新加坡ECOCREATE TECHNOLOGY PTE. LTD.旗下BrowserAct团队开源的AI Agent浏览器技能开源项目，主打为各类大模型AI智能体赋能真实浏览器操控能力，是一套模块化、可插拔的浏览器自动化Skill工具集。

项目整体拆分为两大独立可安装子组件：browser-act即时浏览器执行模块、browser-act-skill-forge技能工厂生成模块，核心解决传统AI Agent仅能读取静态文本、无法操作带登录态/反爬校验/动态渲染网页的行业痛点，让Claude Code、Cursor、OpenClaw、Gemini CLI、Codex等主流代码型、对话型AI Agent，依靠自然语言指令直接操控实体浏览器完成网页交互任务，截至2026年项目GitHub Star突破1400，内置30+平台预制技能，覆盖国内外主流网站生态。

区别于传统Puppeteer、Playwright需要人工编写代码实现自动化，BrowserAct Skills以自然语言驱动+浏览器原生会话复用+技能沉淀复用为产品内核，把复杂浏览器操作封装为标准化Skill指令，降低AI上网自动化的开发与使用门槛。

二、功能特色

2.1 两大核心模块功能

1）browser-act（即时浏览器操控引擎）

面向临时单次网页任务，充当AI Agent的“浏览器手脚”，内置50+标准化浏览器操作指令，覆盖全场景网页交互需求：

✅ 基础页面操作：打开/关闭标签页、页面跳转、元素点击、文本输入、页面滚动、悬停选择、全页/局部截图、PDF导出；
✅ 数据捕获能力：抓取XHR/Fetch异步接口、捕获HAR网络日志、结构化清洗页面数据、过滤广告/冗余DOM节点，网页原始HTML冗余信息剔除90%以上，大幅节约LLM上下文Token损耗；
✅ 会话与登录管理：复用本地Chrome原生Cookie、账号登录态、浏览器扩展配置，无需重复登录各类平台；
✅ 反爬与验证码处理：三层反检测架构绕过网站Bot拦截，自动解析滑块、图形验证码，remote-assist远程扫码辅助登录；
✅ 多标签管控：标签命名分组、自由切换标签、隔离独立浏览器会话，支持多页面并行作业。

2）browser-act-skill-forge（技能自动化生成工厂）

面向周期性重复网页任务，实现单次调试、永久复用，把跑通的网页流程封装成标准化SKILL.md技能文件：

AI自动探测目标网站可用后端API，优先调用接口抓取数据，接口失效自动降级DOM页面解析；
自动生成规范Skill配置文档与执行脚本，预制知乎、亚马逊、Google Maps、微信、Reddit等30+现成技能包；
生成后的Skill可跨设备、跨Agent分享安装，团队协作复用自动化资产，避免全员重复调试同类网页逻辑。

2.2 差异化特色亮点

三种浏览器运行模式自由切换

运行模式	适用场景	核心优势
stealth隐身模式	反爬严格、带验证码防护站点	内置浏览器指纹伪装、无头标识屏蔽、动态代理，规避Cloudflare/DataDome风控检测
chrome原生接管模式	需要已有账号登录的后台、会员站点	直接接管本机正在运行Chrome，继承全部Cookie、账号登录记录、浏览器配置
chrome-direct直连模式	快速简易本地调试	零配置启动，一键关联本地Chrome进程，启动速度优于无头环境

轻量化Token优化机制：不向大模型传入完整原始网页源码，浏览器端提前完成页面降噪、数据结构化，同页面LLM消耗Token降低91%~95%，减少大模型调用成本；
人机协同兜底方案：remote-assist生成临时远程协助链接，手机端完成短信验证、扫码登录等人机校验步骤后，AI接续原有会话继续执行任务，中断无需重跑全流程；
全生态Agent兼容：一套Skill适配Cursor、Claude全系列、OpenClaw、Gemini、VSCode Copilot等市面主流AI编程与对话Agent，无需针对不同模型二次改造代码。

BrowserAct Skills：BrowserAct团队开源的AI Agent专用浏览器自动化Skill工具集

三、技术细节

3.1 底层技术栈构成

主体开发语言：Python+TypeScript，基于Playwright浏览器内核做二次封装，底层调用Chromium浏览器引擎；
反检测技术：集成StealthPlugin指纹伪装库、webdriver隐藏补丁、随机UA/屏幕分辨率/设备指纹生成逻辑；
指令规范：遵循项目自研SKILL标准化协议，所有技能统一以SKILL.md做配置说明，CLI指令兼容NPM技能管理规范；
网络层：内置HAR抓包引擎、XHR请求拦截器、动态代理调度器，可按需拦截、篡改前端接口请求参数。

3.2 三层防拦截技术架构（核心技术壁垒）

环境防护层：浏览器运行环境隔离，随机化浏览器指纹、操作系统标识、画布指纹，动态轮换代理IP，从环境特征规避站点Bot识别；
执行解析层：内置轻量验证码解析引擎，自动识别滑块、字母、点选验证码，受加密JS渲染页面自动执行JS预渲染后提取内容；
人机协作层：远程协助链路基于WebSocket实现会话互通，人工完成校验后同步Cookie与Session至原有浏览器上下文，任务无缝续跑。

3.3 数据精简技术逻辑

传统AI读取网页逻辑：全量HTML→原始DOM传入LLM（冗余广告、样式、无效节点占用大量token）；
BrowserAct处理逻辑：浏览器预渲染→过滤无用DOM/JS/广告→提取结构化字段+关键页面快照→清洗后精简数据传入大模型，从数据源层面控制上下文开销。

3.4 Skill Forge生成原理

Agent通过自然语言下发任务，浏览器探索页面链路，优先遍历站点开放API接口；
接口可用性校验成功则封装API调用参数，接口不可用自动切换DOM元素定位逻辑；
整合全流程步骤、异常容错规则、参数配置，自动输出SKILL.md配置文件与可执行脚本，存入本地技能仓库，后续调用直接加载预制配置。

四、应用场景

4.1 AI编程辅助场景（核心落地场景）

开发人员借助Cursor/Claude Code实现：登录第三方开发者后台查看接口状态、抓取接口文档、自动填写平台表单、部署完成后页面验收截图、竞品官网功能巡检，AI不再局限本地代码文件，实现代码+网页全链路开发自动化。

4.2 行业数据自动化采集

电商运营：定时爬取亚马逊、京东商品价格、库存、评论数据，自动整理CSV报表；新媒体从业者：知乎、小红书榜单数据每日自动抓取、热点文章汇总；投融资人员：企业工商、投融资平台信息批量采集归档。

4.3 后台运营自动化

跨境商家：自动登录Shopify、亚马逊卖家后台，按月导出订单数据、库存报表；企业行政：登录OA、财税系统自动导出月度考勤、报税表单，替代重复人工填表操作。

4.4 前端自动化UI测试

测试工程师用自然语言下达测试用例，AI操控浏览器：校验登录正误提示、表单提交校验、页面跳转逻辑、按钮交互效果，自动全页截图生成测试报告，省去手写Playwright测试脚本成本。

4.5 个人效率自动化

日常资讯聚合：每日定时抓取指定新闻、行业资讯汇总文档；理财盯盘：定时登录券商页面抓取持仓、行情数据，价格异动自动保存页面记录。

五、使用方法

前置环境：Node.js 18+、本地安装Chrome浏览器、支持NPM包管理器，在Cursor/Claude Code/OpenClaw等AI Agent终端内执行安装指令

5.1 一键安装两大核心模块

# 安装browser-act基础浏览器操控技能
npx skills add browser-act/skills --skill browser-act
# 安装Skill Forge技能生成工具
npx skills add browser-act/skills --skill browser-act-skill-forge
# 拉取官方预制核心技能包
browser-act get-skills core --skill-version 2.0.0

5.2 browser-act即时任务使用示例

在AI对话窗口直接自然语言下发指令：

打开知乎首页，搜索关键词「AI Agent浏览器自动化」，抓取排名前10文章标题、作者、发布时间，保存为本地csv文件

Agent自动调用browser-act启动浏览器，完成页面打开→搜索→翻页→数据提取→文件导出全流程。

5.3 Skill Forge生成自定义技能示例

向AI发送自然语言指令：

访问B站搜索页面，完成关键词搜索、筛选播放量大于10万视频流程，将整套流程沉淀为可复用B站搜索Skill

工具自动分析B站接口与DOM，生成标准化SKILL文件，后续直接调用该技能无需重复描述操作步骤。

5.4 切换浏览器运行模式

# 启用隐身反爬模式启动浏览器
browser-act launch mode=stealth url=https://www.amazon.com
# 接管本机已打开Chrome
browser-act launch mode=chrome url=https://zhihu.com

六、竞品对比

选取BrowserUse、Browserbase Skills、原生Playwright三款市面主流产品做横向对比：

对比维度	BrowserAct Skills	BrowserUse	Browserbase Skills	原生Playwright
产品定位	AI Agent专用技能库，模块化可插拔	通用LLM视觉驱动浏览器框架	云端+本地双端浏览器SDK	代码驱动传统自动化框架
使用门槛	自然语言指令，零代码使用，支持技能沉淀	自然语言，依赖视觉VLM，算力消耗偏高	部分功能依赖云端付费服务	必须手写JS/Python代码，开发门槛高
本地Chrome会话复用	✅完美继承Cookie、账号、扩展	❌仅独立无头环境	✅支持本地，高级会话需付费云实例	❌无法复用本机登录态
Token优化能力	✅页面预处理降噪，Token节省90%+	❌依赖截图多模态输入，Token消耗高	✅基础精简，云端任务不占用本地Token	无LLM关联，不存在Token消耗
反爬防护能力	三层架构+远程人工协助，免费全功能	基础指纹伪装，无远程协助	云端代理反爬，高阶能力收费	原生无反爬，需额外集成Stealth插件
技能沉淀复用	✅Skill Forge一键生成可复用技能包	❌无标准化技能封装机制	✅云端保存任务模板，本地不可导出	❌脚本无法自动沉淀，改版即失效
开源协议	MIT完全开源免费	MIT开源	基础开源，商用云端收费	MIT开源

七、常见问题解答

Q1：安装BrowserAct Skills后，启动浏览器提示找不到Chrome怎么办？

A：优先确认本地已安装正版Chrome稳定版，若环境无本地浏览器，切换stealth隐身模式，该模式会自动下载内置Chromium内核，无需依赖本机Chrome。

Q2：目标网站开启强Cloudflare人机验证，browser-act无法自动通过怎么办？

A：指令中添加remote-assist参数，工具生成临时远程链接，使用手机打开链接完成人机验证、扫码登录，人工操作结束后关闭页面，原任务自动接续执行。

Q3：Skill Forge生成的SKILL文件可以在其他电脑、其他AI Agent上使用吗？

A：可以，SKILL.md为标准化配置文件，直接复制技能文件夹，在目标环境执行npx skills add本地引入即可，跨设备、跨Cursor/Claude等多类Agent通用。

Q4：运行任务时LLM Token消耗依旧很高，如何进一步优化？

A：优先启用Skill Forge把高频任务固化为预制技能，重复任务直接调用技能，AI仅接收最终结果不再解析全流程页面，可再降低70%以上Token开销。

Q5：BrowserAct Skills支持Windows、Mac、Linux全系统吗？

A：全平台兼容，三大操作系统均可正常安装运行，Linux无桌面环境时默认启用stealth无头模式。

Q6：能否自定义新增浏览器操作指令，拓展原生50+命令之外的功能？

A：支持，遵循项目SKILL规范编写自定义指令配置文件，放入本地skills目录即可完成自定义技能注册。

八、相关链接

项目GitHub开源主仓库：https://github.com/browser-act/skills
browser-act子模块源码地址：https://github.com/browser-act/skills/tree/main/browser-act
skill-forge子模块源码地址：https://github.com/browser-act/skills/tree/main/browser-act-skill-forge

九、总结

BrowserAct Skills作为面向AI智能体场景的轻量化开源浏览器技能工具集，依托双模块拆分设计、三层反爬防护架构与原生Chrome会话复用的核心优势，既解决了传统AI无法操作带登录、反爬防护网页的行业痛点，又依靠Skill Forge技能沉淀机制大幅降低重复自动化任务的落地成本，对比传统代码型自动化框架和同类AI浏览器工具，在使用门槛、Token优化、免费商用、技能复用四大维度形成独特产品竞争力，适配从个人开发者、测试人员到中小运营团队全场景的网页自动化需求，是当前AI Agent生态中实用性极强的浏览器赋能开源方案。

打赏

版权及免责申明：本文由@AI铺子原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/browseract-skills.html

THE END

AI铺子

关注ai行业发展，专注ai工具推荐

+ 关注

BrowserAct Skills：BrowserAct团队开源的AI Agent专用浏览器自动化Skill工具集

文章目录

一、BrowserAct Skills是什么

二、功能特色

2.1 两大核心模块功能

1）browser-act（即时浏览器操控引擎）

2）browser-act-skill-forge（技能自动化生成工厂）

2.2 差异化特色亮点

三、技术细节

3.1 底层技术栈构成

3.2 三层防拦截技术架构（核心技术壁垒）

3.3 数据精简技术逻辑

3.4 Skill Forge生成原理

四、应用场景

4.1 AI编程辅助场景（核心落地场景）

4.2 行业数据自动化采集

4.3 后台运营自动化

4.4 前端自动化UI测试

4.5 个人效率自动化

五、使用方法

5.1 一键安装两大核心模块

5.2 browser-act即时任务使用示例

5.3 Skill Forge生成自定义技能示例

5.4 切换浏览器运行模式

六、竞品对比

七、常见问题解答

八、相关链接

九、总结

相关文章