BrowserAct Skills:BrowserAct团队开源的AI Agent专用浏览器自动化Skill工具集
一、BrowserAct Skills是什么
BrowserAct Skills是由新加坡ECOCREATE TECHNOLOGY PTE. LTD.旗下BrowserAct团队开源的AI Agent浏览器技能开源项目,主打为各类大模型AI智能体赋能真实浏览器操控能力,是一套模块化、可插拔的浏览器自动化Skill工具集。
项目整体拆分为两大独立可安装子组件:browser-act即时浏览器执行模块、browser-act-skill-forge技能工厂生成模块,核心解决传统AI Agent仅能读取静态文本、无法操作带登录态/反爬校验/动态渲染网页的行业痛点,让Claude Code、Cursor、OpenClaw、Gemini CLI、Codex等主流代码型、对话型AI Agent,依靠自然语言指令直接操控实体浏览器完成网页交互任务,截至2026年项目GitHub Star突破1400,内置30+平台预制技能,覆盖国内外主流网站生态。
区别于传统Puppeteer、Playwright需要人工编写代码实现自动化,BrowserAct Skills以自然语言驱动+浏览器原生会话复用+技能沉淀复用为产品内核,把复杂浏览器操作封装为标准化Skill指令,降低AI上网自动化的开发与使用门槛。
二、功能特色
2.1 两大核心模块功能
1)browser-act(即时浏览器操控引擎)
面向临时单次网页任务,充当AI Agent的“浏览器手脚”,内置50+标准化浏览器操作指令,覆盖全场景网页交互需求:
✅ 基础页面操作:打开/关闭标签页、页面跳转、元素点击、文本输入、页面滚动、悬停选择、全页/局部截图、PDF导出;
✅ 数据捕获能力:抓取XHR/Fetch异步接口、捕获HAR网络日志、结构化清洗页面数据、过滤广告/冗余DOM节点,网页原始HTML冗余信息剔除90%以上,大幅节约LLM上下文Token损耗;
✅ 会话与登录管理:复用本地Chrome原生Cookie、账号登录态、浏览器扩展配置,无需重复登录各类平台;
✅ 反爬与验证码处理:三层反检测架构绕过网站Bot拦截,自动解析滑块、图形验证码,
remote-assist远程扫码辅助登录;✅ 多标签管控:标签命名分组、自由切换标签、隔离独立浏览器会话,支持多页面并行作业。
2)browser-act-skill-forge(技能自动化生成工厂)
面向周期性重复网页任务,实现单次调试、永久复用,把跑通的网页流程封装成标准化SKILL.md技能文件:
AI自动探测目标网站可用后端API,优先调用接口抓取数据,接口失效自动降级DOM页面解析;
自动生成规范Skill配置文档与执行脚本,预制知乎、亚马逊、Google Maps、微信、Reddit等30+现成技能包;
生成后的Skill可跨设备、跨Agent分享安装,团队协作复用自动化资产,避免全员重复调试同类网页逻辑。
2.2 差异化特色亮点
三种浏览器运行模式自由切换
运行模式 适用场景 核心优势 stealth隐身模式 反爬严格、带验证码防护站点 内置浏览器指纹伪装、无头标识屏蔽、动态代理,规避Cloudflare/DataDome风控检测 chrome原生接管模式 需要已有账号登录的后台、会员站点 直接接管本机正在运行Chrome,继承全部Cookie、账号登录记录、浏览器配置 chrome-direct直连模式 快速简易本地调试 零配置启动,一键关联本地Chrome进程,启动速度优于无头环境 轻量化Token优化机制:不向大模型传入完整原始网页源码,浏览器端提前完成页面降噪、数据结构化,同页面LLM消耗Token降低91%~95%,减少大模型调用成本;
人机协同兜底方案:
remote-assist生成临时远程协助链接,手机端完成短信验证、扫码登录等人机校验步骤后,AI接续原有会话继续执行任务,中断无需重跑全流程;全生态Agent兼容:一套Skill适配Cursor、Claude全系列、OpenClaw、Gemini、VSCode Copilot等市面主流AI编程与对话Agent,无需针对不同模型二次改造代码。

三、技术细节
3.1 底层技术栈构成
主体开发语言:Python+TypeScript,基于Playwright浏览器内核做二次封装,底层调用Chromium浏览器引擎;
反检测技术:集成StealthPlugin指纹伪装库、webdriver隐藏补丁、随机UA/屏幕分辨率/设备指纹生成逻辑;
指令规范:遵循项目自研SKILL标准化协议,所有技能统一以
SKILL.md做配置说明,CLI指令兼容NPM技能管理规范;网络层:内置HAR抓包引擎、XHR请求拦截器、动态代理调度器,可按需拦截、篡改前端接口请求参数。
3.2 三层防拦截技术架构(核心技术壁垒)
环境防护层:浏览器运行环境隔离,随机化浏览器指纹、操作系统标识、画布指纹,动态轮换代理IP,从环境特征规避站点Bot识别;
执行解析层:内置轻量验证码解析引擎,自动识别滑块、字母、点选验证码,受加密JS渲染页面自动执行JS预渲染后提取内容;
人机协作层:远程协助链路基于WebSocket实现会话互通,人工完成校验后同步Cookie与Session至原有浏览器上下文,任务无缝续跑。
3.3 数据精简技术逻辑
传统AI读取网页逻辑:全量HTML→原始DOM传入LLM(冗余广告、样式、无效节点占用大量token);
BrowserAct处理逻辑:浏览器预渲染→过滤无用DOM/JS/广告→提取结构化字段+关键页面快照→清洗后精简数据传入大模型,从数据源层面控制上下文开销。
3.4 Skill Forge生成原理
Agent通过自然语言下发任务,浏览器探索页面链路,优先遍历站点开放API接口;
接口可用性校验成功则封装API调用参数,接口不可用自动切换DOM元素定位逻辑;
整合全流程步骤、异常容错规则、参数配置,自动输出
SKILL.md配置文件与可执行脚本,存入本地技能仓库,后续调用直接加载预制配置。
四、应用场景
4.1 AI编程辅助场景(核心落地场景)
开发人员借助Cursor/Claude Code实现:登录第三方开发者后台查看接口状态、抓取接口文档、自动填写平台表单、部署完成后页面验收截图、竞品官网功能巡检,AI不再局限本地代码文件,实现代码+网页全链路开发自动化。
4.2 行业数据自动化采集
电商运营:定时爬取亚马逊、京东商品价格、库存、评论数据,自动整理CSV报表;新媒体从业者:知乎、小红书榜单数据每日自动抓取、热点文章汇总;投融资人员:企业工商、投融资平台信息批量采集归档。
4.3 后台运营自动化
跨境商家:自动登录Shopify、亚马逊卖家后台,按月导出订单数据、库存报表;企业行政:登录OA、财税系统自动导出月度考勤、报税表单,替代重复人工填表操作。
4.4 前端自动化UI测试
测试工程师用自然语言下达测试用例,AI操控浏览器:校验登录正误提示、表单提交校验、页面跳转逻辑、按钮交互效果,自动全页截图生成测试报告,省去手写Playwright测试脚本成本。
4.5 个人效率自动化
日常资讯聚合:每日定时抓取指定新闻、行业资讯汇总文档;理财盯盘:定时登录券商页面抓取持仓、行情数据,价格异动自动保存页面记录。
五、使用方法
前置环境:Node.js 18+、本地安装Chrome浏览器、支持NPM包管理器,在Cursor/Claude Code/OpenClaw等AI Agent终端内执行安装指令
5.1 一键安装两大核心模块
# 安装browser-act基础浏览器操控技能 npx skills add browser-act/skills --skill browser-act # 安装Skill Forge技能生成工具 npx skills add browser-act/skills --skill browser-act-skill-forge # 拉取官方预制核心技能包 browser-act get-skills core --skill-version 2.0.0
5.2 browser-act即时任务使用示例
在AI对话窗口直接自然语言下发指令:
打开知乎首页,搜索关键词「AI Agent浏览器自动化」,抓取排名前10文章标题、作者、发布时间,保存为本地csv文件
Agent自动调用browser-act启动浏览器,完成页面打开→搜索→翻页→数据提取→文件导出全流程。
5.3 Skill Forge生成自定义技能示例
向AI发送自然语言指令:
访问B站搜索页面,完成关键词搜索、筛选播放量大于10万视频流程,将整套流程沉淀为可复用B站搜索Skill
工具自动分析B站接口与DOM,生成标准化SKILL文件,后续直接调用该技能无需重复描述操作步骤。
5.4 切换浏览器运行模式
# 启用隐身反爬模式启动浏览器 browser-act launch mode=stealth url=https://www.amazon.com # 接管本机已打开Chrome browser-act launch mode=chrome url=https://zhihu.com
六、竞品对比
选取BrowserUse、Browserbase Skills、原生Playwright三款市面主流产品做横向对比:
| 对比维度 | BrowserAct Skills | BrowserUse | Browserbase Skills | 原生Playwright |
|---|---|---|---|---|
| 产品定位 | AI Agent专用技能库,模块化可插拔 | 通用LLM视觉驱动浏览器框架 | 云端+本地双端浏览器SDK | 代码驱动传统自动化框架 |
| 使用门槛 | 自然语言指令,零代码使用,支持技能沉淀 | 自然语言,依赖视觉VLM,算力消耗偏高 | 部分功能依赖云端付费服务 | 必须手写JS/Python代码,开发门槛高 |
| 本地Chrome会话复用 | ✅完美继承Cookie、账号、扩展 | ❌仅独立无头环境 | ✅支持本地,高级会话需付费云实例 | ❌无法复用本机登录态 |
| Token优化能力 | ✅页面预处理降噪,Token节省90%+ | ❌依赖截图多模态输入,Token消耗高 | ✅基础精简,云端任务不占用本地Token | 无LLM关联,不存在Token消耗 |
| 反爬防护能力 | 三层架构+远程人工协助,免费全功能 | 基础指纹伪装,无远程协助 | 云端代理反爬,高阶能力收费 | 原生无反爬,需额外集成Stealth插件 |
| 技能沉淀复用 | ✅Skill Forge一键生成可复用技能包 | ❌无标准化技能封装机制 | ✅云端保存任务模板,本地不可导出 | ❌脚本无法自动沉淀,改版即失效 |
| 开源协议 | MIT完全开源免费 | MIT开源 | 基础开源,商用云端收费 | MIT开源 |
七、常见问题解答
Q1:安装BrowserAct Skills后,启动浏览器提示找不到Chrome怎么办?
A:优先确认本地已安装正版Chrome稳定版,若环境无本地浏览器,切换stealth隐身模式,该模式会自动下载内置Chromium内核,无需依赖本机Chrome。
Q2:目标网站开启强Cloudflare人机验证,browser-act无法自动通过怎么办?
A:指令中添加remote-assist参数,工具生成临时远程链接,使用手机打开链接完成人机验证、扫码登录,人工操作结束后关闭页面,原任务自动接续执行。
Q3:Skill Forge生成的SKILL文件可以在其他电脑、其他AI Agent上使用吗?
A:可以,SKILL.md为标准化配置文件,直接复制技能文件夹,在目标环境执行npx skills add本地引入即可,跨设备、跨Cursor/Claude等多类Agent通用。
Q4:运行任务时LLM Token消耗依旧很高,如何进一步优化?
A:优先启用Skill Forge把高频任务固化为预制技能,重复任务直接调用技能,AI仅接收最终结果不再解析全流程页面,可再降低70%以上Token开销。
Q5:BrowserAct Skills支持Windows、Mac、Linux全系统吗?
A:全平台兼容,三大操作系统均可正常安装运行,Linux无桌面环境时默认启用stealth无头模式。
Q6:能否自定义新增浏览器操作指令,拓展原生50+命令之外的功能?
A:支持,遵循项目SKILL规范编写自定义指令配置文件,放入本地skills目录即可完成自定义技能注册。
八、相关链接
项目GitHub开源主仓库:https://github.com/browser-act/skills
browser-act子模块源码地址:https://github.com/browser-act/skills/tree/main/browser-act
skill-forge子模块源码地址:https://github.com/browser-act/skills/tree/main/browser-act-skill-forge
九、总结
BrowserAct Skills作为面向AI智能体场景的轻量化开源浏览器技能工具集,依托双模块拆分设计、三层反爬防护架构与原生Chrome会话复用的核心优势,既解决了传统AI无法操作带登录、反爬防护网页的行业痛点,又依靠Skill Forge技能沉淀机制大幅降低重复自动化任务的落地成本,对比传统代码型自动化框架和同类AI浏览器工具,在使用门槛、Token优化、免费商用、技能复用四大维度形成独特产品竞争力,适配从个人开发者、测试人员到中小运营团队全场景的网页自动化需求,是当前AI Agent生态中实用性极强的浏览器赋能开源方案。
版权及免责申明:本文由@AI铺子原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/browseract-skills.html

