本文介绍BrowserAct开源项目,包含browser-act CLI和browser-act-skill-forge两个免费Skill,可替代Playwright实现浏览器自动化。适合需要绕过网站反爬、处理验证码、管理多账号Session、人机协作等场景。核心亮点包括Stealth反检测浏览器、动态代理IP轮换、自动剥离90%无效HTML。免费使用,需配置API Key。
Tags:
之前让 Agent 来搞浏览器自动化,我都是用 Playwright 或者谷歌那个开源的 Chrome Dev Tools。
一些简单的任务还好,但是用多了就会发现:
真实互联网里的场景其实是很复杂。Playwright 这种基础框架对于很多真实场景并没有专门优化。
比如扫码登录,需要 AI 停下来等人扫码登录,账号的 Session 保持、多账号等等。
还有各种弹出来的机器人验证弹窗,都挺麻烦的。
Playwright 这种框架本来就不是为在真实互联网环境中稳定运行设计的。
想用的顺手,缺一层专门解决反检测、验证码、Session 管理、人机协作的基础设施。
最近在 GitHub 上发现了一个叫 BrowserAct 的开源项目,专门干这件事。
用起来挺爽的。推荐给大家。
01
开源项目简介
BrowserAct 是面向 AI Agent 的浏览器自动化 CLI。
它让 Agent 控制真实浏览器,进入动态网页、登录态页面和受保护页面。
卡住的时候可以人机接力,多个任务可以并发跑而不互相污染,多个账号可以放在独立浏览器环境里隔离运行。
这个项目最牛的就是 Stealth 浏览器(反检测)和动态代理功能了。
Stealth 浏览器:内置指纹伪装的反检测浏览器,绕过网站反爬虫机制,适合采集有防爬保护的网站。
动态代理:按地区自动轮换 IP,每次请求换一个出口,适合大规模采集或绕过地区限制。
开源地址:github.com/browser-act/skills它包含两个产品 Skill:
对于这种限制比较多的网站,使用 browser-act 就能轻松拿捏。
这就是这个开源项目的亮点,Stealth 浏览器能绕过网站反爬虫机制,适合采集有防爬保护的网站。
这里补充一下什么叫 Stealth 浏览器。
你用普通浏览器的时候,网站可以通过几十种信号判断你是不是真人。这些信号组合起来,形成一个浏览器指纹。
就像你的数字身份证,网站靠它识别你是不是真人、是不是同一个人。
Stealth 浏览器 其实就是伪装成真人浏览器的浏览器,它在每个检测维度上都做了以假乱真的伪装。
把浏览器操纵的经验沉淀成一个 Skill
我文章里面通常有很多视频,一个个上传其实很麻烦。
我就想把它自动化,我之前试过很多浏览器控制的 skill ,效果都很差。
这个 browser-act-skill-forge 就很顶,我称它为网站能力锻造器。
它可以把任何网站的操作能力封装成可复用的 Skill。
自动发现网站背后的 API 端点、请求模式,探索完成后自动生成完整的 SKILL.md + Python 脚本包
探索一次,后续可大规模复用,非常适合批量抓取。
比如,我使用 browser-act-skill-forge 这个 skill ,让它把我刚下载的视频上传到我微信公众号后台的素材库。
它会先探索,比如上传视频到素材库,点击保存前,需要勾选这个框框。
第一次探索,它经常误点后面的《公众平台视频上传服务规则》
但是学会了后,后面就会注意这一块儿了。
browser-act-skill-forge 就能能把你浏览器自动化的经验沉淀下来,下次就能走最优的路径。
效率高,且更省钱。
而且还有一个很实用的点,它自动剥离 90% 的无效 HTML,广告、追踪代码、框架噪音全砍掉,只把有意义的内容喂给 LLM。
省钱,而且 Agent 拿到的信息更干净。
02
核心能力亮点
① 三种浏览器模式支持
Stealth 浏览器:也就是隐身模式。
每次创建全新的反检测浏览器实例,带独立指纹+代理,适合突破反爬保护和多账号并行采集,需要 API Key 哦。
Chrome:复用登录态模式
启动独立 Chrome 实例并加载已有 Cookie、登录态啥的,适合操作已登录的后台或社交媒体,免去重新认证但不具备 stealth 级反检测能力
Chrome-Direct:零配置直连模式
通过 CDP 直接连接当前正在运行的 Chrome,不创建新实例,适合快速调试和人机协同,用户在浏览器里操作到一半可以让 Agent 接管继续执行。
简单选择:要突破反爬选 stealth,要复用登录态选 chrome,要操作当前浏览器选 chrome-direct。
② 突破反爬的原理
上面提到的 Stealth 浏览器模式,具备完整的反检测浏览器 + 指纹伪装 + 动态代理 + 验证码自动解决体系。
首先,环境层通过定制 Chromium 移除所有自动化痕迹,每次启动生成独立的浏览器指纹,配合动态代理轮换和 Session 隔离,让网站根本不认为你是机器人,从源头避免触发验证。
然后,执行层内置 solve-captcha 自动解决 Cloudflare/reCAPTCHA/Datadome 等验证码(仅上传验证码图片,不传 Cookie),stealth-extract 一条命令提取受保护页面的 JS 渲染后内容
最后,人机交互层通过 remote-assist 生成远程链接,让人在手机上完成扫码或短信验证等必须人工参与的步骤,操作完后 Agent 继续原会话。
③ 多任务处理也很讲究
同一账号下可以同时跑多个任务,检查消息、整理订单、生成日报、查看评论,每个任务都有自己独立的 Session 工作区,互不干扰。
比如:
用 browser-act 同时并行完成以下任务:① 看看开源项目最近的 issues 和 pr:https://github.com/Wechat-ggGitHub/Awesome-GitHub-Repo② 搜索一下这个小红书博主最近的帖子有没有更新: https://www.xiaohongshu.com/user/profile/548251dce779893bcf3f77bc③ 看看最近有哪些热门的开源项目: https://github.com/trending④ 这个频道最近 10 期的内容: https://www.youtube.com/@lexfridman
多账号场景更彻底,每个账号一个独立的浏览器环境,独立的 Cookie、Session、代理、浏览器指纹。
如果你想用这两个 Skill,可以把下面这个发给你的 Agent:
请你读取这个链接,帮我安装里面的 Skill,并测试一下能否正常运行:https://github.com/browser-act/skills
03
开箱即用的 Skill 生态
BrowserAct 已经准备好了一整套可直接部署的 Skill,覆盖 5 大场景,共 31 个:
电商(8 个):Amazon ASIN 查询、热销产品查找、Buy Box 监控、竞品分析、Listing 竞品对比、产品详情、产品搜索、评论抓取
线索获取(7 个):商家联系方式和社交链接、GitHub 项目贡献者查找、Google Maps 商家搜索、Google Maps 商家评论、Google Maps 通用接口、行业关键人雷达、社交媒体发现
搜索研究(4 个):Google 图片搜索、Google News、网页研究助手、网页搜索抓取
社交监听(3 个):Reddit 竞品分析、微信公众号搜索、知乎搜索
视频平台(9 个):YouTube 搜索、频道分析、评论提取、字幕提取、字幕批量提取、字幕分析、KOL 发现、视频详情、YouTube API
这些 Skill 都经过实战验证,装上就能用。
04
点击下方卡片,关注逛逛 GitHub
这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:
没有评论:
发表评论