2025年12月5日星期五

GitHub 上狂揽 2 万 Star!这个浏览器 AI 自动化项目火了。

逛 GitHub 的时候,发现一个叫 skyvern 的开源项目登上了热榜。

这是一个 AI 控制浏览器自动化工作流的项目。

现在已经在 GitHub 上斩获近 2 万的 Star 了。

图片

01

开源项目简介

在传统的网页自动化 RPA 开发中,最让人头疼的莫过于页面结构变了

如果你写过 Selenium 或 Puppeteer 脚本,一定经历过因为网站开发者修改了一个 CSS 类名或调整了按钮位置,导致整套脚本报错失效的崩溃瞬间。

为了维护这些脚本,开发者往往需要花费大量时间去修补 XPath 或 CSS 选择器。Skyvern 这个开源项目试图用大模型和计算机视觉彻底解决这个问题。

它不再依赖死板的代码选择器,而是像人类一样看懂网页,从而进行自动化操作。

图片

堪称Token 消耗神器 

下面这张图就是开源项目 Skyvern 的核心原理:

拿 AI 在亚马逊(Amazon.com)上完成购物任务的详细工作流举例。

整个系统分为三个主要模块:Planner(规划器)Task(任务执行器)  Validator(验证器)

本质上就是 规划-执行-验证的 AI 架构:

图片

用户输入:去亚马逊网站买一台 iPhone 16,一个手机壳和一个屏幕保护膜。

  • 左侧的 Planner 模块负责将上述复杂的宏观指令拆解成一步步可执行的子步骤。

  • 中间的 Task 模块负责具体执行 Planner 分配的某一个步骤。

  • 左下角的 Validator 模块是一个反馈机制,用于确认任务是否真的完成了。

Validator 的存在确保了每一步都确实完成了才进行下一步,防止 AI 在网页加载失败或操作失误时继续盲目执行。

比如下面这个视频,就是用这个开源项目自动化的获取 Hacker News 上的热门帖子:

你也可以自己去 skyvern 部署的网站体验一下。可以通过界面看到浏览器自动操作的实时画面,整体感觉是,很慢很慢。。。

体验地址:https://app.skyvern.com/workflows
图片

02

如何使用

Skyvern 提供了 Python 库和基于 Docker 的独立服务两种主要使用方式。为了体验完整功能,包括 UI 界面,推荐使用 Docker 部署。

① 部署环境:你需要安装 Docker 和 Docker Desktop。

② 快速启动(Docker Compose)

克隆开源项目并启动服务:

# 克隆代码git clone https://github.com/Skyvern-AI/skyvern.gitcd skyvern# 初始化配置文件(会生成 .env 文件)# 此时需要根据提示填入你的 LLM API Key(如 OpenAI 或 Claude 的 Key)./run_skyvern.sh init# 启动服务docker compose up -d

启动成功后,访问浏览器 `http://localhost:8080` 即可看到可视化的操作界面。

③ 通过 Python 代码调用

如果你希望将它集成到自己的代码中,可以安装 SDK:

pip install skyvern

简单的代码示例:

from skyvern import Skyvern# 初始化skyvern = Skyvern(api_key="你的_SKYVERN_API_KEY"# 注:如果是本地部署,需配置 base_url 指向本地服务# 下达任务task = await skyvern.run_task( prompt="去 Hacker News 网站找到今天热度最高的帖子,并返回标题和链接")print(task)

在运行过程中,你甚至可以通过 UI 界面看到浏览器自动操作的实时画面,非常适合调试和监控。

开源地址:https://github.com/Skyvern-AI/skyvern

03

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

没有评论:

发表评论

挖到 5 个很哇塞的 AI 开源项目,快来瞧瞧。

01 Nano Banana PPT Banana-slides   是基于 N ano Banana Pro 模型 开源的 AI PPT 生成应用, 解决传统 AI PPT 工具模板僵化、设计感差和素材质量低的问题。 一句话生成 PPT :从一个简单的想法快速得到大纲、页面...