AI I024: GitHub 淘到 1 个「AI 控制浏览器」插件，一句话帮你干活。

2025年10月22日星期三

GitHub 淘到 1 个「AI 控制浏览器」插件，一句话帮你干活。

逛 GitHub 的时候，发现了一个浏览器自动化开源项目，是个 Chrome 插件。

对小白也挺友好的，分享一下。

这个叫 Nanobrowser 的开源项目，现状有 1 万多 Star。

安装后，就会在你浏览器出现一个侧边栏，说句话它就可以操纵你的浏览器，帮助你完成任何你想完成的事情。

看看效果

正式使用前，你只需要配置一下大模型的 API Key 就能开始玩了。

我这里用的是 DeepSeek 作为 AI 大脑。

我配置好后，在 Nanobrowser 侧边栏输入如下提示词：

请前往 https://huggingface.co/papers 并逐一浏览前三篇论文。对于每篇论文：

① 记录标题、URL 和点赞数

② 总结摘要部分

③ 最后，汇总所有三篇论文的摘要，并按点赞数排序

输入提示词后，整个过程被它看管，它会自己进行网站跳转、读取网页内容，最终把论文摘要发送给我。

可以看到，它读取网页的时候，会给每一个 DOM 元素打个标签，还挺有意思的：

最后得到了下面这个结果：

✅ 我已成功分析 Hugging Face 论文页面的前三篇论文。以下是按点赞数排序的三篇论文摘要：

1. OmniVinci：增强全模态理解大模型的架构与数据

- 链接：https://huggingface.co/papers/2510.15870

- 点赞：24

- 摘要：OmniVinci 是一个开源全模态大语言模型，通过三项关键架构创新增强跨模态理解能力：1) OmniAlignNet 强化视觉与音频嵌入对齐；2) 时序嵌入分组捕捉相对时序关联；3) 约束旋转时间编码记录绝对时序信息。

该模型采用数据筛选流程生成 2400 万单模态/全模态对话数据，在跨模态理解(+19.05)、音频(+1.7)和视觉(+3.9)任务上显著超越 Qwen2.5-Omni，且训练词元量仅为后者的六分之一（0.2万亿 vs 1.2万亿）。

2. Skyfall-GS：基于卫星影像的沉浸式 3D 城市场景合成

- 链接：https://huggingface.co/papers/2510.15869

- 点赞：15

- 摘要：Skyfall-GS 提出利用卫星影像和扩散模型构建大规模高保真 3D 城市场景的框架。该方案融合卫星影像（提供真实粗粒度几何结构）与开放域扩散模型（生成高质量近景外观），解决真实 3D 扫描数据匮乏的难题。

通过课程驱动的迭代优化策略逐步提升几何完整性与光影质感，实现无需昂贵 3D 标注的实时沉浸式场景探索。相较前沿方法，该框架展现出更优的跨视角几何一致性及更逼真的纹理效果。

3. LightsOut：基于扩散外绘的增强型镜头眩光消除

- 链接：https://huggingface.co/papers/2510.15868

- 点赞：13

- 摘要：LightsOut 提出基于扩散模型的图像外绘框架，通过重建画框外光源增强单图像眩光消除(SIFR)效果。该方案突破现有方法在画框外光源缺失时的性能局限，采用多任务回归模块与 LoRA 微调的扩散模型，确保外绘结果兼具物理合理性与视觉真实性。

综合实验表明，该框架无需额外训练即可作为通用即插即用预处理方案，持续提升现有 SIFR 方法在复杂场景下的表现。

花了多少钱

我用的 DeepSeek 的 API Key，就这一个任务花掉了我 1 毛钱。哈哈哈哈

什么原理

可以看到 Nanobrowser 本质上是一个在浏览器本地运行的、由 AI 大模型驱动的"多智能体操作系统"。

它将复杂的网页操作任务分解，并由多个专门的 AI 智能体协同完成。你在配置这个工具的 API Key 的时候应该也发现了。

有 Planner 和 Navigator。

规划者（Planner）：

负责高级别的任务理解和步骤规划。

当你给出一个模糊的指令，比如"帮我找一款防水、低于50美元的便携蓝牙音箱"，Planner 会将其分解成一个具体的、可执行的行动计划。

比如 Planner 会思考："要完成这个任务，我需要先打开淘宝网站，然后在搜索框输入'便携蓝牙音箱'，接着使用筛选功能选择价格范围和防水属性，最后浏览结果并提取相关信息。"

导航者（Navigator）：

负责在真实的网页环境中动手操作，严格执行 Planner 发出的指令。

它接收像"点击这个按钮"、"在那个输入框里输入文字"、"滚动页面"、"从那个元素中读取文本"这样的低级命令。

它通过浏览器的开发者工具接口来模拟用户的点击、输入等行为，并观察网页的DOM结构变化。

智能体间的协作流程：

用户指令-> Planner 制定计划-> Planner 向 Navigator 发出第一步指令-> Navigator 执行并返回结果/状态-> Planner 评估结果并发出下一步指令-> ... -> 任务完成，将最终结果汇总给用户

如果 Navigator 在执行中遇到错误，比如找不到某个按钮，Planner 会接收到反馈，并动态地重新规划策略。

开源地址：https://github.com/nanobrowser/nanobrowser

点击下方卡片，关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目，如果你懒得翻文章一个个找，你直接关注微信公众号：逛逛 GitHub ，后台对话聊天就行了：

AI I024

2025年10月22日星期三

GitHub 淘到 1 个「AI 控制浏览器」插件，一句话帮你干活。

逛 GitHub 的时候，发现了一个浏览器自动化开源项目，是个 Chrome 插件。

对小白也挺友好的，分享一下。

这个叫 Nanobrowser 的开源项目，现状有 1 万多 Star。

安装后，就会在你浏览器出现一个侧边栏，说句话它就可以操纵你的浏览器，帮助你完成任何你想完成的事情。

正式使用前，你只需要配置一下大模型的 API Key 就能开始玩了。

我这里用的是 DeepSeek 作为 AI 大脑。

我配置好后，在 Nanobrowser 侧边栏输入如下提示词：

请前往 https://huggingface.co/papers 并逐一浏览前三篇论文。对于每篇论文：

① 记录标题、URL 和点赞数

② 总结摘要部分

③ 最后，汇总所有三篇论文的摘要，并按点赞数排序

输入提示词后，整个过程被它看管，它会自己进行网站跳转、读取网页内容，最终把论文摘要发送给我。

可以看到，它读取网页的时候，会给每一个 DOM 元素打个标签，还挺有意思的：

最后得到了下面这个结果：

✅ 我已成功分析 Hugging Face 论文页面的前三篇论文。以下是按点赞数排序的三篇论文摘要：

没有评论:

发表评论

新Antigravity更新免费支持Agent Skills，技能复用零成本上手

2025年10月22日星期三

GitHub 淘到 1 个「AI 控制浏览器」插件，一句话帮你干活。

逛 GitHub 的时候，发现了一个浏览器自动化开源项目，是个 Chrome 插件。

对小白也挺友好的，分享一下。

这个叫 Nanobrowser 的开源项目，现状有 1 万多 Star。

安装后，就会在你浏览器出现一个侧边栏，说句话它就可以操纵你的浏览器，帮助你完成任何你想完成的事情。

正式使用前，你只需要配置一下大模型的 API Key 就能开始玩了。

我这里用的是 DeepSeek 作为 AI 大脑。

我配置好后，在 Nanobrowser 侧边栏输入如下提示词：

请前往 https://huggingface.co/papers 并逐一浏览前三篇论文。 对于每篇论文：

① 记录标题、URL 和点赞数

② 总结摘要部分

③ 最后，汇总所有三篇论文的摘要，并按点赞数排序

输入提示词后，整个过程被它看管，它会自己进行网站跳转、读取网页内容，最终把论文摘要发送给我。

可以看到，它读取网页的时候，会给每一个 DOM 元素打个标签，还挺有意思的：

最后得到了下面这个结果：

✅ 我已成功分析 Hugging Face 论文页面的前三篇论文。以下是按点赞数排序的三篇论文摘要：

没有评论:

发表评论

新Antigravity更新免费支持Agent Skills，技能复用零成本上手

请前往 https://huggingface.co/papers 并逐一浏览前三篇论文。对于每篇论文：