2026年2月6日星期五

【280字符】分享3个GitHub优质开源项目

①PageLM:开源NotebookLM平替,可将资料转为互动学习资源,支持本地部署;②DeepSeek-OCR-2:轻量OCR模型,模仿人类视觉逻辑解析复杂版面;③Awesome Web Agents:Web智能体开发资源大全,涵盖工具框架与论文。

01

PageLM:NotebookLM 开源平替

PageLM 是又一个开源版的 Google NotebookLM。
图片
NotebookLM 最火的功能就是把一堆资料扔进去,它能给你生成播客对话、测验题或者复习卡片。
PageLM 就是干这个的,把学习资料喂给它,它不光能帮你整理重点,还能把死板的文字变成互动的学习资源。

比如你上传一份历史课件,它能直接反向给你出几道测试题,或者把重点知识变成 Flashcards 方便记忆。
最重要的是它不像谷歌的产品那样把数据锁在云端,你可以自己部署,对于那些在意隐私或者想根据自己需求魔改功能的开发者来说,这玩意儿比官方的 NotebookLM 灵活多了。
图片
开源地址:https://github.com/CaviraOSS/pagelm

02

DeepSeek-OCR-2

DeepSeek 这次又整了个狠活。
以前的 OCR 傻乎乎地从左到右、从上到下扫描图片,遇到报纸排版或者复杂表格就容易乱码。
DeepSeek 这个新版本用了一个叫 DeepEncoder V2 的技术,让模型像人眼一样按逻辑去阅读,哪儿是标题、哪儿是分栏。
就像他们说的:探索更像人类的视觉编码。
图片
而且这模型特别轻量,参数量只有 3B,跑起来不吃配置,但效果据说比很多闭源的大模型还好。
它甚至直接拿了一个小的语言模型(Qwen2-0.5B)来当视觉编码器用,这思路挺野的,等于让模型在图片的时候就已经带上了理解的脑子,而不只是单纯地认字。
图片
开源地址:https://github.com/deepseek-ai/DeepSeek-OCR-2

03

Awesome Web Agents

Steel.dev 本身是做 AI 浏览器基础设施的,就是专门给 AI Agent 提供浏览器环境的。

他们把自己在这个圈子里看到的最好的工具、框架、论文都整理到了这个列表里。

图片

如果你想做一个能操控浏览器、自动帮你在网上订票、抓数据或者填表单的 AI Agent,别满世界乱搜了,直接看这个列表就行。

里面涵盖了从底层驱动,比如 Puppeteer、Playwright 到上层框架,比如 LangChain 里的相关模块,再到最新的学术论文,基本上把 Web Agent 这个垂直领域的家底都翻出来了。

这种列表最大的好处就是帮你省时间。

现在 AI Agent 发展太快,今天出一个新框架,明天发一篇新论文,很容易跟丢。

Steel 这个团队因为自己就靠这行吃饭,所以选出来的东西质量比较高,基本没有凑数的,想入坑 Web Agent 开发的话,把这个库 Star 一下是个好起手。

开源地址:https://github.com/steel-dev/awesome-web-agents

04

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

没有评论:

发表评论

Building a Text-to-SQL Agent with LangChain 1。2 : Source Code Walkthrough

Summary: This project demonstrates a Text-to-SQL agent using LangChain 1.2. It converts natural language queries into safe MySQL queries via...