①PageLM:开源NotebookLM平替,可将资料转为互动学习资源,支持本地部署;②DeepSeek-OCR-2:轻量OCR模型,模仿人类视觉逻辑解析复杂版面;③Awesome Web Agents:Web智能体开发资源大全,涵盖工具框架与论文。
01
PageLM:NotebookLM 开源平替
PageLM 是又一个开源版的 Google NotebookLM。NotebookLM 最火的功能就是把一堆资料扔进去,它能给你生成播客对话、测验题或者复习卡片。PageLM 就是干这个的,把学习资料喂给它,它不光能帮你整理重点,还能把死板的文字变成互动的学习资源。
继续观看
最近看到的 3 个 GitHub 开源项目,分享一下。
,
最近看到的 3 个 GitHub 开源项目,分享一下。
比如你上传一份历史课件,它能直接反向给你出几道测试题,或者把重点知识变成 Flashcards 方便记忆。最重要的是它不像谷歌的产品那样把数据锁在云端,你可以自己部署,对于那些在意隐私或者想根据自己需求魔改功能的开发者来说,这玩意儿比官方的 NotebookLM 灵活多了。开源地址:https://github.com/CaviraOSS/pagelm
02
DeepSeek-OCR-2
以前的 OCR 傻乎乎地从左到右、从上到下扫描图片,遇到报纸排版或者复杂表格就容易乱码。DeepSeek 这个新版本用了一个叫 DeepEncoder V2 的技术,让模型像人眼一样按逻辑去阅读,哪儿是标题、哪儿是分栏。而且这模型特别轻量,参数量只有 3B,跑起来不吃配置,但效果据说比很多闭源的大模型还好。它甚至直接拿了一个小的语言模型(Qwen2-0.5B)来当视觉编码器用,这思路挺野的,等于让模型在看图片的时候就已经带上了理解的脑子,而不只是单纯地认字。03
Awesome Web Agents
Steel.dev 本身是做 AI 浏览器基础设施的,就是专门给 AI Agent 提供浏览器环境的。
他们把自己在这个圈子里看到的最好的工具、框架、论文都整理到了这个列表里。
如果你想做一个能操控浏览器、自动帮你在网上订票、抓数据或者填表单的 AI Agent,别满世界乱搜了,直接看这个列表就行。
里面涵盖了从底层驱动,比如 Puppeteer、Playwright 到上层框架,比如 LangChain 里的相关模块,再到最新的学术论文,基本上把 Web Agent 这个垂直领域的家底都翻出来了。
继续观看
最近看到的 3 个 GitHub 开源项目,分享一下。
,
最近看到的 3 个 GitHub 开源项目,分享一下。
这种列表最大的好处就是帮你省时间。
现在 AI Agent 发展太快,今天出一个新框架,明天发一篇新论文,很容易跟丢。
Steel 这个团队因为自己就靠这行吃饭,所以选出来的东西质量比较高,基本没有凑数的,想入坑 Web Agent 开发的话,把这个库 Star 一下是个好起手。
04
点击下方卡片,关注逛逛 GitHub
这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:
没有评论:
发表评论