AI I024: 6个GitHub开源项目盘点：LangExtract文档提取、AI工作流框架、Chrome控制工具

2026年2月20日星期五

6个GitHub开源项目盘点：LangExtract文档提取、AI工作流框架、Chrome控制工具

本文盘点本周6个实用的GitHub开源项目，涵盖谷歌LangExtract文档信息提取、GitHub官方AI工作流框架、AI Agent工具包pi-mono、100+LLM应用案例合集、Chrome浏览器控制MCP工具及本地知识库搜索引擎qmd。适合开发者、AI应用研究者及自动化工具使用者参考，各项目均提供开源地址与核心功能介绍，可直接安装使用。

Tags:

GitHub开源项目

AI工具

LLM应用

开发者工具

自动化工具

01
谷歌开源的文档信息抽取神器

最近逛 GitHub 发现谷歌开源了一个挺有意思的项目 LangExtract，目前已经有将近 3 万的 Star 了。

这是一个 Python 库，专门用 LLM 从乱七八糟的非结构化文本里提取结构化信息。

比如说你有一堆临床病历、报告文档啥的，它能帮你自动识别和整理关键信息，而且提取出来的每一条数据都能精准定位到原文位置。

它有几个核心特点，精确源定位、对长文档做了优化、支持交互式可视化，能生成一个独立的 HTML 文件，让你在原始上下文中查看和审核成千上万个提取结果。

而且灵活的模型支持，从云端的 Gemini 到本地的 Ollama 都能用，完全看你喜欢哪种。

安装很简单，pip install langextract 就行。

开源地址：https://github.com/google/langextract

02
GitHub 官方的 AI 工作流框架

GitHub 自己搞了个叫 Agentic Workflows 的项目，让你用自然语言写 Markdown 就能跑 AI 工作流。

说白了就是你在 Markdown 文件里描述想干啥，然后丢到 GitHub Actions 里自动执行。

安全方面做得挺到位的，默认只读权限，写操作只能通过所谓的 safe-outputs 来完成。

它还有沙箱执行、输入净化、网络隔离、SHA 固定依赖、工具白名单等多层保护机制。

如果你想让 AI 帮你自动化仓库任务又担心安全问题，这个可以看看。

开源地址：https://github.com/github/gh-aw

03
AI Agent 工具包

pi-mono 是一个 AI Agent 工具包，最吸引我的是它的 coding agent CLI 可以在树莓派或本地服务器上跑。

这个项目包含挺多东西：统一的 LLM API、TUI 和 Web UI 库、Slack 机器人、vLLM pods 等。

它支持多种模型提供商，Claude、ChatGPT、GitHub Copilot、Google Gemini CLI 都能用。

上下文管理这块做得不错，支持自动压缩和恢复，还能主动在接近限制时处理，避免上下文溢出的问题。

开源地址：https://github.com/badlogic/pi-mono

04
100 多个 LLM 应用案例合集

awesome-llm-apps 是一个收集了 100 多个 LLM 应用的仓库，涵盖 RAG、AI Agent、多智能体团队、MCP、语音 Agent 等各种玩法。

支持的模型也很全面，OpenAI、Anthropic、Gemini、xAI，还有 Qwen、Llama 这些开源模型都有。

里面的项目分类挺细致的，从入门级的 AI Agent 到高级的自主游戏 Agent，从 RAG 应用到带记忆的 LLM 应用，啥都有。

特别适合想学习 LLM 应用开发的开发者，每个项目都有详细文档，可以直接 clone 下来跑。

开源地址：https://github.com/Shubhamsaboo/awesome-llm-apps

05
让 AI 控制 Chrome 浏览器

chrome-devtools-mcp 是一个 MCP，让你的 AI 编程助手能直接控制和检查 Chrome 浏览器。

支持的工具很多：点击、拖拽、填充表单、处理对话框、按键、上传文件这些输入自动化都有。

还能分析网络请求、截图、检查控制台消息、录制性能追踪、获取性能洞察等。

基本上就是让你的 AI 助手拥有完整的 Chrome DevTools 能力，用来做自动化测试、性能分析、网页调试都很方便。

支持各种主流 AI 编程工具：Claude Code、Cursor、Copilot、Gemini CLI 等。

开源地址：https://github.com/ChromeDevTools/chrome-devtools-mcp

06
本地知识库搜索引擎

qmd 是 Shopify CEO Tobi Lutke 开源的一个本地 Markdown 搜索引擎。

这个工具结合了 BM25 全文检索、向量语义搜索和 LLM 重排序，全程通过 Ollama 本地运行，不需要联网。

技术上有几个亮点：查询扩展，用 LLM 生成查询变体，原始查询权重加倍。混合检索，同时用 FTS5 和向量搜索。

RRF 融合加位置感知混合，根据排名位置调整检索和重排的权重比例。

还支持 MCP 模式，可以跟 Claude Code 等 AI 工具无缝集成，非常适合用在 Agent 工作流里。

开源地址：https://github.com/tobi/qmd

点击下方卡片，关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目，如果你懒得翻文章一个个找，你直接关注微信公众号：逛逛 GitHub ，后台对话聊天就行了：

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2026年2月20日星期五

6个GitHub开源项目盘点：LangExtract文档提取、AI工作流框架、Chrome控制工具

Tags:

GitHub开源项目

AI工具

LLM应用

开发者工具

自动化工具

没有评论:

发表评论

LTX2。3 Director Desk Upgrade ： Free RH Coins + Auto Grid Split

标签

2026年2月20日星期五

6个GitHub开源项目盘点：LangExtract文档提取、AI工作流框架、Chrome控制工具

Tags: GitHub开源项目 AI工具 LLM应用 开发者工具 自动化工具

没有评论:

发表评论

LTX2。3 Director Desk Upgrade ： Free RH Coins + Auto Grid Split

Tags:

GitHub开源项目

AI工具

LLM应用

开发者工具

自动化工具