2026年6月9日星期二

三开源项目 Agent效果翻倍 Token成本砍半

本文介绍三个开源项目,分别解决AI Agent的代码编辑错误、记忆健忘和实时信息获取短板。oh-my-pi通过哈希锚点机制将弱模型改代码成功率从6.7%提升至68.3%,大幅节省token。TencentDB Agent Memory采用分层记忆与上下文卸载,最高省61.38% token,长期记忆准确率从48%升至76%。last30days直采Reddit、X等社区真实讨论,按热度排序,需配置OpenAI和平台密钥。适合开发者优化Agent性能。

Tags:

某天,老板让你用 Agent 手搓个自动化流程的小工具,你袖子一撸,信心满满地开干。

结果,你让 Agent 把脚本里写错的一行路径改对,它怎么都改不进去。

你只能放弃挣扎,动手修改。

跑到后面,Agent 连你的需求也记不住了;抓取的信息还总是大半年前的旧闻,根本不能用。

我特意收集了三个比较有用的开源项目,分别针对编辑、记忆、信息获取这三处短板,让你的 Agent 快速变聪明。

图片

项目一:oh-my-pi 治手抖

现在 Agent 改代码,绝大多数是同一套逻辑:先让 Agent 把要改的那段旧代码原样复述一遍,作为修改定位,再把它替换成新的。

图片

也就是说,Agent 得把旧代码复述得分毫不差,才能开始修改。

文件要是中途被别的步骤动过,或者代码里好几处长得差不多,它就彻底懵了。

下面这个项目是一个 AI 编程 Agent,最近在 Coding Agent 圈子里相当能打,GitHub 上已经破万 star。

图片

项目由好几个部分组成,其中最核心的部分是 hashline 构架。

前面说过,Agent 得把旧代码一字不差复述出来,才能修改代码。

hashline 换了个思路,干脆不让它复述了。

图片

每生成一行代码,Agent 都会给这行挂上一个哈希锚点,相当于这行代码独一无二的指纹。

往后要改这行代码,Agent 直接报锚点就行,用不着再把旧代码整段搬一遍。

修改时,omp 会拿这个锚点跟当前文件再比对一次。对得上,就修改。

要是对不上,那就说明这行在它修改之前,就被别的步骤改过了。omp 不会在一个已经变样的地方硬打补丁,而是直接拒掉这次编辑。相当于每次改动前都自带一道版本校验,从机制上杜绝了改错位、改串行。

图片

光说原理你可能没体感,直接上实测数据。开发者曾把 omp 接入 16 个模型、180 个任务,测试结果如下:

图片

最夸张的是 Grok Code Fast 1,改代码成功率从 6.7% 直接干到 68.3%,接近十倍。

这里面有个特别反直觉的点,越笨、越弱的模型,装上它之后收益反而越大。

它也非常省钱,因为模型不用再为了复述旧代码白白烧一大把 token。

顺带提一句这个项目的身世:omp 的前身是 Mario Zechner 的极简终端 Agent「Pi」的一个 Fork,之前火出圈的个人 AI 助理 OpenClaw,底层用的也是 Pi。

项目链接:

https://github.com/can1357/oh-my-pi

项目二:TencentDB Agent Memory 治健忘

接着,我们来治 Agent 的健忘。

Agent 能记住多少,取决于一个叫上下文窗口的东西。它能一次性塞进去多少字是有上限的,你们聊得越久,这个窗口越满。

聊天达到上限后,它就会把最早那几句直接删掉。

你原先说的话,就这么在一轮轮地聊天中被挤没了。

图片

现在主流的记忆解决方案,大多是一个套路,把对话切碎丢进向量库,要用的时候靠相似度去盲搜。

结果是,搜上来一堆看着相似、其实没用的对话,你真正想要的那条,反倒沉在了底下。

还有个更要命的点:跨会话的「记不住你是谁」,和单会话里的「被一堆废话撑爆」实则是两码事。

在真实任务里,单次会话工具日志的爆炸,可能比跨会话忘事还频繁。

图片

Tencent DB Agent Memory 的聪明之处,就是它选择两个问题分开治。

先看「跨会话场景」,它的解法是分层。

这套解法,仿照了人类的记忆系统。

你不会把每天每句话都原样背下来,而是慢慢把零碎的经历,沉淀成对一个人、一件事的稳定印象。

它也把这个过程进行拆分,总共拆成四层,从下到上叫 L0 到 L3,每一层只干一件事。

图片

L0,把你说的每句对话保存下来,这是档案。

L1,从这些大白话里,把真正有用的事实、你的偏好、定下的规矩拎出来,单独记忆,这是要点。

L2,把这些零散的要点归归类,拢成一个个完整的场景和事件,这是脉络。

L3,沉淀成关于你这个人的稳定画像,这是结论。

这一路,越往上越精炼,噪音越少。

上层管方向,下层管证据,各司其职。

再看「单会话场景」,它的解法是上下文卸载加 Mermaid 画布。

它会把繁杂的工具日志卸载到磁盘文件里,上下文中只留一张轻飘飘的 Mermaid 任务画布。

这张画布,会把任务结构折叠成一张能导航的图 。

画布上每个节点都带编号,你想核对某个细节,只要按编号查找,磁盘上的原文分分钟就能调回来。

图片

说实话,这项目里用的 SQLite、向量库、Mermaid、大模型抽取,单拎出来哪个都不新鲜。它真正的本事,是这套架构取舍:想明白了哪些信息该沉到底层当证据,哪些该浮到上层。

而且,它用的是异构存储,可以全链路溯源。底层的事实、日志进数据库,顶层的画像、场景是能直接打开看的 Markdown 文件 。

记忆在这里,不再是个黑盒。

图片

有开发者测试过,把它当成 OpenClaw 的插件接进去之后,最高省 61.38% 的 token,任务通过率相对提了 51.52%,在专测长期记忆的 PersonaMem 上,准确率从 48% 干到了 76%,相对提升近六成。

项目链接:

https://github.com/TencentCloud/TencentDB-Agent-Memory

项目三:last30days 治眼疾

如果你想让 Agent 搜最新网页,它一般会调用内置的网页搜索工具。

说白了就是接个搜索引擎,简单粗暴地把搜出来的头几条链接抓回来。

按照这种方式,给你的网页是被 SEO 排过序的,不一定是最新的。

真正在x、reddit社区的一手讨论贴,它基本碰不到。

图片

这是开发者 mvanhorn 做的一个研究类 skill,GitHub 上有 25.5k star。

last30days 干的事,就是绕开搜索引擎,直接扎进这些地方:Reddit、X、YouTube、HN、Polymarket、GitHub,一把将信息全捞回来。

普通搜索聚合的是编辑筛过的内容,而它搜的是人。

它不按 SEO 排序,而是按真人实打实的反应给每条打分,谁的赞多、谁的投票高,哪条帖子就靠前。

而且,它还可以跨平台的相互印证。同一件事,要是在 Reddit 、HN 、X 上都有热度,它就把这条的权重往上提一大截。

不过,要把功能吃满,得同时配 OpenAI 和 社区平台两边的 key,才能开启双边的交叉验证。只配一个是单边模式,一个都没有就退回纯网页搜索,不会有真人互动打分。

内附各平台搜索信息的价格,和需要准备的工具:

图片
项目链接:

https://github.com/mvanhorn/last30days-skill

怎么样,你还有那些好用的 AI 工具,欢迎评论区分享,我们下期再见~

图片·················END·················

没有评论:

发表评论

Claude Fable 5正式发布 免费使用至6月22日 附价格与能力测评

Anthropic正式发布Claude Fable 5模型,与Mythos 5同源但增加安全限制。即日起至6月22日,Pro/Max等订阅用户可免费使用,之后将移除订阅方案仅限API调用。模型每百万输入10美元、输出50美元,能力全面超越Opus 4.8,适合开发者、AI爱好者及...