2026年4月12日星期日

Karpathy 知识库搭建教程:Obsidian 用法与误区分析

本文深度解读 Karpathy 用 LLM 搭建个人知识库的方法,指出多数模仿者只学到表面而忽略了人的判断与内化过程。适合 Obsidian 用户、知识管理爱好者。核心提醒:AI 负责低层加工,人负责选材与深度思考,否则图谱再好看也只是空壳。

Tags:

  见字如面,我是艾康。
点击关注👆防止迷路。







 

本文字数 2286,阅读大约需 4 分钟

这几天刷推特,满屏都是 Karpathy 和他的知识库

起因是他在 4 月 3 号发了一条长推,聊自己最近怎么用 LLM 搭建个人知识库。

这条推文的浏览量直接干到了 1800 万,评论区挤满了各路大神。

img

Obsidian 的创始人 Kepano 来了,Lex Fridman 来了,各种开发者都在下面分享自己的实践。

然后,这股风很快就吹到了国内。

公众号、小红书、视频号,到处都是「手把手教你搭建 Karpathy 知识库」的教程,Obsidian 图谱截图满天飞,看起来每个人都在一夜之间拥有了一个「第二大脑」。

作为一个深度使用 Obsidian 做知识管理一年多的人,这几天看下来,我有一个很强烈的感受:

很多人的用法,偏了。

不是说 Karpathy 的方法有问题,恰恰相反,他的方法本身非常精妙。

只是很多人在模仿的过程中,只抄到了表面,却跳过了最有价值的部分。

先搞清楚 Karpathy 到底在做什么

在聊哪里偏了之前,我们先回到 Karpathy 的原帖,看看他自己到底是怎么用这套东西的。

原帖地址:https://x.com/karpathy/status/2039805659525644595

img

他的核心思路其实不复杂:把各种原始素材(文章、论文、代码库、数据集等)丢进一个 raw/ 文件夹,然后让 LLM 把这些素材「编译」成一个结构化的 Markdown Wiki。

概念提炼、文章生成、反向链接、交叉引用,都交给 AI 来完成,最后用 Obsidian 来浏览这个 Wiki,用 LLM 来查询和维护。

他目前在某个研究方向上的知识库,大约有 100 篇文章、40 万字

帖子爆了之后,Karpathy 又做了一件事,他没有开源代码,也没有发布什么 App。

他发了一个 GitHub Gist,叫「llm wiki」,里面有一段话非常关键:

You never (or rarely) write the wiki yourself — the LLM writes and maintains all of it. You're in charge of sourcing, exploration, and asking the right questions.

img

GitHub Gist 地址:https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f

翻译过来就是:LLM 负责苦力活——总结、交叉引用、归档、格式维护。而你负责的是:选什么素材、探索什么方向、问出什么问题。

也就是说,他把知识管理这件事拆成了两层:

高层加工:选什么素材值得进入系统、对 AI 的产出做质量把关、基于 Wiki 提出深度问题 → 人来做

低层加工:总结、链接、归档、一致性检查 → LLM 来做

另外一个作者专门写了一篇文章拆解 Karpathy 的知识库,其中有一段分析得很到位:

img

这个知识库与其说是 LLM 的产物,不如说是 Karpathy 不断打磨那个 CLAUDE.md 的产物,LLM 只是在大规模执行他的指令。

他的系统,本质上是一个信息编译器,解决的是研究效率问题。

那偏在哪了呢?

理解了 Karpathy 在做什么之后,再来看很多人的实践,就会发现问题在哪。

我这几天在小红书和公众号上看到的大量案例,流程基本是这样的:

  1. 1. 看到一篇文章,丢进 Obsidian
  2. 2. 让 AI 一键生成各种概念笔记
  3. 3. 让概念之间自动建立链接
  4. 4. 得到一张关系图谱的截图,截图发出来
  5. 5. 结束了
img

看起来和 Karpathy 做的差不多?

但有一个非常关键的区别:在 Karpathy 的流程里,人的判断贯穿始终,而在很多模仿者的流程里,人在第 1 步之后就消失了。

他们跳过了选择素材时的判断,什么值得进入系统?

跳过了对 AI 产出的审阅和追问,这个概念提炼得对不对? 跳过了基于 Wiki 提出深度问题的环节,我还想知道什么?

最终得到的,是一堆 AI 生成的笔记和一个好看的图谱。

但这些东西,没有经过自己的任何加工。

十年前我们在 Evernote 里疯狂收藏文章,然后再也不打开。现在换成了让 AI 帮我们生成笔记,然后再也不思考,这两者有什么区别呢?

工具变了,问题没变。

知识管理,到底在管什么?

聊到这里,我想说说自己的理解。

我用 Obsidian 做知识管理已经一年多了,有一个越来越强烈的感受:知识管理应该是一个过程,不是一个结果。

它不是说今天通过 AI 产出了 50 篇笔记、笔记之间形成了一个炫酷的关系图谱,这件事就算完成了。

img

真正的知识管理,是信息从输入到加工、再到内化的一整个闭环

我自己的知识库,用了一套河流隐喻来组织整个过程:

  • • 收件箱:信息的入口,什么都可以先丢进来
  • • 泥石:我读过的文章、书籍、课程、播客,这些是原始素材
  • • 晶石:经过自己加工后的产出,我写的文章、导航笔记、随笔
  • • 山脉:最终沉淀下来的认知框架
img

这套结构的核心不在于文件夹有多整齐,它的核心在于,每一层之间都有一个「转化」的过程。

泥石不会自动变成晶石,晶石不会自动堆成山脉。

每一步都需要我主动参与——提取关键概念、用自己的话重新表述、和已有认知建立连接

这个过程可能有点慢。

但这个「慢」的过程,恰恰就是知识管理本身。

如果让 AI 帮你跳过了这些步骤,即使得到的是一个漂亮的关系图谱,但自己的大脑里什么都没留下。

AI 不会让思想空洞的人变得深刻,只会让深刻的人更加璀璨,知识管理也是同理。

两者并不矛盾

说到这里,可能有人觉得我在否定 Karpathy 的方法。

真没有。

他的方法解决了一个非常实际的问题:传统的 RAG 每次提问都从零开始检索,没有积累,他的 Wiki 方式让知识可以持久编译、增量更新,这在研究效率上是一个很大的进步。

问题从来不在方法本身,而在于你用它来做什么。

Obsidian 的创始人 Kepano,在 Karpathy 原帖下面回复了一条非常值得读的建议:

img

大意是:把个人的 Vault 和 AI Agent 的 Vault 分开。

你自己的 Vault 应该保持高信噪比,里面的内容来源清晰。如果让两者混在一起,你的 Vault 就不再只是「你的想法」了。

我觉得这个思路非常对。

这两个库服务的是完全不同的目标:

  • • AI 研究库解决「广度」问题:帮你快速建立一个领域的全景认知,发现关键概念和关联。
  • • 个人知识库解决「深度」问题:把真正需要掌握的东西,通过主动加工变成自己的。

前者是后者的前置筛选器。

先在 AI 库里建立全景图,从中找到真正重要的节点,然后对这些节点做深度的提取、加工、内化。

Karpathy 的方法帮你看见森林,但走进每一棵树,还是得靠你自己。

img

写在最后

回到开头那个现象:全网都在教你怎么搭建 Karpathy 知识库,但很少有人在讨论:搭建完之后,然后呢?

知识管理这件事,工具和方法永远在迭代——从 Evernote 到 Notion 到 Obsidian,从手动笔记到 RAG 到 LLM Wiki。

但有一个东西始终没变:你自己的思考,没有任何工具可以替代。

AI 可以帮你编译信息、建立链接、维护一致性,但它不能代替你理解一个概念、形成一个判断、建立一套属于你自己的认知框架。

这些事情必须经过你自己的大脑,经过那个也许有点慢、有点笨、但不可替代的内化过程。

 

图片

以上,就是本文全部内容,如果觉得这篇文章对你有启发,点赞、比心、分享三连就是对我最大的支持,谢谢~

往期推荐阅读
•  Obsidian 从入门到进阶合集

• AI把我推成“知名”博主后,我发现了一条产业链

• 善用 AI,实际上对人的要求只会越来越高 

• 用 Gemini 解锁 YouTube 新用法,信息获取效率提升 10 倍

• 别再纠结 AI 味,内容创作应该回归第一性原理

• 有了 NotebookLM 后,还需要 Obsidian 吗?

• 我试了 NotebookLM 学习法后,彻底抛弃传统学习方式

• NotebookLM 再次升级,来自谷歌的年终礼物

• 我用 NotebookLM 解锁 PPT 的 5 种玩法,实现了 PPT 自由

• AI 时代,你的上下文才是最值钱的资产

• 2026 年如何用好 AI,我发现这些能力更重要

• Openclaw 这么火,可你真的需要它吗?

• 万物皆可命令行:AI 时代,软件正在长出第二套界面

没有评论:

发表评论

面壁智能开源语音大模型VoxCPM 2:支持音色克隆和30种语言9种方言

面壁智能联合清华团队开源VoxCPM 2语音大模型,2B参数、48kHz高保真音质。支持30种语言和9种中国方言,可用文字描述创造全新音色,支持5秒以上音频克隆声音并复刻情感。开源免费,提供完整工具链,适合出海、游戏配音、有声书等场景。 Tags: 开源语音模型 ...