AI I024: DataClaw 开源工具：一键导出 AI 对话记录，构建开发者共享数据集

2026年2月28日星期六

DataClaw 开源工具：一键导出 AI 对话记录，构建开发者共享数据集

本文介绍了开源工具 DataClaw，它允许开发者一键导出本地 Claude Code 等 AI 编程工具的对话记录，经隐私脱敏处理后，可上传至 Hugging Face 共享。工具旨在将数据主权归还给开发者，为高质量、真实场景的 AI 编程对话数据集积累提供可能，并回应了近期关于 AI 模型数据使用与所有权的行业争议。

Tags:

DataClaw

AI 对话数据

开源工具

数据主权

Hugging Face

数日前，Anthropic 发布了一篇措辞相当强硬的文章：《检测和防止蒸馏攻击》。

大概意思，就是说发现三家 AI 公司，DeepSeek、Moonshot、MiniMax，对 Claude 发起大规模蒸馏调用，三家合计超过 1600 万次。

蒸馏，是 AI 行业一种常见的训练方式，简单说就是用一个大模型输出的内容来训练自己的模型，让后者快速获得前者的部分能力。

消息一出，整个 AI 科技圈瞬间炸开了锅。

有意思的是，大多网友都不买账，评论区超过 70% 的网友都在喷 Anthropic。

事实上，Anthropic 当初训练模型，同样大量使用了互联网上各种数据，甚至还蒸馏过 OpenAI 的模型。

就连马斯克也直接开喷，说你 Anthropic 之前还盗用过人家的训练数据，赔了数十亿美元的和解金。

更令人绷不住的，是它自己的一段黑历史：从一些盗版网站下各种电子书，然后拿来训练模型。

现在自家模型训练好了，又开始对数据设起了门槛，阻止别人使用它所产出的数据。

讲真，这就有点双标了。

在这个事情发生后没过多久，开源社区里看了不爽，站出来发声：

"既然如此，我干脆把自己本地 15.5 万条 Claude Code 真实对话记录全部公开。"

同时宣布开源，一个叫 DataClaw 的工具，让所有人都能一键导出本地各种 AI 终端的对话记录，也可以选择将自己的数据在 Hugging Face 上公开。

注：Hugging Face 是目前全球最大的 AI 模型与数据集共享平台，相当于 AI 领域的 GitHub，开源社区里大部分模型和数据都汇聚在这里。

你不是想把数据牢牢攥在自己手上吗？行，那就把数据集全开源呗，谁能训得好，各凭本事！

帖子一经发布，大家纷纷点赞评论，甚至马斯克转发并回了一个字："酷"，将这场风波推向高潮。

POM 选择公开自己数据，并开源 DataClaw 工具，本质上，就是想把这个权利还给每一个普通开发者。

借助 DataClaw 工具，可以把我们在 Claude Code、Codex、Gemini CLI 等 AI 编程工具上产生的对话记录，整理成标准格式的数据集，一键上传到 Hugging Face 公开共享。

当然，我们的对话记录里难免会有一些敏感的信息不便公开，因此工具在导出流程内置了多层隐私保护，会对数据进行脱敏处理。

比如文件路径会自动处理，只保留相对位置；用户名会被替换成匿名编码；各类密钥、令牌、数据库密码，通过多重扫描自动识别并抹除。

经过层层清洗，对话会被打包成干净的结构化文本文件，每行是一条完整的对话记录，只需敲个回车，就能直接推送到 Hugging Face 上。

同时，所有通过 DataClaw 导出的数据集，在 Hugging Face 上都会打上统一的 dataclaw 标签。

工具上手也相当简单，只需一行命令：

pip install dataclaw

之后在命令行中，按五步流程走，选来源、确认项目范围、本地预览、隐私扫描、确认后推送。

每一步都需要我们亲自确认，绝不会莽撞地直接把我们的数据进行上传。

写在最后

其实，这件事的影响，在我看来远比工具本身更值得关注。

对开发者来说，这是一次数据主权的具体落地。

我们每天跟 AI 结对编程，产生的对话记录到底算谁的资产？这个问题以前只是一个模糊的担忧，现在至少有了一个主动选择的出口。

不管你最终决定公开还是留存，重要的是这个决定权回到了你自己手里。

从 Anthropic 的反应上看，这类数据的价值之前是不是被严重低估了？

现阶段，人类与 AI 真实编程协作的高质量对话数据极度稀缺。市面上大多数训练数据要么是合成生成的，要么来自经过筛选的公开代码库，真实场景下的调试思路、需求拆解、反复修改的过程，几乎没有数据集能覆盖。

如果有足够多的开发者，愿意贡献自己的记录，那这些数据日积月累，对下一代开源模型的训练价值也相当可观。

对整个行业来说，Anthropic 的这篇文章，把一个长期悬而未决的问题摆上了台面。

我们用 AI 工具生成的内容，到底受不受原始模型服务条款的约束？

企业有没有权利用用户行为数据来反向训练模型？

这些问题目前在法律层面几乎是空白，各家公司的服务条款写法也大相径庭。

这次争议不会直接给出答案，但它让更多人开始意识到：这些问题迟早需要一个明确的回答。

当然，DataClaw 本身也有局限。

自动脱敏不是万能的，在项目的 README 中，作者也坦诚地写着 "This is NOT foolproof"。公开数据之前，仍然需要自己认真过一遍。

此外，个人开发者贡献的数据是否真的会被有效整合利用，还是只是散落在 Hugging Face 上的碎片，目前也没有答案。这更像是一个起点，而不是解决方案。

与其等别人来决定这些数据的去向，不如自己主动选择。

即便不打算公开，用 DataClaw 定期导出自己的对话记录，本身也是一种积累——这些沉淀下来的内容，是你真实思考过程的留存，属于你自己的数字资产。

GitHub 项目地址：https://github.com/peteromallet/dataclaw

今天的分享到此结束，感谢大家抽空阅读，我们下期再见，Respect！

AI I024

2026年2月28日星期六

DataClaw 开源工具：一键导出 AI 对话记录，构建开发者共享数据集

Tags:

DataClaw

AI 对话数据

开源工具

数据主权

Hugging Face

写在最后

没有评论:

发表评论

生化危机女主开源AI记忆系统MemPalace GitHub已获近5万星

标签

2026年2月28日星期六

DataClaw 开源工具：一键导出 AI 对话记录，构建开发者共享数据集

Tags: DataClaw AI 对话数据 开源工具 数据主权 Hugging Face

写在最后

没有评论:

发表评论

生化危机女主开源AI记忆系统MemPalace GitHub已获近5万星

Tags:

DataClaw

AI 对话数据

开源工具

数据主权

Hugging Face