2026年2月28日星期六

DataClaw 开源工具:一键导出 AI 对话记录,构建开发者共享数据集

本文介绍了开源工具 DataClaw,它允许开发者一键导出本地 Claude Code 等 AI 编程工具的对话记录,经隐私脱敏处理后,可上传至 Hugging Face 共享。工具旨在将数据主权归还给开发者,为高质量、真实场景的 AI 编程对话数据集积累提供可能,并回应了近期关于 AI 模型数据使用与所有权的行业争议。

Tags:

数日前,Anthropic 发布了一篇措辞相当强硬的文章:《检测和防止蒸馏攻击》。

大概意思,就是说发现三家 AI 公司,DeepSeek、Moonshot、MiniMax,对 Claude 发起大规模蒸馏调用,三家合计超过 1600 万次。

图片

蒸馏,是 AI 行业一种常见的训练方式,简单说就是用一个大模型输出的内容来训练自己的模型,让后者快速获得前者的部分能力。

消息一出,整个 AI 科技圈瞬间炸开了锅。

有意思的是,大多网友都不买账,评论区超过 70% 的网友都在喷 Anthropic。

图片

事实上,Anthropic 当初训练模型,同样大量使用了互联网上各种数据,甚至还蒸馏过 OpenAI 的模型。

就连马斯克也直接开喷,说你 Anthropic 之前还盗用过人家的训练数据,赔了数十亿美元的和解金。

更令人绷不住的,是它自己的一段黑历史:从一些盗版网站下各种电子书,然后拿来训练模型。

现在自家模型训练好了,又开始对数据设起了门槛,阻止别人使用它所产出的数据。

讲真,这就有点双标了。

在这个事情发生后没过多久,开源社区里看了不爽,站出来发声:

"既然如此,我干脆把自己本地 15.5 万条 Claude Code 真实对话记录全部公开。"

同时宣布开源,一个叫 DataClaw 的工具,让所有人都能一键导出本地各种 AI 终端的对话记录,也可以选择将自己的数据在 Hugging Face 上公开。

image-20260228165108450

注:Hugging Face 是目前全球最大的 AI 模型与数据集共享平台,相当于 AI 领域的 GitHub,开源社区里大部分模型和数据都汇聚在这里。

你不是想把数据牢牢攥在自己手上吗?行,那就把数据集全开源呗,谁能训得好,各凭本事!

帖子一经发布,大家纷纷点赞评论,甚至马斯克转发并回了一个字:"酷",将这场风波推向高潮。

image-20260228165254003

POM 选择公开自己数据,并开源 DataClaw 工具,本质上,就是想把这个权利还给每一个普通开发者。

借助 DataClaw 工具,可以把我们在 Claude Code、Codex、Gemini CLI 等 AI 编程工具上产生的对话记录,整理成标准格式的数据集,一键上传到 Hugging Face 公开共享。

当然,我们的对话记录里难免会有一些敏感的信息不便公开,因此工具在导出流程内置了多层隐私保护,会对数据进行脱敏处理。

比如文件路径会自动处理,只保留相对位置;用户名会被替换成匿名编码;各类密钥、令牌、数据库密码,通过多重扫描自动识别并抹除。

经过层层清洗,对话会被打包成干净的结构化文本文件,每行是一条完整的对话记录,只需敲个回车,就能直接推送到 Hugging Face 上。

同时,所有通过 DataClaw 导出的数据集,在 Hugging Face 上都会打上统一的 dataclaw 标签。

图片

工具上手也相当简单,只需一行命令:

pip install dataclaw

之后在命令行中,按五步流程走,选来源、确认项目范围、本地预览、隐私扫描、确认后推送。

每一步都需要我们亲自确认,绝不会莽撞地直接把我们的数据进行上传。

写在最后

其实,这件事的影响,在我看来远比工具本身更值得关注。

对开发者来说,这是一次数据主权的具体落地。

我们每天跟 AI 结对编程,产生的对话记录到底算谁的资产?这个问题以前只是一个模糊的担忧,现在至少有了一个主动选择的出口。

不管你最终决定公开还是留存,重要的是这个决定权回到了你自己手里。

从 Anthropic 的反应上看,这类数据的价值之前是不是被严重低估了?

现阶段,人类与 AI 真实编程协作的高质量对话数据极度稀缺。市面上大多数训练数据要么是合成生成的,要么来自经过筛选的公开代码库,真实场景下的调试思路、需求拆解、反复修改的过程,几乎没有数据集能覆盖。

如果有足够多的开发者,愿意贡献自己的记录,那这些数据日积月累,对下一代开源模型的训练价值也相当可观。

对整个行业来说,Anthropic 的这篇文章,把一个长期悬而未决的问题摆上了台面。

我们用 AI 工具生成的内容,到底受不受原始模型服务条款的约束?

企业有没有权利用用户行为数据来反向训练模型?

这些问题目前在法律层面几乎是空白,各家公司的服务条款写法也大相径庭。

这次争议不会直接给出答案,但它让更多人开始意识到:这些问题迟早需要一个明确的回答。

当然,DataClaw 本身也有局限。

自动脱敏不是万能的,在项目的 README 中,作者也坦诚地写着 "This is NOT foolproof"。公开数据之前,仍然需要自己认真过一遍。

此外,个人开发者贡献的数据是否真的会被有效整合利用,还是只是散落在 Hugging Face 上的碎片,目前也没有答案。这更像是一个起点,而不是解决方案。

与其等别人来决定这些数据的去向,不如自己主动选择。

即便不打算公开,用 DataClaw 定期导出自己的对话记录,本身也是一种积累——这些沉淀下来的内容,是你真实思考过程的留存,属于你自己的数字资产。

GitHub 项目地址:https://github.com/peteromallet/dataclaw

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

没有评论:

发表评论

免费AI工具:音频驱动图片对口型,支持多人对话与动物角色

本文介绍一款可免费使用的AI网站,能够通过音频驱动静态图片实现对口型效果,支持多人对话场景及动物角色,操作简单且无需付费。适合视频创作者、自媒体运营及AI技术爱好者尝试,文中包含实际案例效果展示及使用建议。 Tags: AI对口型 音频驱动图片 免费AI工具 ...