本文介绍了开源工具 DataClaw,它允许开发者一键导出本地 Claude Code 等 AI 编程工具的对话记录,经隐私脱敏处理后,可上传至 Hugging Face 共享。工具旨在将数据主权归还给开发者,为高质量、真实场景的 AI 编程对话数据集积累提供可能,并回应了近期关于 AI 模型数据使用与所有权的行业争议。
Tags:
数日前,Anthropic 发布了一篇措辞相当强硬的文章:《检测和防止蒸馏攻击》。
大概意思,就是说发现三家 AI 公司,DeepSeek、Moonshot、MiniMax,对 Claude 发起大规模蒸馏调用,三家合计超过 1600 万次。
蒸馏,是 AI 行业一种常见的训练方式,简单说就是用一个大模型输出的内容来训练自己的模型,让后者快速获得前者的部分能力。
消息一出,整个 AI 科技圈瞬间炸开了锅。
有意思的是,大多网友都不买账,评论区超过 70% 的网友都在喷 Anthropic。
事实上,Anthropic 当初训练模型,同样大量使用了互联网上各种数据,甚至还蒸馏过 OpenAI 的模型。
就连马斯克也直接开喷,说你 Anthropic 之前还盗用过人家的训练数据,赔了数十亿美元的和解金。
更令人绷不住的,是它自己的一段黑历史:从一些盗版网站下各种电子书,然后拿来训练模型。
现在自家模型训练好了,又开始对数据设起了门槛,阻止别人使用它所产出的数据。
讲真,这就有点双标了。
在这个事情发生后没过多久,开源社区里看了不爽,站出来发声:
"既然如此,我干脆把自己本地 15.5 万条 Claude Code 真实对话记录全部公开。"
同时宣布开源,一个叫 DataClaw 的工具,让所有人都能一键导出本地各种 AI 终端的对话记录,也可以选择将自己的数据在 Hugging Face 上公开。
注:Hugging Face 是目前全球最大的 AI 模型与数据集共享平台,相当于 AI 领域的 GitHub,开源社区里大部分模型和数据都汇聚在这里。
你不是想把数据牢牢攥在自己手上吗?行,那就把数据集全开源呗,谁能训得好,各凭本事!
帖子一经发布,大家纷纷点赞评论,甚至马斯克转发并回了一个字:"酷",将这场风波推向高潮。
POM 选择公开自己数据,并开源 DataClaw 工具,本质上,就是想把这个权利还给每一个普通开发者。
借助 DataClaw 工具,可以把我们在 Claude Code、Codex、Gemini CLI 等 AI 编程工具上产生的对话记录,整理成标准格式的数据集,一键上传到 Hugging Face 公开共享。
当然,我们的对话记录里难免会有一些敏感的信息不便公开,因此工具在导出流程内置了多层隐私保护,会对数据进行脱敏处理。
比如文件路径会自动处理,只保留相对位置;用户名会被替换成匿名编码;各类密钥、令牌、数据库密码,通过多重扫描自动识别并抹除。
经过层层清洗,对话会被打包成干净的结构化文本文件,每行是一条完整的对话记录,只需敲个回车,就能直接推送到 Hugging Face 上。
同时,所有通过 DataClaw 导出的数据集,在 Hugging Face 上都会打上统一的 dataclaw 标签。
工具上手也相当简单,只需一行命令:
pip install dataclaw之后在命令行中,按五步流程走,选来源、确认项目范围、本地预览、隐私扫描、确认后推送。
每一步都需要我们亲自确认,绝不会莽撞地直接把我们的数据进行上传。
写在最后
其实,这件事的影响,在我看来远比工具本身更值得关注。
对开发者来说,这是一次数据主权的具体落地。
我们每天跟 AI 结对编程,产生的对话记录到底算谁的资产?这个问题以前只是一个模糊的担忧,现在至少有了一个主动选择的出口。
不管你最终决定公开还是留存,重要的是这个决定权回到了你自己手里。
从 Anthropic 的反应上看,这类数据的价值之前是不是被严重低估了?
现阶段,人类与 AI 真实编程协作的高质量对话数据极度稀缺。市面上大多数训练数据要么是合成生成的,要么来自经过筛选的公开代码库,真实场景下的调试思路、需求拆解、反复修改的过程,几乎没有数据集能覆盖。
如果有足够多的开发者,愿意贡献自己的记录,那这些数据日积月累,对下一代开源模型的训练价值也相当可观。
对整个行业来说,Anthropic 的这篇文章,把一个长期悬而未决的问题摆上了台面。
我们用 AI 工具生成的内容,到底受不受原始模型服务条款的约束?
企业有没有权利用用户行为数据来反向训练模型?
这些问题目前在法律层面几乎是空白,各家公司的服务条款写法也大相径庭。
这次争议不会直接给出答案,但它让更多人开始意识到:这些问题迟早需要一个明确的回答。
当然,DataClaw 本身也有局限。
自动脱敏不是万能的,在项目的 README 中,作者也坦诚地写着 "This is NOT foolproof"。公开数据之前,仍然需要自己认真过一遍。
此外,个人开发者贡献的数据是否真的会被有效整合利用,还是只是散落在 Hugging Face 上的碎片,目前也没有答案。这更像是一个起点,而不是解决方案。
与其等别人来决定这些数据的去向,不如自己主动选择。
即便不打算公开,用 DataClaw 定期导出自己的对话记录,本身也是一种积累——这些沉淀下来的内容,是你真实思考过程的留存,属于你自己的数字资产。
GitHub 项目地址:https://github.com/peteromallet/dataclaw
今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!
没有评论:
发表评论