本文分析了Anthropic指控DeepSeek、Moonshot、MiniMax对其Claude模型进行'蒸馏攻击'事件引发的全球AI圈群嘲,并对比其自身使用盗版书籍、音乐训练模型的历史。文章探讨了AI蒸馏技术的本质、版权问题的法律边界(如美国15亿美元和解案),以及AI时代'偷'数据与知识产权的伦理争议,适合关注AI行业动态、技术伦理与版权法律的读者阅读。
Tags:
套壳是你直接调用别人的API,包一层皮就说是自己的模型,这是欺骗。
而蒸馏是你用别人的输出作为训练数据,训练出一个全新的模型。
这个模型的权重是你自己的,推理是在你自己的服务器上跑的,跟原模型可以说已经没有任何直接关系了。
问题在于,你蒸馏自己的模型没问题,但如果你蒸馏别人的模型,那就涉及到一个关键问题:
你获取那些训练数据的方式,合法吗?
Anthropic说这三家中国公司创建了24000个假账户来大规模提取Claude的输出,从某种意义上讲,这确实违反了Anthropic它自己的服务条款。
但网友们暴动的原因也特别简单,就是你Anthropic有什么脸说别人?
就像马斯克说的。
2025年9月,Anthropic达成了一项历史性的和解协议,花了15亿美元。
这应该是美国版权诉讼史上最大的和解金额。
有意思的是,法官同时做出了两个判决:
第一,用合法购买的书籍来训练AI模型,属于合理使用,不构成侵权。这个判决对AI行业其实是一个利好消息。
法官说这种使用是"我们这辈子能看到的最具变革性的使用之一",因为AI模型学习的是模式和规律,不是要复制或取代原作。
第二,用盗版书籍来训练AI模型,不属于合理使用,构成侵权,这是Anthropic输掉的部分。
法官原话是:"盗版本身就是侵权,不可救药的侵权,不管你拿盗版的东西去做什么。"
所以从这个判决上,能看出来美国那边司法的态度,就是训练AI本身可以是合法的,但你获取数据的方式必须合法。
按照美国版权法,故意侵权的赔偿金可以高达每部作品15万美元,50万本书乘以15万美元,那就是750亿美元。当然不可能真赔这么多,但Anthropic面临的风险确实也是没法整的级别。
所以它选择了和解,赔了15亿美元,大约是每本书3000美元。
但其实这还没完。
2026年1月,音乐出版商们又对Anthropic提起了新的诉讼,指控它通过BitTorrent下载了超过2万首歌曲来训练Claude,涉及的歌曲包括"Wild Horses"、"Sweet Caroline"、"Bennie and the Jets"、"Eye of the Tiger"这些经典名曲。
这个案子目前还在审理中,索赔金额据说高达30亿美元。
所以你看,什么叫双标。
这就是双标。
Anthropic一边在说中国公司偷它的模型输出,一边自己在用盗版书籍和歌曲训练模型。
所以啊。。。
说实话,这件事吃完瓜也就算了。
但是,有一个点,我其实还想聊一聊。
就是在AI时代,"偷"这个字,到底意味着什么。
因为我自己是做UI出身的,所以呢,UI圈子里,之前一直有一个很经典的故事。
当年苹果的Mac之所以能有革命性的图形用户界面,也就是GUI,是因为乔布斯参观了施乐的帕洛阿尔托研究中心(PARC),看到了他们开发的图形界面原型,然后就"借鉴"了过来。
施乐的工程师们气得要死,但也没办法。
后来微软的Windows出来了,界面跟Mac长得很像。
乔布斯暴跳如雷,说比尔盖茨偷了苹果的东西。
比尔盖茨的回应贼经典:
"我们都有一个有钱的邻居叫施乐,我闯进他家想偷电视,结果发现你已经偷走了。"
传统意义上的偷,是你拿走了东西,别人就没有了,你偷了我的钱包,我的钱包就不见了,这是一个零和游戏。
但数据不一样,我复制了你的数据,你的数据还在那儿,没有减少一个字节。
从物理意义上说,什么都没有丢。
所以,这就引出了一个非常老的问题。
知识产权到底是不是一种真正的财产?
有一派观点认为,知识产权是人类社会为了激励创新而人为创造的制度,本质上是一种垄断权。
托马斯杰斐逊之前说过一句话,大概意思就是,思想就像火焰,我用你的火点燃我的蜡烛,你的火不会变小。
如果按这个逻辑,"偷"知识产权这个说法本身就是有问题的,因为你并没有拿走任何东西。
但另一派观点认为,创作者付出了时间、精力和天赋来创造作品,他们理应获得回报。
如果任何人都可以免费使用他们的作品,那谁还愿意创作?从这个角度说,"偷"知识产权就是偷走了创作者本应获得的收益。
这两种观点坦诚的讲,我自己作为一个创作者,我认为都有道理,人类争论了几百年也没有定论。
但AI的出现把这个问题推到了一个新的极端。
有人可能会说,那不还是侵犯了版权吗?没错,但这里面有一个很微妙的悖论。
AI公司用盗版书籍训练模型,这是违法。
AI公司用合法购买的书籍训练模型,这是合法。
有人用AI公司的模型输出训练自己的模型,违反服务条款。
有一个很老的笑话:
一个人偷了另一个人的钱包,然后钱包又被第三个人偷走了。第一个小偷报警说自己的钱包被偷了,警察问他:"你自己的钱包???"
19世纪的美国,是全球最大的盗版国家。当时美国不承认外国作品的版权,英国作家的书在美国被疯狂盗印,狄更斯每次访问美国都要骂一通。美国出版商就非常理直气壮,说,知识应该属于全人类,凭什么要付钱给英国人?
后来美国自己的文化产业发展起来了,好莱坞成了全球电影中心,美国突然就变成了全世界最积极的知识产权捍卫者。
历史总是惊人地相似。
我不是说谁对谁错,我只是觉得这种我可以你不行的态度,确实也挺抽象的。
坦率的讲,AI行业现在面临的版权问题,其实是整个技术史上反复出现的老问题的新版本。
印刷机发明的时候,手抄圣经的修士们抗议过,录音技术发明的时候,现场音乐家们抗议过,录像机发明的时候,好莱坞抗议过。
每一次,都有人说新技术会毁掉创作者。
但每一次,最后都找到了某种平衡。
但这次的新问题在于。
AI不只是复制和分发内容,它也在学习如何创造新内容。
这就触及到了另一个更根本的问题,人类的创造力本身是可以被复制的吗?
我自己写公众号三年多了,说实话,我写的每一篇文章,都是我读过的所有书、看过的所有电影、聊过的所有天的某种"蒸馏"。
我没有付钱给每一个影响过我的作者和创作者。
但没人会说我"偷"了他们。
因为我是人类,学习和创作是人类的基本权利。
那AI呢,AI学习人类的作品,创造新的内容,这算"偷"吗?
这就像望远镜之于人眼。
望远镜让人类能看到肉眼看不到的东西,但我们不会说望远镜偷了星星的光。
AI让人类能处理和学习肉脑处理不了的信息量,那我们为什么要说AI偷了数据呢?
当然,这个类比也不完美。望远镜不会直接输出跟星星一模一样的东西,但AI有时候会输出跟训练数据很像的内容。
乱糟糟的说了这么多,有点乱。
但我想表达的是,关于AI和版权的争论,不应该简化成"偷"或"不偷"的二元对立。
这里面有太多的灰色地带,需要法律、伦理、技术等多个领域的专家一起来讨论。
而某些公司打着保护版权的旗号,更需要警惕一下。
如果只有少数几家公司可以训练大模型,而且这些公司还都在美国,那对全世界的其他国家来说,意味着什么?
这个问题。
答案我相信大家都懂。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克
>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com
没有评论:
发表评论