你有没有想过,Meta 训练 AI 用的数据里,有可能不只是维基百科、小说、YouTube 视频……而是你在某个晚上偷偷下载的成人电影?
你没听错。是色情片。而且不是三两个,而是 2396 部!
就连提起这事的方式,都像是段子。
2025 年 7 月 23 日,两家美国成人电影公司——Strike 3 Holdings 和 Counterlife Media,把 Meta 告上了加州北区联邦法院。
他们说,从 2018 年开始,Meta 用 BitTorrent(也就是 BT 下载)偷偷下载了他们旗下的 2396 部成人电影,用来训练自家的 AI 模型。包括视频生成器 Meta Movie Gen、LLaMA 大语言模型,还有其他"未透露名称的模型"。
营销号标题我都替他们想好了,重生之《Facebook 盗播我拍的黄片,用来做 AI》。
而且这起案件潜在赔偿高达 3.59 亿美元,每部片子 15 万美元。
我知道你想问:Meta 这么大一公司,怎么会干这种事?难道付个片源授权的钱有那么难?
但慢着,这事真没你想的那么简单。这关系到的不仅仅是"看黄片"这么简单,它揭开了一个所有 AI 公司都不愿意正面回答的问题:训练数据到底哪来的?
一、Meta,是怎么把自己送上法庭的
故事要从另一个案子说起。2023 年,Meta 被一批作家集体起诉,说它用盗版图书训练自家的 LLaMA 模型。而在那个案子里,Meta 自己承认:是的,我们的确用了 BitTorrent,从多个"影子图书馆"下载了大量盗版书籍,总共 81.7TB 的数据。
注意,这不是「员工擅自行为」,是平台层面参与的事情。公司设了六个虚拟私有云服务器(VPC),连着匿名 IP 地址,用来掩盖 BitTorrent 活动。他们甚至写了脚本来控制做种行为,以防自己太明显地暴露。
也正是在这个案子中,Strike 3 发现了 Meta 的 IP 地址出现在 BT 群组里。
于是他们开始顺藤摸瓜,把 Meta 相关的 47 个 IP 地址一一筛查、匹配下载记录,还用 MaxMind 做地理定位,再结合他们内部的追踪软件 VXN Scan 和 Cross Reference Tool,挖出了一个令人目瞪口呆的结果:这些 IP 多年来一直在稳定下载并做种他们家的成人电影,而且是"高频 + 长时段 + 多分辨率"同步下载,有着明显"非人类"的行为模式。
「比如下图所示的 185.89.216.251,根据 MaxMind IP 数据库,归属于 Facebook 公司名下,连接类型为 Corporate 网络。」
你以为这就完了?当然不是。
有多个 IP 虽然不归属 Meta,但与其下载行为在内容、分辨率、语言版本上几乎完全重合,且出现在同一 BT 群组中,存在高度协同嫌疑。Strike 3 将其定义为 Meta 可能搭建的 off-infra 服务器(即公司架构外的行为代理)。
其中一个 IP 地址追踪到了一个 Comcast 家庭宽带,绑定在某个 Facebook 员工的家中。
图:Strike 3 提供的侵权 IP 证据片段,包含 Meta 公司 IP、隐藏 IP 段(Range B / Range F)及员工住宅 IP,下载行为从 2018 年持续至 2025 年
没错,有人在公司干不完的活,晚上回家接着用自家 Wi-Fi 下片做种,继续贡献训练数据。
仔细想想真荒唐。。这也正是这起官司里最致命的地方——系统性、工具化的"以播促下"式盗播训练。
二、为什么偏偏是色情片?
Strike 3 的律师在诉状里解释了这个问题,说得很"法务",但翻译成人话就是:
我们这些黄片,画质高、分辨率高、镜头长、表情自然、对话有节奏、动作有连贯性、场景变化少。
对于训练 AI 模型,尤其是生成类视频模型来说,没有比这种素材更理想的了。
大多数电视剧剪辑太快,镜头太多,表演太做作。新闻视频没有人物互动。YouTube 视频缺乏一致性。而成人电影呢?它天然有一个清晰的"故事线",人物动作从开始到结束基本在一个空间中完成,配音与肢体一致,而且角色情绪、表情都是真人表演。
当然,除此之外它还有其他训练数据没有的「独特场景」。
所以,这些片子在 Meta 内部,成了一种训练黄金素材。
更关键的是,它们在 BT 网络里太好找了。而且种子越热门,下载越快。于是 Meta 干脆用"以种换种"的办法,把别人家的片子做种传播出去,用来换回其他内容。种得越多,换得越快。BT 的算法就是"tit for tat",你播种给我,我就给你更多速度。
这就从顺手拿来变成了主动交易。
三、数据越脏,模型越香
说到底,这不是 Meta 第一次这么干了。
上次用书,这次用片。前者你可能会说"不过是几本小说",后者你也许会想"成年人都看过",但事情的本质是一样的:
Meta 正在用一套灰色操作链,替自己省下大笔训练数据授权费。
起诉书里写得清清楚楚:
自 2018 年至今,Meta 持续侵犯了 2396 部影片;
分发行为持续时间从"数天"到"数月";
做种行为并不是个别行为,而是系统性部署,配有专用服务器;
就连 Meta 员工家里的网络都被用来贡献数据;
多达 10 万次的下载分发交易,有详细 PCAP 记录可查;
在收到律师函警告之后,仍有行为持续。
你可能会觉得这有点扯:Meta 不是有钱吗?能花钱挖这么多人,真至于在数据上省这个钱?
但你要知道,训练一个视频生成模型需要的素材量是"百万小时"级别的。若全用正版,授权费用能过亿美元。而这些影片,在 BT 网络上几乎唾手可得。
在"没有数据就没有 AI"的现实里,"先抓后和解"已经变成了行业潜规则。OpenAI、Stability、Google……哪家不是先偷后赔?
只是这次,Meta 撞上了一个极为擅长打官司、且对版权看得比命还重的对手——Strike 3。
说到这儿,我们必须再讲一个背景故事。
Strike 3 是美国最喜欢打官司的成人电影公司之一。他们几乎所有业务都围绕版权维权来展开,靠打盗版官司收和解费,年入数千万美元,已经把"维权"做成了流水线生意。
据统计,从 2017 年到 2023 年,Strike 3 就在美国联邦法院提起了近 9500 起此类诉讼。平均下来几乎每天都在起诉,且大多采用"John Doe"匿名形式锁定 IP 地址后,通过法院命令向 ISP 索取用户身份,再发律师函要求庭外和解。
他们甚至自研了一整套追踪系统 VXN Scan,每天扫描 BT 网络,看哪些 IP 在播种自家影片。可以说,他们在意的不是片子有没有被看,而是有没有人为此付钱。所以打造了一种既赚钱又不违法的商业模式:抓 IP 地址发律师函。一封信寄过去,许多普通人就会乖乖付几百美元私了,落袋为安。
但这次他们盯上的可是 Meta。一个手握 Instagram、WhatsApp、Ray-Ban 智能眼镜和 AI 实验室,市值超 1.7 万亿美元的全球科技巨头。
这一回合,刚好是两种最极端的版权思维的正面对撞。
一边是"你不付钱我就搞你",一边是"你有片我就拿来用"。
狭路相逢勇者胜。
四、现实,比 AI 生成还魔幻
我们很容易用"看黄片训练 AI"来调侃这件事。但你有没有意识到,它其实揭露的是一个全行业共同回避的问题:AI 模型吃进去的数据,没人知道是什么,也没人愿意说清楚它从哪来的。
Meta 不是第一个,也不会是最后一个。只要监管缺位、披露不透明、法律落后,这种"数据洗白"就会成为主流。
这次是情色片,下一次也许是你的医疗影像、你家的监控录像、你写的小说、你朋友的语音聊天。
所有这些,都会被"以研究为名"的 AI 模型在黑夜里吞噬。
你甚至不知道它们被用来干嘛,最后会变成什么。
就像这次。那些片段,被喂给了一个叫 Meta Movie Gen 的模型。也许哪天,它能一键生成一部你完全无法分辨是真人还是 AI 拍的动作片,甚至演员的表情和情绪都真实得让你出戏。
而你从头到尾,都不知道它是谁教的动作。
但也不是所有人都在假装看不见。就在上个月,Cloudflare 更新了政策:默认拦截所有未经许可的 AI 网络爬虫。只要你的网站挂在他们的 CDN 上,那些自称是"AI 研究"的爬虫,连内容都看不见。他们的态度很明确:你要数据,请先打招呼。
这就是差别。有的公司在训练 AI 之前,先考虑别人的权利。而有的公司则在训练完之后,才开始算计怎么掩盖自己用过什么。。。
Meta 至今还没有回应这场官司。可能他们在等和解,可能在准备技术澄清,或者干脆等公众忘记这件事。
无论这场官司最终胜负如何,有一个事实不会变:AI 的未来,正是用你以为没人会看的数据,一点点喂大的。
你看到的是技术进步,它看到的是训练素材。
而素材,从来都不只是数据。
它也可能是你。
没有评论:
发表评论