2025年8月19日星期二

2396部黄片,Meta偷黄片训练AI,遭天价索赔,一片罚15万。。。

图片

你有没有想过,Meta 训练 AI 用的数据里,有可能不只是维基百科、小说、YouTube 视频……而是你在某个晚上偷偷下载的成人电影?

你没听错。是色情片。而且不是三两个,而是 2396 部!

就连提起这事的方式,都像是段子。

2025 年 7 月 23 日,两家美国成人电影公司——Strike 3 Holdings 和 Counterlife Media,把 Meta 告上了加州北区联邦法院。

图片

他们说,从 2018 年开始,Meta 用 BitTorrent(也就是 BT 下载)偷偷下载了他们旗下的 2396 部成人电影,用来训练自家的 AI 模型。包括视频生成器 Meta Movie Gen、LLaMA 大语言模型,还有其他"未透露名称的模型"。

营销号标题我都替他们想好了,重生之《Facebook 盗播我拍的黄片,用来做 AI》。

而且这起案件潜在赔偿高达 3.59 亿美元,每部片子 15 万美元。

图片

我知道你想问:Meta 这么大一公司,怎么会干这种事?难道付个片源授权的钱有那么难?

但慢着,这事真没你想的那么简单。这关系到的不仅仅是"看黄片"这么简单,它揭开了一个所有 AI 公司都不愿意正面回答的问题:训练数据到底哪来的

一、Meta,是怎么把自己送上法庭的

故事要从另一个案子说起。2023 年,Meta 被一批作家集体起诉,说它用盗版图书训练自家的 LLaMA 模型。而在那个案子里,Meta 自己承认:是的,我们的确用了 BitTorrent,从多个"影子图书馆"下载了大量盗版书籍,总共 81.7TB 的数据。

图片

注意,这不是「员工擅自行为」,是平台层面参与的事情。公司设了六个虚拟私有云服务器(VPC),连着匿名 IP 地址,用来掩盖 BitTorrent 活动。他们甚至写了脚本来控制做种行为,以防自己太明显地暴露。

也正是在这个案子中,Strike 3 发现了 Meta 的 IP 地址出现在 BT 群组里。

于是他们开始顺藤摸瓜,把 Meta 相关的 47 个 IP 地址一一筛查、匹配下载记录,还用 MaxMind 做地理定位,再结合他们内部的追踪软件 VXN Scan 和 Cross Reference Tool,挖出了一个令人目瞪口呆的结果:这些 IP 多年来一直在稳定下载并做种他们家的成人电影,而且是"高频 + 长时段 + 多分辨率"同步下载,有着明显"非人类"的行为模式。

图片

「比如下图所示的 185.89.216.251,根据 MaxMind IP 数据库,归属于 Facebook 公司名下,连接类型为 Corporate 网络。」

图片

你以为这就完了?当然不是。

有多个 IP 虽然不归属 Meta,但与其下载行为在内容、分辨率、语言版本上几乎完全重合,且出现在同一 BT 群组中,存在高度协同嫌疑。Strike 3 将其定义为 Meta 可能搭建的 off-infra 服务器(即公司架构外的行为代理)。

其中一个 IP 地址追踪到了一个 Comcast 家庭宽带,绑定在某个 Facebook 员工的家中。

图片

图:Strike 3 提供的侵权 IP 证据片段,包含 Meta 公司 IP、隐藏 IP 段(Range B / Range F)及员工住宅 IP,下载行为从 2018 年持续至 2025 年

没错,有人在公司干不完的活,晚上回家接着用自家 Wi-Fi 下片做种,继续贡献训练数据。

仔细想想真荒唐。。这也正是这起官司里最致命的地方——系统性、工具化的"以播促下"式盗播训练。

二、为什么偏偏是色情片?

Strike 3 的律师在诉状里解释了这个问题,说得很"法务",但翻译成人话就是:

我们这些黄片,画质高、分辨率高、镜头长、表情自然、对话有节奏、动作有连贯性、场景变化少。

对于训练 AI 模型,尤其是生成类视频模型来说,没有比这种素材更理想的了。

大多数电视剧剪辑太快,镜头太多,表演太做作。新闻视频没有人物互动。YouTube 视频缺乏一致性。而成人电影呢?它天然有一个清晰的"故事线",人物动作从开始到结束基本在一个空间中完成,配音与肢体一致,而且角色情绪、表情都是真人表演。

当然,除此之外它还有其他训练数据没有的「独特场景」。

图片

所以,这些片子在 Meta 内部,成了一种训练黄金素材。

更关键的是,它们在 BT 网络里太好找了。而且种子越热门,下载越快。于是 Meta 干脆用"以种换种"的办法,把别人家的片子做种传播出去,用来换回其他内容。种得越多,换得越快。BT 的算法就是"tit for tat",你播种给我,我就给你更多速度。

这就从顺手拿来变成了主动交易。

三、数据越脏,模型越香

说到底,这不是 Meta 第一次这么干了。

上次用书,这次用片。前者你可能会说"不过是几本小说",后者你也许会想"成年人都看过",但事情的本质是一样的:

Meta 正在用一套灰色操作链,替自己省下大笔训练数据授权费。

起诉书里写得清清楚楚:

  • 自 2018 年至今,Meta 持续侵犯了 2396 部影片;

  • 分发行为持续时间从"数天"到"数月";

  • 做种行为并不是个别行为,而是系统性部署,配有专用服务器;

  • 就连 Meta 员工家里的网络都被用来贡献数据;

  • 多达 10 万次的下载分发交易,有详细 PCAP 记录可查;

  • 在收到律师函警告之后,仍有行为持续。

你可能会觉得这有点扯:Meta 不是有钱吗?能花钱挖这么多人,真至于在数据上省这个钱?

但你要知道,训练一个视频生成模型需要的素材量是"百万小时"级别的。若全用正版,授权费用能过亿美元。而这些影片,在 BT 网络上几乎唾手可得。

在"没有数据就没有 AI"的现实里,"先抓后和解"已经变成了行业潜规则。OpenAI、Stability、Google……哪家不是先偷后赔?

只是这次,Meta 撞上了一个极为擅长打官司、且对版权看得比命还重的对手——Strike 3。

说到这儿,我们必须再讲一个背景故事。

Strike 3 是美国最喜欢打官司的成人电影公司之一。他们几乎所有业务都围绕版权维权来展开,靠打盗版官司收和解费,年入数千万美元,已经把"维权"做成了流水线生意。

据统计,从 2017 年到 2023 年,Strike 3 就在美国联邦法院提起了近 9500 起此类诉讼。平均下来几乎每天都在起诉,且大多采用"John Doe"匿名形式锁定 IP 地址后,通过法院命令向 ISP 索取用户身份,再发律师函要求庭外和解。

图片

他们甚至自研了一整套追踪系统 VXN Scan,每天扫描 BT 网络,看哪些 IP 在播种自家影片。可以说,他们在意的不是片子有没有被看,而是有没有人为此付钱。所以打造了一种既赚钱又不违法的商业模式:抓 IP 地址发律师函。一封信寄过去,许多普通人就会乖乖付几百美元私了,落袋为安。

图片

但这次他们盯上的可是 Meta。一个手握 Instagram、WhatsApp、Ray-Ban 智能眼镜和 AI 实验室,市值超 1.7 万亿美元的全球科技巨头。

这一回合,刚好是两种最极端的版权思维的正面对撞。

一边是"你不付钱我就搞你",一边是"你有片我就拿来用"。

狭路相逢勇者胜。

四、现实,比 AI 生成还魔幻

我们很容易用"看黄片训练 AI"来调侃这件事。但你有没有意识到,它其实揭露的是一个全行业共同回避的问题:AI 模型吃进去的数据,没人知道是什么,也没人愿意说清楚它从哪来的

Meta 不是第一个,也不会是最后一个。只要监管缺位、披露不透明、法律落后,这种"数据洗白"就会成为主流。

这次是情色片,下一次也许是你的医疗影像、你家的监控录像、你写的小说、你朋友的语音聊天。

所有这些,都会被"以研究为名"的 AI 模型在黑夜里吞噬。

你甚至不知道它们被用来干嘛,最后会变成什么。

就像这次。那些片段,被喂给了一个叫 Meta Movie Gen 的模型。也许哪天,它能一键生成一部你完全无法分辨是真人还是 AI 拍的动作片,甚至演员的表情和情绪都真实得让你出戏。

而你从头到尾,都不知道它是谁教的动作。

但也不是所有人都在假装看不见。就在上个月,Cloudflare 更新了政策:默认拦截所有未经许可的 AI 网络爬虫。只要你的网站挂在他们的 CDN 上,那些自称是"AI 研究"的爬虫,连内容都看不见。他们的态度很明确:你要数据,请先打招呼。

图片

这就是差别。有的公司在训练 AI 之前,先考虑别人的权利。而有的公司则在训练完之后,才开始算计怎么掩盖自己用过什么。。。

Meta 至今还没有回应这场官司。可能他们在等和解,可能在准备技术澄清,或者干脆等公众忘记这件事。

无论这场官司最终胜负如何,有一个事实不会变:AI 的未来,正是用你以为没人会看的数据,一点点喂大的。

你看到的是技术进步,它看到的是训练素材。

而素材,从来都不只是数据。

它也可能是你。

没有评论:

发表评论

人物一致性新王Nano Banana登基,AI图片编辑史诗级升级。

Google还是太全面了 是不是以为我又标题党了。 但是这玩意我觉得真的够强,在我实际工作中也已经用上好几天,所以,体验下来,我是真的觉得对的这个史诗级名号。 这个神秘的AI绘图的新模型,叫做,Nano Banana。 虽然现在还只能在LMArena盲测的时候随机出现,还没有...