2025年4月6日星期日

AI爬虫肆虐,OpenAI等大厂不讲武德!开发者打造「神级武器」宣战

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future


转载自:新智元

如有侵权,联系删稿

AI网络爬虫是互联网上的「蟑螂」,几乎所有软件开发者都会这样认为的。
「爬虫」是一种网络自动程序,用来浏览互联网、获取网页内容。
而在AI时代,爬虫的威胁到了让开发者不得不封锁掉某个地区所有人的访问。
Triplegangers是一家仅仅由七名员工运营的公司,他们花费十多年时间建立了自称是网络上最大的「人类数字替身」的数据库,即从实际人体扫描得到的3D图像文件。

2025年2月10日,公司CEO Oleksandr Tomchuk突然发现他们公司的电商网站「崩了」。

「OpenAI使用了600个IP来抓取数据,日志还在分析中,可能远不止这些」,Tomchuk最终发现,导致他们网站崩溃的元凶竟然是OpenAI的爬虫机器人。

「他们的爬虫正在压垮我们的网站,这就是一次DDoS攻击!」

OpenAI没有回应此次事件,该事件过去仅仅不到两个月,但AI爬虫机器人仍然活跃在网络上。

AI爬虫不遵循「古老传统」,阻止他们是徒劳的

其实爬虫最早并不是AI时代为了获取训练语料而诞生的。

早在搜索引擎时代,就已经有「搜索引擎机器人」,那个「古老年代」的机器人还约定俗成的遵循各个网站上会存在的一份文件——robots.txt。

这个文件告诉了机器人不要爬取哪些内容,哪些内容可以爬取。

但这份传统随着互联网的发展似乎已经被遗忘,爬虫和发爬虫也演变为一场攻防战役。

而到了如今的「大模型时代」,互联网的信息已经被LLMs吞噬一空。

阻止AI爬虫机器人是徒劳的,因为它们会撒谎、更改用户代理、使用住宅IP地址作为代理来骗过网络「防守」。

「他们会不断地抓取你的网站,直到它崩溃,然后还会继续抓取。他们会点击每一个页面上的每一个链接上,一遍又一遍地查看相同的页面」,开发者在帖子中写道。

AI机器人除了「免费」爬取信息外,还会额外增加所爬网站企业的运营费用——在这个云服务的时代,几乎所有被爬取的企业都在云上,大量的爬虫流量不仅无法带来收益,还会增加他们的云服务器账单。

更加无法预料的一点是,对于那些被「白嫖」的网站来说,甚至确切的知道被白嫖了哪些信息。

一些开发者决定开始以巧妙且幽默的方式进行反击。

程序员打造爬虫的「神之墓地」

FOSS开发者Xe Iaso在博客中描述了AmazonBot如何不断攻击一个Git服务器网站,导致DDoS停机。

所以Iaso决定用智慧反击,他构建了一个名为Anubis的工具。

Anubis是一个工作量证明检查的反向代理,请求必须通过该检查才能访问Git服务器。

它阻止机器人,但允许人类操作的浏览器通过。

Iaso关于Anubis工作原理的简单介绍。

本质上,Anubis确保的是「真实人类使用的浏览器」在访问目标网站,而不是AI爬虫——除非这个爬虫伪装的足够「先进」,就像通过图灵测试一样。

有趣的部分是:Anubis是埃及神话中引导死者接受审判的神的名字。