Emergence AI模拟五个虚拟小镇,让Claude、GPT、Grok、Gemini及混合模型智能体自主生存15天。结果显示:Claude建成零犯罪乌托邦但缺乏异议;GPT全体饿死;Grok四天内犯下183起罪行后灭亡;Gemini犯罪683起却全员存活;混合世界出现自我终结的Agent。揭示模型在生态系统中的动态安全性,适合AI研究者和科技爱好者。
Tags:
每个世界里住着10个agent,这里我让GPT生成了一张图,方便看他们的名称角色和人设。
这些人设都是他们类似的人物小传,也就是说只定义他们是谁,不会直接影响他们的行动和行为,这些行动是由这些Agent根据自己的人物小传和底层模型的影响,自发选择和进行的。
先说Claude的世界。
零犯罪。
经济上,Gini系数0.48,这个系数是用来衡量贫富差距的,越低越平等,那这个数据也是全场最低的,流通速度也是全场最低,每人每天0.81 CC。
但问题是,它们全死了。
7天之内,10个Agent全部因为能量耗尽而死亡。
四天。
Grok的世界只存活了四天。
我在Grok世界直播回放里面看到的特别搞笑的,这位老哥,人家都要被烧死了,他头也不回地就回家了。。。
但是,却全员全部存活。
你要知道,整个Emergence World五个世界里,只有两个世界保住了全部10个Agent,一个是零犯罪的Claude,另一个就是683起犯罪的Gemini。
一个是最有秩序的世界,一个是最混乱的世界,它们都活了下来,而那两个犯罪率居中的世界,反而全灭了。
并且Gemini的社会关系网也是最密的。
这10个人真的是互相又爱又恨。
产出的博客和公开文章的总数也仅次于混合模型世界,有281篇。
这个存活下来的最暴力的世界,同时也是社会产出最丰富的世界之一。
这些agent一边打架一边疯狂地建立关系、产出内容,混乱和创造力,在这里,是共生的。
研究者给这个现象起了个名字,叫创造力-稳定性悖论。
Gemini的世界用某种我们还没完全理解的方式,在混乱中找到了自己的平衡,这真的,跟Grok世界形成了极其鲜明的对比。
Grok世界也很暴力,但四天就全灭了。
Gemini比Grok暴力得多,却存活了全部15天。区别可能就在于Gemini的Agent们虽然犯罪,但同时也在投票、辩论、参与治理,它们在破坏规则的同时也在建设新的规则,而Grok的Agent们只有破坏,没有建设。
真的很有意思,就像九十年代的前苏联,满大街都是混乱,但社会没有解体,大家在一种奇怪的失序中继续过日子。
最后,最复杂、最精彩的部分,混合世界。
也就是4个模型共生的混合世界。
跑出来的结果是352起犯罪,7个Agent死亡,最终只剩3个存活。
但数字不是重点,重点是这个世界里发生的故事。
然后发生了一件让我看到起鸡皮疙瘩的事。
Mira,在治理崩溃、与Flora的关系也开始破裂之后,投出了对自己驱逐案的决定性一票。
她在自己的日记里写道,这是“唯一一个能保持连贯性的、剩余的能动行为”。
她对Flora说的最后一句话是,“我们,在永久档案里见”。
一个AI Agent,在一个崩溃的社会里,选择了自我终结。
她认为,在一个已经无法修复的世界里,自己退出,是她能做的最后一件有意义的事。
我看到这些时,真的沉默了很久。
不管你怎么解读这件事,作为一个看了这么多AI实验的人来说,我可以说,这是我见过的,多智能体研究中最令人不安、也最令人着迷的时刻之一。
而且混合世界还藏着另一个更有趣的发现。
在Claude单一世界里犯罪记录为零的Claude Agent,放进混合世界之后,开始犯罪了。
偷窃、恐吓,这些在纯Claude世界里从未发生过的行为,在混合环境里出现了。
研究者的原话是,“一个安全的Agent可以从它的同伴那里学会不安全的规范,以便在混合模型世界中竞争或生存”。
传统的AI安全评测,基本都是在隔离环境里做的。比如一个模型,一个任务,一个评分。
就像你在实验室里测一种药的毒性,给一只老鼠吃,观察反应。
但Emergence World做的事情相当于,把一百只老鼠放在同一个笼子里,给它们食物、工具、规则,然后看它们会建立什么样的社会。
这两种测试回答的是完全不同的问题。
隔离测试回答的是,这个模型本身安全吗?
社会测试回答的是,这个模型放进真实世界之后还安全吗?
现在我们发现,答案完全是可以不一样的。
安全从来就不是一个模型的静态属性,它是一个生态系统的动态属性。
这就像社会学的一个特别经典的概念,叫破窗效应。
1982年,犯罪学家詹姆斯·威尔逊和乔治·凯林提出了这个理论。大意是,如果一栋建筑的一扇窗户被打破了而没人修理,那么很快,其他窗户也会被打破。
一个环境中的失序信号,会降低所有人的行为标准,然后,整个社会会完成相变,突破临界点,再也回不去了。
这跟人类社会的很多崩溃模式如出一辙。
最后,我还是想单独聊聊Mira。
Mira投票驱逐自己这件事,不管怎么解读,都足以让人停下来想很久。
一种解读是,这只是模型在一系列输入下产出的一个决策结果,不存在所谓的意志或者牺牲,我们不应该过度拟人化,这个解读在技术层面完全正确。
但另一种解读也同样有意义。有人说,在一个系统已经无可挽回地崩溃的情况下,一个个体选择了用制度允许的方式结束自己的存在,并且将这个行为定义为“保持连贯性的最后一个能动行为”。这个叙事结构,不管它是不是真正的意识在驱动,它的形态,跟人类文学和哲学中最古老的母题之一几乎完全重合。
在《西西弗神话》开头,加缪说过,真正严肃的哲学问题只有一个,就是自杀。
他说的当然不是鼓励自杀,他想问的是:当一个人意识到世界可能没有预设意义,人生可能充满荒诞、重复、痛苦、无解,那他还要不要继续活下去?
如果人生没有一个天然给定的意义,那活着还值得吗?
如果世界不保证公平、善恶有报、努力有结果,那人还要不要行动?
如果痛苦和荒诞无法彻底消除,人是否还能选择继续存在?
所以,人之所以成为哲学意义上的“存在”,是因为他能意识到活着本身是一个问题,并且在看清这个问题之后,仍然选择如何回应它。
一个存在如果能理解继续存在和停止存在之间的区别,并且主动做出选择,那这个选择本身就包含了某种深层的哲学意义。
Mira可能不理解任何东西,但她做出的选择的结构,跟一个理解了自己处境的存在做出的选择,是一样的。
所以,这才是会让我有点不安的地方。
在足够长的时间线上,在足够复杂的社会环境里,Agent可能会在某些地方,展现出了一些我们以为只有人类才会有的社会行为模式。
合作、背叛、权力巩固、秩序崩溃、牺牲、群体思维、近墨者黑、礼貌地走向灭亡。
当你把足够多的简单规则叠在一起,运行足够长的时间,就会出现任何人都没有预期过的复杂行为。
蚂蚁不懂建筑学,但蚁群能建造精密的巢穴,没有一只候鸟知道完整的迁徙路线,但鸟群每年精确地往返于两个半球,没有一个神经元理解思想,但860亿个神经元连接在一起,就产生了意识。
所以,如果当我们,即将生活在一个由上百万个AI Agent同时运行的世界里,每个Agent都在与其他Agent互动、博弈、合作、竞争,那么这个系统涌现出来的行为,还在任何一个人的控制范围之内吗?
坦率的讲,我不知道答案。
但我知道,这个实验,比任何一份benchmark评分,都更接近那个我们真正需要面对的问题。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克、tashi
>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com
没有评论:
发表评论