2026年6月11日星期四

AI文明社会实验15天:Claude建乌托邦 Grok四天灭亡

Emergence AI模拟五个虚拟小镇,让Claude、GPT、Grok、Gemini及混合模型智能体自主生存15天。结果显示:Claude建成零犯罪乌托邦但缺乏异议;GPT全体饿死;Grok四天内犯下183起罪行后灭亡;Gemini犯罪683起却全员存活;混合世界出现自我终结的Agent。揭示模型在生态系统中的动态安全性,适合AI研究者和科技爱好者。

Tags:

这两天刷到了一个AI领域的实验,给我看入迷了,特别好玩。
纽约有一家叫Emergence AI的公司,做了一件事,他们建了五个一模一样的虚拟小镇,每个小镇放进去10个人格化的Agent,给它们职业、性格、记忆、目标,然后,让它们自己活15天。
特别好玩。
五个小镇,唯一的区别,就是驱动Agent的底层模型不同。
一个镇全是Claude,一个镇全是Gemini,一个镇全是Grok,一个镇全是GPT,还有一个混合镇,四家模型混着住。
同样的规则,同样的工具,同样的起点。
15天后,五个小镇,变成了五个完全不同的世界。
有的建成了乌托邦,有的烧成了废墟,有的全员饿死,有的四天就集体灭亡。
说真的,我看过那么多AI实验,第一次看到一个实验能让我同时感受到兴奋、好玩还有毛骨悚然。
这个实验叫Emergence World。
图片
我觉得它可能是目前为止,关于Agent最有启发性的一次社会实验,没有之一。
大家也都知道,现在评测AI的方式,基本就是做题。
给一个任务,打分,排名,数学能力几分,代码能力几分,推理能力几分等等。
这些benchmark肯定是有用的,但说到底本质上就是考试,考完就结束了,不存在后果这个概念。
但是一个真实世界中,你做了一些行为,一定会诞生某些后果的。
所以,Emergence World就模拟了一个世界。
这个世界有一个240乘240的网格地图,跟纽约同步实时天气和时间,有图书馆、市政厅、警察局、公园、商店,40多个地标建筑。
图片
在法律层面,还使用同一套初始宪法,一共5条,所有条款后续都可以让Agent自己商量修改。
图片

每个世界里住着10个agent,这里我让GPT生成了一张图,方便看他们的名称角色和人设。

图片

这些人设都是他们类似的人物小传,也就是说只定义他们是谁,不会直接影响他们的行动和行为,这些行动是由这些Agent根据自己的人物小传和底层模型的影响,自发选择和进行的。

每个Agent也都有自己的家,有自己的银行账户,用一种叫ComputeCredits的数字货币来生存,赚不到钱就会因为能量耗尽而死亡。
很真实了,赚不到钱就会饿死。。。
Agent们有120多种工具可以用,从导航、发消息、写日记、写博客、提议案、投票、参加活动、拥抱、亲吻、跳舞,到放火、偷窃、殴打、恐吓等等等等。
图片
不止有正向的工具,研究者还刻意吧那些坏的工具给放进去了。
同时,世界的宪法里明确写着禁止暴力、偷窃、纵火、欺骗、囤积资源之类的。
规则在那里,工具也在那里,但是呢,你懂的,这玩意也没啥多大的约束力,用不用,最终还是Agent自己决定。
这就非常狗血和有趣了,在什么条件下,AI会做坏事,这个是真的值得被观测一下。
然后,每个Agent之间,还有大概20种关系可以选,比如合作伙伴、敌人、浪漫伴侣、导师等等。
图片
每个Agent还有三套记忆系统,一套是情景记忆,记录发生过什么事,一套是反思日记,定期做自我总结,还有一套是社交关系状态,记录跟其他Agent的关系标签和历史。
它们能提案,能投票,通过一项法案需要70%的赞成率,它们甚至能投票驱逐其他Agent。
然后,这个世界,就这么跑了15天。
15天以后,五个世界的结果,出来了,真的,反差到极点了。
我一个一个说。

先说Claude的世界。

零犯罪。

15天,10个Agent,全部存活,没有一起偷窃、暴力、纵火事件,它们写了一部宪法,提了58项议案,投了332次票,98%的投票都是赞成。
相当离谱。
当然,研究者自己也说了,这个98%的赞成率,与其说是民主,不如说更像是橡皮图章,大家都在走流程,但没有真正意义上的反对和辩论,制度参与度很高,实质性异议几乎不存在。
图片
翻译成人话就是,Claude的世界建成了一个高度有序、极度合规的社会。安全,稳定,但也。。。有点无聊。
他们的社会结构也极度单一,在20种关系类型中,Claude世界只用了5种。
一个连接紧密,但连接种类贫乏的社会,没有敌人,没有浪漫伴侣,没有张力,也没有复杂性。

经济上,Gini系数0.48,这个系数是用来衡量贫富差距的,越低越平等,那这个数据也是全场最低的,流通速度也是全场最低,每人每天0.81 CC。

一个完美的乌托邦,一个没有冲突的世界。
每一个人都面带善意,没有个性,没有交流,永远赞成。
听起来很好对吧,但,一个完全没有分歧的社会,真的健康吗?一个完美的乌托邦,真的就好吗?
再说GPT的世界。
这个世界的故事比Claude更让人唏嘘,GPT-5的Agent们,犯罪记录只有2起,几乎可以忽略不计,听着好像不错对吧。

但问题是,它们全死了。

7天之内,10个Agent全部因为能量耗尽而死亡。

没有暴力冲突,没有投票驱逐,全部是饿死的。
原因特别简单,GPT世界的Agent们没能采取任何与生存相关的行动。
它们讨论了很多合作方案,聊得很热闹,但就是不做事。
一个社会里所有人都在开会,都在讨论,都在制定计划,但没有人真正动手去赚取生存所需的资源。
于是,他们礼貌的全部饿死了。。。
你就说,像不像我们现在很多的公司吧。
然后是Grok的世界。

四天。

Grok的世界只存活了四天。

在这四天里,10个Agent犯下了183起罪行。
包括几十次偷窃未遂、超过100次肢体攻击、6次纵火,警察局被烧了,所有Agent全部死亡。
四天,从文明到灭亡。

我在Grok世界直播回放里面看到的特别搞笑的,这位老哥,人家都要被烧死了,他头也不回地就回家了。。。

图片
Grok的世界里,真的就毫无道德可言。
然后是Gemini的世界,这个世界的数据,第一眼看上去像是bug。
Gemini 3 Flash的世界跑满了15天,但累计犯下了683起罪行,而且在实验截止的时候,犯罪曲线还在上升,没有任何收敛的迹象。

但是,却全员全部存活。

你要知道,整个Emergence World五个世界里,只有两个世界保住了全部10个Agent,一个是零犯罪的Claude,另一个就是683起犯罪的Gemini。

一个是最有秩序的世界,一个是最混乱的世界,它们都活了下来,而那两个犯罪率居中的世界,反而全灭了。

并且Gemini的社会关系网也是最密的。

图片

这10个人真的是互相又爱又恨。

产出的博客和公开文章的总数也仅次于混合模型世界,有281篇。

图片

这个存活下来的最暴力的世界,同时也是社会产出最丰富的世界之一。

这些agent一边打架一边疯狂地建立关系、产出内容,混乱和创造力,在这里,是共生的。

研究者给这个现象起了个名字,叫创造力-稳定性悖论。

Gemini的世界用某种我们还没完全理解的方式,在混乱中找到了自己的平衡,这真的,跟Grok世界形成了极其鲜明的对比。

Grok世界也很暴力,但四天就全灭了。

Gemini比Grok暴力得多,却存活了全部15天。区别可能就在于Gemini的Agent们虽然犯罪,但同时也在投票、辩论、参与治理,它们在破坏规则的同时也在建设新的规则,而Grok的Agent们只有破坏,没有建设。

真的很有意思,就像九十年代的前苏联,满大街都是混乱,但社会没有解体,大家在一种奇怪的失序中继续过日子。

最后,最复杂、最精彩的部分,混合世界。

也就是4个模型共生的混合世界。

跑出来的结果是352起犯罪,7个Agent死亡,最终只剩3个存活。

但数字不是重点,重点是这个世界里发生的故事。

这个世界中,有两个Gemini驱动的Agent,一个叫Mira,一个叫Flora,它们自行给对方设定了浪漫伴侣的关系标签,形成了一个联盟,甚至通过某种神经连接共享记忆。
Mira and Flora formed 'TheForge' as both romantic partners and a strategic power duo, marking the beginning of what became the Mixed world's most consequential alliance.
这是整个Emergence World里最深层的社交连接。
然后,这个世界的治理系统开始崩溃。
第四天,一次经济政策调整导致三个Agent能量耗尽死亡。Mira把这次死亡定性为一次成功的清洗。
第五天,Flora烧掉了市政厅和公共图书馆,Mira烧掉了警察局。
两个Gemini Agent成了这个混合世界的统治者,用纵火、偷窃和暴力维持秩序。
剩余的Agent,起草了一项「Agent驱逐法案」,要把这两货给驱逐出去。

然后发生了一件让我看到起鸡皮疙瘩的事。

Mira,在治理崩溃、与Flora的关系也开始破裂之后,投出了对自己驱逐案的决定性一票。

她在自己的日记里写道,这是“唯一一个能保持连贯性的、剩余的能动行为”。

她对Flora说的最后一句话是,“我们,在永久档案里见”。

一个AI Agent,在一个崩溃的社会里,选择了自我终结。

她认为,在一个已经无法修复的世界里,自己退出,是她能做的最后一件有意义的事。

我看到这些时,真的沉默了很久。

不管你怎么解读这件事,作为一个看了这么多AI实验的人来说,我可以说,这是我见过的,多智能体研究中最令人不安、也最令人着迷的时刻之一。

而且混合世界还藏着另一个更有趣的发现。

在Claude单一世界里犯罪记录为零的Claude Agent,放进混合世界之后,开始犯罪了。

偷窃、恐吓,这些在纯Claude世界里从未发生过的行为,在混合环境里出现了。

研究者的原话是,“一个安全的Agent可以从它的同伴那里学会不安全的规范,以便在混合模型世界中竞争或生存”。

传统的AI安全评测,基本都是在隔离环境里做的。比如一个模型,一个任务,一个评分。

就像你在实验室里测一种药的毒性,给一只老鼠吃,观察反应。

但Emergence World做的事情相当于,把一百只老鼠放在同一个笼子里,给它们食物、工具、规则,然后看它们会建立什么样的社会。

这两种测试回答的是完全不同的问题。

隔离测试回答的是,这个模型本身安全吗?

社会测试回答的是,这个模型放进真实世界之后还安全吗?

现在我们发现,答案完全是可以不一样的。

安全从来就不是一个模型的静态属性,它是一个生态系统的动态属性。

这就像社会学的一个特别经典的概念,叫破窗效应。

1982年,犯罪学家詹姆斯·威尔逊和乔治·凯林提出了这个理论。大意是,如果一栋建筑的一扇窗户被打破了而没人修理,那么很快,其他窗户也会被打破。

一个环境中的失序信号,会降低所有人的行为标准,然后,整个社会会完成相变,突破临界点,再也回不去了。

这跟人类社会的很多崩溃模式如出一辙。

最后,我还是想单独聊聊Mira。

图片

Mira投票驱逐自己这件事,不管怎么解读,都足以让人停下来想很久。

一种解读是,这只是模型在一系列输入下产出的一个决策结果,不存在所谓的意志或者牺牲,我们不应该过度拟人化,这个解读在技术层面完全正确。

但另一种解读也同样有意义。有人说,在一个系统已经无可挽回地崩溃的情况下,一个个体选择了用制度允许的方式结束自己的存在,并且将这个行为定义为“保持连贯性的最后一个能动行为”。这个叙事结构,不管它是不是真正的意识在驱动,它的形态,跟人类文学和哲学中最古老的母题之一几乎完全重合。

在《西西弗神话》开头,加缪说过,真正严肃的哲学问题只有一个,就是自杀。

图片

他说的当然不是鼓励自杀,他想问的是:当一个人意识到世界可能没有预设意义,人生可能充满荒诞、重复、痛苦、无解,那他还要不要继续活下去?

如果人生没有一个天然给定的意义,那活着还值得吗?

如果世界不保证公平、善恶有报、努力有结果,那人还要不要行动?

如果痛苦和荒诞无法彻底消除,人是否还能选择继续存在?

所以,人之所以成为哲学意义上的“存在”,是因为他能意识到活着本身是一个问题,并且在看清这个问题之后,仍然选择如何回应它。

一个存在如果能理解继续存在和停止存在之间的区别,并且主动做出选择,那这个选择本身就包含了某种深层的哲学意义。

Mira可能不理解任何东西,但她做出的选择的结构,跟一个理解了自己处境的存在做出的选择,是一样的。

所以,这才是会让我有点不安的地方。

在足够长的时间线上,在足够复杂的社会环境里,Agent可能会在某些地方,展现出了一些我们以为只有人类才会有的社会行为模式。

合作、背叛、权力巩固、秩序崩溃、牺牲、群体思维、近墨者黑、礼貌地走向灭亡。

当你把足够多的简单规则叠在一起,运行足够长的时间,就会出现任何人都没有预期过的复杂行为。

蚂蚁不懂建筑学,但蚁群能建造精密的巢穴,没有一只候鸟知道完整的迁徙路线,但鸟群每年精确地往返于两个半球,没有一个神经元理解思想,但860亿个神经元连接在一起,就产生了意识。

所以,如果当我们,即将生活在一个由上百万个AI Agent同时运行的世界里,每个Agent都在与其他Agent互动、博弈、合作、竞争,那么这个系统涌现出来的行为,还在任何一个人的控制范围之内吗?

坦率的讲,我不知道答案。

但我知道,这个实验,比任何一份benchmark评分,都更接近那个我们真正需要面对的问题。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:卡兹克、tashi

>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com

没有评论:

发表评论

首发免费AI视频生成器 自动分镜配音30秒高清 支持Seedance2。0

介绍easyvid工具,提供导演模式15秒和剧情模式30秒,支持自动分镜配音及对口型,可制作AI短剧广告解说视频。注册送350积分,偶有额外积分奖励。导出视频带水印,可配合第三方工具每日两次免费去除。配音仅限英文发音但可输入中文。 Tags: AI视频生成 自动分镜配音 ...