2024年8月11日星期日

AI大模型能理解细思极恐的推理故事吗?


一个男人走进一家餐厅,点了一碗海龟汤,喝完之后他就举枪自杀了,请问为什么?
-----------------------------------------------
他和妻子度蜜月时遭遇海难,流落荒岛,由于没有粮食,妻子被饿死,同伴用妻子的肉煮汤给他喝,骗他是海龟汤。
后来他被路过的船只救走,今天,他喝到真正的海龟汤,才想起来当时吃下的是妻子的肉,悔恨之下举枪自尽。

以上就是一个海龟汤的故事。
海龟汤游戏是一种推理游戏,其中玩家需要根据一个简短的故事背景("汤面")猜测出隐藏的故事真相("汤底")。
游戏的规则很简单:玩家可以提出是/否类型的问题,裁判只能根据已知的"汤底"来判断问题的答案。
比如用户可能会问:汤里有毒药吗?
裁判就会回答:不是。
这个循环直到用户猜到真相为止。


最近看到大神Mazzystar在用这种新的方式去评估大模型的能力。
以海龟汤故事来评估大模型的好处有以下几点:
- 无需背景知识:
海龟汤游戏中的故事和推理所需的信息都包含在"汤面"(题目)和"汤底"(答案)中,不同模型的知识库差异不会影响评估的公平性。
- 客观性强:
模型在游戏中的表现可以通过对、错/不相关三个标准来衡量,这种判断是基于已知事实的,因此具有很高的客观性。
- 易于量化:
海龟汤游戏中的猜测结果容易量化和收集结果。
- 动态更新:
由于玩家的猜测具有无限的可能性,测试数据集可以不断更新,避免了模型因过度训练在特定数据集上的表现异常优秀的问题。

Mazzystar的团队进行了持续了 两周的人工标注,最终从 2.6 万条数据中,获得了 4448 条干净的数据,最终得到了 1537 条准确率几乎 100%的标注结果。


测试结果显示,Claude 3.5 Sonnet凭借其卓越的推理能力,在所有模型中脱颖而出,成为了第一梯队的代表,第二梯队包括GPT4o、Qwen2 72B等等。

我尝试用通义和Claude玩了一下,对比下结果。

汤面:
夜晚,贫穷的拾荒者捡了一台洗衣机回家。半夜他从睡梦中惊醒,好像听到了洗衣机启动的声音。


第一次问:有人在洗衣机里面:
两者都回答:错。


第二次问:有人把东西放在里面了:
这里两个模型的出现了分歧:
- Claude:错,里面没有东西。
- 通义:对,里面有东西。


第三次问:有其他人启动了洗衣机:
两者都回答:对。


后面太长就省略了,直接揭晓答案汤底:
凶手杀人分尸,将尸体装入洗衣机内,再用洗衣机运尸块到郊外。拾荒者开着小三轮捡到洗衣机时凶手刚刚取出全部尸块,正在不远处奋力挖土填坑。
凶手反应过来时,拾荒者已经开着小三轮带着洗衣机跑了。于是凶手跟踪拾荒者到家,潜入家里启动洗衣机,为了清洗掉里面的血迹。

所以测试出来Claude的推理能力真的非常强,它真正地理解了整个故事线的逻辑:
杀手杀人分尸-装进洗衣机-取出全部尸块准备埋尸-拾荒者出现拿走洗衣机-杀手跟踪-杀手启动洗衣机清洗血迹-拾荒者醒来
所以当我问洗衣机里面有没有东西的时候,只有Claude回答正确,后面我测试了其他国产模型都回答错了。
这里洗衣机当然已经是没有东西了,杀手已经取出全部尸块了。

Mazzystar将完整的标注数据、prompt、评估代码和测试日志在github上开源:
一共包含了32个相对不那么血腥恐怖的故事:


有兴趣可以自己去玩,向Mazzystar作者致敬:
https://github.com/mazzzystar/TurtleBenchmark/tree/main


以上是我今天的一点分享,

全文无广,谢谢阅读。

觉得写得好给个打赏吧。

有兴趣可首页交流。


没有评论:

发表评论

跨境电商神器,一分钟出片!这个AI数字人工具让视频创作“卷”出新高度!

视频这件事,在AI加持下,真的可以从"重成本"变为"轻操作"。 在短视频创作越来越"卷"、内容更新越来越频繁的时代,一款能让你"5分钟无剪辑,自动配音口型同步,还能说70种语言"的工具,是不是听着...