AI I024: AI大模型能理解细思极恐的推理故事吗？

2024年8月11日星期日

AI大模型能理解细思极恐的推理故事吗？

一个男人走进一家餐厅，点了一碗海龟汤，喝完之后他就举枪自杀了，请问为什么？

-----------------------------------------------

他和妻子度蜜月时遭遇海难，流落荒岛，由于没有粮食，妻子被饿死，同伴用妻子的肉煮汤给他喝，骗他是海龟汤。

后来他被路过的船只救走，今天，他喝到真正的海龟汤，才想起来当时吃下的是妻子的肉，悔恨之下举枪自尽。

以上就是一个海龟汤的故事。

海龟汤游戏是一种推理游戏，其中玩家需要根据一个简短的故事背景（"汤面"）猜测出隐藏的故事真相（"汤底"）。

游戏的规则很简单：玩家可以提出是/否类型的问题，裁判只能根据已知的"汤底"来判断问题的答案。

比如用户可能会问：汤里有毒药吗？

裁判就会回答：不是。

这个循环直到用户猜到真相为止。

最近看到大神Mazzystar在用这种新的方式去评估大模型的能力。

以海龟汤故事来评估大模型的好处有以下几点：

- 无需背景知识：

海龟汤游戏中的故事和推理所需的信息都包含在"汤面"（题目）和"汤底"（答案）中，不同模型的知识库差异不会影响评估的公平性。

- 客观性强：

模型在游戏中的表现可以通过对、错/不相关三个标准来衡量，这种判断是基于已知事实的，因此具有很高的客观性。

- 易于量化：

海龟汤游戏中的猜测结果容易量化和收集结果。

- 动态更新：

由于玩家的猜测具有无限的可能性，测试数据集可以不断更新，避免了模型因过度训练在特定数据集上的表现异常优秀的问题。

Mazzystar的团队进行了持续了两周的人工标注，最终从 2.6 万条数据中，获得了 4448 条干净的数据，最终得到了 1537 条准确率几乎 100%的标注结果。

测试结果显示，Claude 3.5 Sonnet凭借其卓越的推理能力，在所有模型中脱颖而出，成为了第一梯队的代表，第二梯队包括GPT4o、Qwen2 72B等等。

我尝试用通义和Claude玩了一下，对比下结果。

汤面：

夜晚，贫穷的拾荒者捡了一台洗衣机回家。半夜他从睡梦中惊醒，好像听到了洗衣机启动的声音。

第一次问：有人在洗衣机里面：

两者都回答：错。

第二次问：有人把东西放在里面了：

这里两个模型的出现了分歧：

- Claude：错，里面没有东西。

- 通义：对，里面有东西。

第三次问：有其他人启动了洗衣机：

两者都回答：对。

后面太长就省略了，直接揭晓答案汤底：

凶手杀人分尸，将尸体装入洗衣机内，再用洗衣机运尸块到郊外。拾荒者开着小三轮捡到洗衣机时凶手刚刚取出全部尸块，正在不远处奋力挖土填坑。

凶手反应过来时，拾荒者已经开着小三轮带着洗衣机跑了。于是凶手跟踪拾荒者到家，潜入家里启动洗衣机，为了清洗掉里面的血迹。

所以测试出来Claude的推理能力真的非常强，它真正地理解了整个故事线的逻辑：

杀手杀人分尸-装进洗衣机-取出全部尸块准备埋尸-拾荒者出现拿走洗衣机-杀手跟踪-杀手启动洗衣机清洗血迹-拾荒者醒来

所以当我问洗衣机里面有没有东西的时候，只有Claude回答正确，后面我测试了其他国产模型都回答错了。

这里洗衣机当然已经是没有东西了，杀手已经取出全部尸块了。

Mazzystar将完整的标注数据、prompt、评估代码和测试日志在github上开源：

一共包含了32个相对不那么血腥恐怖的故事：

有兴趣可以自己去玩，向Mazzystar作者致敬：

https://github.com/mazzzystar/TurtleBenchmark/tree/main

以上是我今天的一点分享，

全文无广，谢谢阅读。

觉得写得好给个打赏吧。

有兴趣可首页交流。

AI I024

2024年8月11日星期日

AI大模型能理解细思极恐的推理故事吗？

没有评论:

发表评论

跨境电商神器，一分钟出片！这个AI数字人工具让视频创作“卷”出新高度！