AI I024: AI高考，为何语文比数学好？

2024年7月22日星期一

AI高考，为何语文比数学好？

点击蓝字关注我吧！

大模型大比拼：高考战场上的AI学霸们

自打GPT-4o问世以来，关于大模型之间孰强孰弱的新一轮争论热度陡增。随着各省2024高考成绩陆续公布，有媒体举办了一场别样高考，让我们一同见证这些备受期待的"大模型学霸"表现如何。

在2024年高考新课标I卷全科目测试中，GPT-4o与文心4.0分别位列总分前三甲。结合高考大省河南2024年的招生文科一本录取分数线来看，这两位AI学霸的表现都足以顺利考上一本高校。能在高考大省顺利考上一本，GPT-4o和文心4.0的综合能力可见一斑。

具体来看，百度的文心4.0在物理、生物等科目拿下了全场最高分，显著领先于GPT-4o；而在语文、英语、历史、化学等科目上也毫不逊色于GPT-4o。特别是在被认为最有挑战性的数学卷上，文心4.0在毫无准备、近乎"裸考"的情况下，首次测试便取得了66分的最高分，力压GPT-4o登顶第一。

可以说，文心4.0为国产大模型争光不少。

在卷面分值最多、难度最大的解答题方面，文心4.0拿下了18分，而GPT-4o仅得14分。在选择题方面，文心4.0获得了48分，而GPT-4o只得到38分。在数学能力这道分水岭面前，文心4.0经受住了考验，证明了其强悍的实力。

现在，用户可以通过文心一言APP随时体验文心4.0的数学能力。解答一元五次方程，对于文心4.0来说简直是小菜一碟。强大的数学能力，让文心一言APP成为了辅助孩子学习的重要工具。

令人意外的是，在这一轮高考题目测试中，无论是全科目测试还是数学测试，通义千问、Kimi等多款国内大模型的表现都不尽如人意。看来这些大模型还有很大的进步空间。

在笔者看来，打造一款高人气、高性能的AI大模型，是每一家科技厂商的梦想。大模型作为一项将给人类带来深远影响的科技，完全可以做到兼备"人气旺"与"性能强"。大模型的发展长路漫漫、挑战重重，唯有务实、理性能帮助我们到达理想的彼岸。

大模型写作为什么无法获得高分？原因在于Chat GPT等模型实际上无法真正理解问题。它们所做的不过是模式匹配，通过算法找到与输入问题相关的信息，并提取出答案。

这种答案尽管条理性、逻辑性俱佳，但在阅卷过程中，还需考虑人类写作的特点，如递进关系、思维过程、层次、修辞等。在这些方面，人工智能的表现更像是信息的堆砌。

专业阅卷老师对大模型写作的反馈也表明，尽管AI写作在逻辑性和条理性上有明显优势，但在层次感和语言的流畅度上，仍需改进。大模型在处理复杂逻辑和推理方面仍存在显著不足。

既然写作不灵，那以推理与逻辑为主的数学，为什么大模型也得不到高分呢？以2024年高考数学卷中的一道题为例：

甲、乙两人各有四张卡片，每张卡片上标有一个数字，甲的卡片分别标有数字 1，3，5，7，乙的卡片上分别标有数字2，4，6，8，两人进行四轮比赛，在每轮比赛中，两个各自从自己持有的卡片中随机选一张，并比较所选卡片的数字的大小，数字大的人得1分，数字小的人得0分，然后各自弃置此轮所选的卡片（弃置的卡片在此后的轮次中不能使用）。则四轮比赛后，甲的总得分小于2的概率为多少？

对于这道题，正确答案为1/2。然而，国内的8款大模型几乎全军覆没，Chat GPT给出了正确答案。原因在于大模型是基于人类语言研发和训练的，要想准确回答问题，首先需要理解人类语言，明白题目本身的含义。

其实，AI在数学上的表现并不差，真正的原因是因为问题是用自然语言描述的。如果用AI的语言来重新描述这个问题，数学等逻辑强度高的科目会显得更加无可比拟。这就像是给AI戴上了一副清晰的眼镜，让它看问题时更加精准和清楚。AI在处理高度逻辑化和结构化的问题时，会表现得更加出色。

随着技术的进步，大模型在处理抽象问题上有所提升，但在复杂问题前仍显得捉襟见肘。打造一款高人气、高性能的AI大模型，需要不断的技术积累和实际应用中的锤炼。期待更多国产大模型能摆脱各类榜单排名与参数PK的喧嚣，潜心铸剑，历经考验与淬炼，真正修成正果，站上世界舞台，与顶级大模型一决高下。

以下是一些链接，感兴趣的小伙伴可以自己去玩一玩！或者收藏起来，以后没准能用上！

GPT:https://chatgpt.com/(需科学上网）

Kimi：https://kimi.moonshot.cn/

讯飞：https://turbodesk.xfyun.cn/

橙篇：https://cp.baidu.com/

火山写作：https://writingo.net/

大模型的发展是一个漫长而充满挑战的过程。我们期待更多的国产大模型能在未来脱颖而出，成为国际舞台上的重要角色。唯有不断创新和改进，才能在激烈的竞争中立于不败之地。让我们共同期待，未来的大模型能够在更多领域展现其强大的实力，为我们的生活带来更多便利和惊喜。

AI I024

2024年7月22日星期一

AI高考，为何语文比数学好？

没有评论:

发表评论

告别排队！LTX2。3 真人四宫格剧情生成，音画同步太丝滑

标签