点击蓝字关注我吧!
大模型大比拼:高考战场上的AI学霸们
自打GPT-4o问世以来,关于大模型之间孰强孰弱的新一轮争论热度陡增。随着各省2024高考成绩陆续公布,有媒体举办了一场别样高考,让我们一同见证这些备受期待的"大模型学霸"表现如何。
在2024年高考新课标I卷全科目测试中,GPT-4o与文心4.0分别位列总分前三甲。结合高考大省河南2024年的招生文科一本录取分数线来看,这两位AI学霸的表现都足以顺利考上一本高校。能在高考大省顺利考上一本,GPT-4o和文心4.0的综合能力可见一斑。
具体来看,百度的文心4.0在物理、生物等科目拿下了全场最高分,显著领先于GPT-4o;而在语文、英语、历史、化学等科目上也毫不逊色于GPT-4o。特别是在被认为最有挑战性的数学卷上,文心4.0在毫无准备、近乎"裸考"的情况下,首次测试便取得了66分的最高分,力压GPT-4o登顶第一。
可以说,文心4.0为国产大模型争光不少。
在卷面分值最多、难度最大的解答题方面,文心4.0拿下了18分,而GPT-4o仅得14分。在选择题方面,文心4.0获得了48分,而GPT-4o只得到38分。在数学能力这道分水岭面前,文心4.0经受住了考验,证明了其强悍的实力。
现在,用户可以通过文心一言APP随时体验文心4.0的数学能力。解答一元五次方程,对于文心4.0来说简直是小菜一碟。强大的数学能力,让文心一言APP成为了辅助孩子学习的重要工具。
令人意外的是,在这一轮高考题目测试中,无论是全科目测试还是数学测试,通义千问、Kimi等多款国内大模型的表现都不尽如人意。看来这些大模型还有很大的进步空间。
在笔者看来,打造一款高人气、高性能的AI大模型,是每一家科技厂商的梦想。大模型作为一项将给人类带来深远影响的科技,完全可以做到兼备"人气旺"与"性能强"。大模型的发展长路漫漫、挑战重重,唯有务实、理性能帮助我们到达理想的彼岸。
大模型写作为什么无法获得高分?原因在于Chat GPT等模型实际上无法真正理解问题。它们所做的不过是模式匹配,通过算法找到与输入问题相关的信息,并提取出答案。
这种答案尽管条理性、逻辑性俱佳,但在阅卷过程中,还需考虑人类写作的特点,如递进关系、思维过程、层次、修辞等。在这些方面,人工智能的表现更像是信息的堆砌。
专业阅卷老师对大模型写作的反馈也表明,尽管AI写作在逻辑性和条理性上有明显优势,但在层次感和语言的流畅度上,仍需改进。大模型在处理复杂逻辑和推理方面仍存在显著不足。
既然写作不灵,那以推理与逻辑为主的数学,为什么大模型也得不到高分呢?以2024年高考数学卷中的一道题为例:
甲、乙两人各有四张卡片,每张卡片上标有一个数字,甲的卡片分别标有数字 1,3,5,7,乙的卡片上分别标有数字2,4,6,8,两人进行四轮比赛,在每轮比赛中,两个各自从自己持有的卡片中随机选一张,并比较所选卡片的数字的大小,数字大的人得1分,数字小的人得0分,然后各自弃置此轮所选的卡片(弃置的卡片在此后的轮次中不能使用)。则四轮比赛后,甲的总得分小于2的概率为多少?
对于这道题,正确答案为1/2。然而,国内的8款大模型几乎全军覆没,Chat GPT给出了正确答案。原因在于大模型是基于人类语言研发和训练的,要想准确回答问题,首先需要理解人类语言,明白题目本身的含义。
其实,AI在数学上的表现并不差,真正的原因是因为问题是用自然语言描述的。如果用AI的语言来重新描述这个问题,数学等逻辑强度高的科目会显得更加无可比拟。这就像是给AI戴上了一副清晰的眼镜,让它看问题时更加精准和清楚。AI在处理高度逻辑化和结构化的问题时,会表现得更加出色。
随着技术的进步,大模型在处理抽象问题上有所提升,但在复杂问题前仍显得捉襟见肘。打造一款高人气、高性能的AI大模型,需要不断的技术积累和实际应用中的锤炼。期待更多国产大模型能摆脱各类榜单排名与参数PK的喧嚣,潜心铸剑,历经考验与淬炼,真正修成正果,站上世界舞台,与顶级大模型一决高下。
以下是一些链接,感兴趣的小伙伴可以自己去玩一玩!或者收藏起来,以后没准能用上!
GPT:https://chatgpt.com/(需科学上网)
Kimi:https://kimi.moonshot.cn/
讯飞:https://turbodesk.xfyun.cn/
橙篇:https://cp.baidu.com/
火山写作:https://writingo.net/
大模型的发展是一个漫长而充满挑战的过程。我们期待更多的国产大模型能在未来脱颖而出,成为国际舞台上的重要角色。唯有不断创新和改进,才能在激烈的竞争中立于不败之地。让我们共同期待,未来的大模型能够在更多领域展现其强大的实力,为我们的生活带来更多便利和惊喜。
没有评论:
发表评论