点击下方,关注我,后台回复【666】,免费领取【AI学习礼包】
大家好,我是凡人。
OpenAI连续12天的直播终于迎来尾声,毫无疑问的OpenAI把最后一口甜点留在了昨晚,为了避免纠纷,直接将GPT o1版本拉倒到了o3,而就在发布会一结束,全网沸腾了,o3的能力对现有的所有模型来说都是降维打击!在直播中,Altman团队主要针对o3的编码能力(Codeforces)、数学能力(FrontierMath)和ARC-AGI。Altman直接拿Codeforces下手,直接让o3和全球16万程序高手对决!Codeforces是一个面向计算机编程爱好者的在线评测系统,由萨拉托夫国立大学的一个团队创立并维护。Codeforces很大的特点就是题目兼容并蓄,什么难度等级的题目都可以找到。 同时题目非常意思,思维陷阱也比较多,很多时候即使是告诉你用什么算法,你也不知道应该怎么做……不出所料,o3的得分达到了2727分,在整个榜单上排名175,已经超越了99.99%的人类。在SWE-bench测试中,o3的得分达到了71.7%,这意味着o3能够成功解决71.7%的问题,并为这些问题生成正确的代码补丁。也是远超o1的表现。相比第一天发布的o1满血版的编程能力,o3迈进了一大步,都说程序员一般都拿自己开刀,这句话是真没说错呀!在2024年下半年,好像突然AI就开智了,原来连小数排名都能计算失误,现在却屡屡在数学解析和解答上表现优异。特别是这次的o3,在由研究机构 Epoch AI 推出的 " 当今最难数学基准 " 的前沿数学基准测试(FrontierMath)中,表现十分优异,在这个测试中,以往所有AI模型的准确率都不高于2%,而o3却突破性地达到了25%以上。o3 在 AIME 2024 考试中取得 96.7% 的成绩,仅缺席一道题,在 GPQA Diamond 考试中取得 87.7% 的成绩,远远超过人类专家的表现,甚至能解开史上最难的数学题目。当各大其他模型都还在卷传统数学基准的时候,o3确实已经进入了另一个世界了。。。AGI 在2019年首次提出,是"通用人工智能"的缩写,泛指能够执行人类所能完成的任何任务的人工智能。但对于通用人工智能,OpenAI 有自己的定义:"在最具经济价值的工作上表现优于人类的高度自主系统。"验证AGI的过程是非常难也抽象,过去几代模型的评分在此:
目前不知道o3什么时候放出,但是OpenAI又基于o3,训了3个小尺寸的o3模型。而o3-mimi,预计在1月底可以对外开放,但应该肯定是pro会员专属的模型。当然强大多数情况下代表的就是成本高,没错,这次o3的成本也是高到匪夷所思,有多高?一个问题,3440美金,也就是2万多!GPT-o3更像是OpenAl用钞能力给我们展示了一下"AI能达到什么境界"。但不得不说的是,AI的能力已经达到了,成本会随着技术的不断演变,慢慢的降下来,等到我们熟知的AI编程工具,接入了o3模型甚至更高端的模型,那后果是什么,程序员这个职业可能真的就危险了!
怎么样今天的内容还满意吗?再次感谢观众老爷的观看,在最后如果有任何问题的朋友可以直接加微信,我为您精心准备了价值 599元 的 AI学习大礼包 和 学习群 ,为你开启AI的学习之旅。
「 往期精选文章 」
没有评论:
发表评论