2024年12月24日星期二

OpenAI最后一天发布最强GPT o3,程序员的噩梦终于来了

  点击下方,关注我,后台回复【666】,免费领取【AI学习礼包】      



大家好,我是凡人。

OpenAI连续12天的直播终于迎来尾声,毫无疑问的OpenAI把最后一口甜点留在了昨晚,为了避免纠纷,直接将GPT o1版本拉倒到了o3,而就在发布会一结束,全网沸腾了,o3的能力对现有的所有模型来说都是降维打击!
 o3 强在哪?  

在直播中,Altman团队主要针对o3的编码能力(Codeforces)、数学能力(FrontierMath)和ARC-AGI。
一、编程能力
Altman直接拿Codeforces下手,直接让o3和全球16万程序高手对决!
Codeforces是一个面向计算机编程爱好者的在线评测系统,由萨拉托夫国立大学的一个团队创立并维护。Codeforces很大的特点就是题目兼容并蓄,什么难度等级的题目都可以找到。 
同时题目非常意思,思维陷阱也比较多,很多时候即使是告诉你用什么算法,你也不知道应该怎么做……
不出所料,o3的得分达到了2727分,在整个榜单上排名175,已经超越了99.99%的人类
在SWE-bench测试中,o3的得分达到了71.7%,这意味着o3能够成功解决71.7%的问题,并为这些问题生成正确的代码补丁。也是远超o1的表现。
相比第一天发布的o1满血版的编程能力,o3迈进了一大步,都说程序员一般都拿自己开刀,这句话是真没说错呀!
二、数学能力
在2024年下半年,好像突然AI就开智了,原来连小数排名都能计算失误,现在却屡屡在数学解析和解答上表现优异。
特别是这次的o3,在由研究机构 Epoch AI 推出的 " 当今最难数学基准 " 的前沿数学基准测试(FrontierMath)中,表现十分优异,在这个测试中,以往所有AI模型的准确率都不高于2%,而o3却突破性地达到了25%以上
o3 在 AIME 2024 考试中取得 96.7% 的成绩,仅缺席一道题,在 GPQA Diamond 考试中取得 87.7% 的成绩,远远超过人类专家的表现,甚至能解开史上最难的数学题目。
当各大其他模型都还在卷传统数学基准的时候,o3确实已经进入了另一个世界了。。。
三、ARC-AGI
AGI 在2019年首次提出,是"通用人工智能"的缩写,泛指能够执行人类所能完成的任何任务的人工智能。但对于通用人工智能,OpenAI 有自己的定义:"在最具经济价值的工作上表现优于人类的高度自主系统。"
验证AGI的过程是非常难也抽象,过去几代模型的评分在此:
* GPT-2 (2019): 0% 
* GPT-3 (2020): 0% 
* GPT-4 (2023): 2% 
* GPT-4o (2024): 5% 
* o1-preview (2024): 21% 
* o1 (2024): 32% 
* o1 Pro (2024): ~50%
但是今天,o3的分数,达到了恐怖的87.5%
 o3 离真正落地还有多久?  

目前不知道o3什么时候放出,但是OpenAI又基于o3,训了3个小尺寸的o3模型。而o3-mimi,预计在1月底可以对外开放,但应该肯定是pro会员专属的模型
当然强大多数情况下代表的就是成本高,没错,这次o3的成本也是高到匪夷所思,有多高?
一个问题,3440美金,也就是2万多!GPT-o3更像是OpenAl用钞能力给我们展示了一下"AI能达到什么境界"。

但不得不说的是,AI的能力已经达到了,成本会随着技术的不断演变,慢慢的降下来,等到我们熟知的AI编程工具,接入了o3模型甚至更高端的模型,那后果是什么,程序员这个职业可能真的就危险了!

 结语 


怎么样今天的内容还满意吗?再次感谢观众老爷的观看,在最后如果有任何问题的朋友可以直接加微信,我为您精心准备了价值 599元 的 AI学习大礼包 和 学习群 为你开启AI的学习之旅。

扫码

链接我领礼包


「 往期精选文章 」

阿里出品的10个AI办公提效神器,用过三款就打败了90%的人!(强烈推荐收藏)

人人编码时代到底还有多远?1分钟告诉你!

吐血整理 6 款爆款 AI 创作型智能体,用好了效率直接提升80%(推荐收藏)

小孩儿哥放大招,有15岁变现百万,有17岁写神级Prompt,看后我悟到了。。。

川普当选,会影响到我们普通人吗?

3分钟学会用【腾信元器】打造个性化公众号AI助手

只因手机装了AutoGLM,摸鱼效率直接提升了50%

未来这三个AI项目,一定会干掉很多程序员,大厂也无济于事

怒刷666条提示词后,终于总结出终结 AI 味儿的3种方法(强烈建议收藏)

想让 AI 写作更具人味儿?99%的人都不知道的 3 个秘密!

我愿称它为 AI 配音界的天花板(附一键安装包和12000种音色库)

阿里 "通义灵码" 真的 "灵吗",8000字全保姆级实操

牛逼了,我用Coze手搓了「黑神话:悟空」攻略的智能体,流量蹭蹭涨!(附全套攻略资料)

AI提示词:自从让Kimi自己解析自己写的提示词,肾结石都自动脱落了!

玩透这个,居然比通关黑悟空都畅快(附小白使用教程)

手搓Coze智能体,黑悟空被玩出了新高度

30篇笔记涨粉11万,这内容到底有多霸道?(附制作教程)

三步教会你制作自己的Coze插件,不懂代码也玩得转!

Cursor火出圈,未来程序员还有出路吗?

国庆电影扎堆来袭,AI智能体帮你推荐必看佳片!(附制作教程)

没有评论:

发表评论

我用AI同传干掉了英语发布会,爽。

治好了我的发布会焦虑症 我之前看各种什么OpenAI、Google等等的发布会,还有各种线下的英语演讲的时候,一直有一个痛点。 就是,我听不懂。 大多数的发布会是直播,所以Youtube上也没有原生字幕可以看,线下演讲更是这样,好一点的会务会给你准备同传翻译机或者搞个副屏,放...