2024年12月24日星期二

OpenAI最后一天发布最强GPT o3，程序员的噩梦终于来了

点击下方，关注我，后台回复【666】，免费领取【AI学习礼包】

大家好，我是凡人。

OpenAI连续12天的直播终于迎来尾声，毫无疑问的OpenAI把最后一口甜点留在了昨晚，为了避免纠纷，直接将GPT o1版本拉倒到了o3，而就在发布会一结束，全网沸腾了，o3的能力对现有的所有模型来说都是降维打击！

o3 强在哪？

在直播中，Altman团队主要针对o3的编码能力（Codeforces）、数学能力（FrontierMath）和ARC-AGI。

一、编程能力

Altman直接拿Codeforces下手，直接让o3和全球16万程序高手对决！

Codeforces是一个面向计算机编程爱好者的在线评测系统，由萨拉托夫国立大学的一个团队创立并维护。Codeforces很大的特点就是题目兼容并蓄，什么难度等级的题目都可以找到。　

同时题目非常意思，思维陷阱也比较多，很多时候即使是告诉你用什么算法，你也不知道应该怎么做……

不出所料，o3的得分达到了2727分，在整个榜单上排名175，已经超越了99.99%的人类。

在SWE-bench测试中，o3的得分达到了71.7%，这意味着o3能够成功解决71.7%的问题，并为这些问题生成正确的代码补丁。也是远超o1的表现。

相比第一天发布的o1满血版的编程能力，o3迈进了一大步，都说程序员一般都拿自己开刀，这句话是真没说错呀！

二、数学能力

在2024年下半年，好像突然AI就开智了，原来连小数排名都能计算失误，现在却屡屡在数学解析和解答上表现优异。

特别是这次的o3，在由研究机构 Epoch AI 推出的 " 当今最难数学基准 " 的前沿数学基准测试（FrontierMath）中，表现十分优异，在这个测试中，以往所有AI模型的准确率都不高于2%，而o3却突破性地达到了25%以上。

o3 在 AIME 2024 考试中取得 96.7% 的成绩，仅缺席一道题，在 GPQA Diamond 考试中取得 87.7% 的成绩，远远超过人类专家的表现，甚至能解开史上最难的数学题目。

当各大其他模型都还在卷传统数学基准的时候，o3确实已经进入了另一个世界了。。。

三、ARC-AGI

AGI 在2019年首次提出，是"通用人工智能"的缩写，泛指能够执行人类所能完成的任何任务的人工智能。但对于通用人工智能，OpenAI 有自己的定义："在最具经济价值的工作上表现优于人类的高度自主系统。"

验证AGI的过程是非常难也抽象，过去几代模型的评分在此：

* GPT-2 (2019): 0%

* GPT-3 (2020): 0%

* GPT-4 (2023): 2%

* GPT-4o (2024): 5%

* o1-preview (2024): 21%

* o1 (2024): 32%

* o1 Pro (2024): ~50%

但是今天，o3的分数，达到了恐怖的87.5%。

o3 离真正落地还有多久？

目前不知道o3什么时候放出，但是OpenAI又基于o3，训了3个小尺寸的o3模型。而o3-mimi，预计在1月底可以对外开放，但应该肯定是pro会员专属的模型。

当然强大多数情况下代表的就是成本高，没错，这次o3的成本也是高到匪夷所思，有多高？

一个问题，3440美金，也就是2万多！GPT-o3更像是OpenAl用钞能力给我们展示了一下"AI能达到什么境界"。

但不得不说的是，AI的能力已经达到了，成本会随着技术的不断演变，慢慢的降下来，等到我们熟知的AI编程工具，接入了o3模型甚至更高端的模型，那后果是什么，程序员这个职业可能真的就危险了！

结语

怎么样今天的内容还满意吗？再次感谢观众老爷的观看，在最后如果有任何问题的朋友可以直接加微信，我为您精心准备了价值 599元 的 AI学习大礼包 和 学习群 ，为你开启AI的学习之旅。

扫码

链接我领礼包

「往期精选文章」

阿里出品的10个AI办公提效神器，用过三款就打败了90%的人！（强烈推荐收藏）

人人编码时代到底还有多远？1分钟告诉你！

吐血整理 6 款爆款 AI 创作型智能体，用好了效率直接提升80%（推荐收藏）

小孩儿哥放大招，有15岁变现百万，有17岁写神级Prompt，看后我悟到了。。。

川普当选，会影响到我们普通人吗？

3分钟学会用【腾信元器】打造个性化公众号AI助手

只因手机装了AutoGLM，摸鱼效率直接提升了50%

未来这三个AI项目，一定会干掉很多程序员，大厂也无济于事

怒刷666条提示词后，终于总结出终结 AI 味儿的3种方法（强烈建议收藏）

想让 AI 写作更具人味儿？99%的人都不知道的 3 个秘密！

我愿称它为 AI 配音界的天花板（附一键安装包和12000种音色库）

阿里 "通义灵码" 真的 "灵吗"，8000字全保姆级实操

牛逼了，我用Coze手搓了「黑神话：悟空」攻略的智能体，流量蹭蹭涨！（附全套攻略资料）

AI提示词：自从让Kimi自己解析自己写的提示词，肾结石都自动脱落了！

玩透这个，居然比通关黑悟空都畅快（附小白使用教程）

手搓Coze智能体，黑悟空被玩出了新高度

30篇笔记涨粉11万，这内容到底有多霸道?（附制作教程）

三步教会你制作自己的Coze插件，不懂代码也玩得转！

Cursor火出圈，未来程序员还有出路吗？

国庆电影扎堆来袭，AI智能体帮你推荐必看佳片！(附制作教程)

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2024年12月24日星期二

OpenAI最后一天发布最强GPT o3，程序员的噩梦终于来了

点击下方，关注我，后台回复【666】，免费领取【AI学习礼包】

没有评论:

发表评论

开源智能生产管理S-PMS系统，整合MES/WMS/ERP等五大模块，可商业化

标签