凌晨一点,GPT-5 上线了凌晨一点,我看着屏幕上那个熟悉的进度条缓缓走完。
凌晨一点,GPT-5 上线了
凌晨一点,我看着屏幕上那个熟悉的进度条缓缓走完。
没等到烟花,也没有花哨的舞台,直播间里只是安安静静地放出了一张又一张榜单。
25 张成绩单,黑底白字,冷静得像一场答辩。
两年半前,GPT-4 发布的那天,我还记得自己刷到它能读图写诗、解数独的演示视频时,忍不住在朋友圈感叹——"天变了"。那时候大家都在兴奋中带着慌乱,觉得这是一个无可避免的巨浪。
而这一次,GPT-5 给人的第一印象,却更像一位沉默的选手,把所有的亮点都藏进数字里。
数字很扎眼。
在医疗真实病例的 HealthBench 上,它在难度最高的 Hard 子集里,拿下了 46.2% 的准确率,第一次把 GPT-4o 甩在身后。
在长链条推理的 LongFact 基准上,它的 "thinking" 模式把幻觉率压到了 o3 的六分之一。
就连一直被诟病的"过度迎合",也从 14.5% 掉到了 不到 6%。
更诚实,更稳,也更少讨好。
榜单里有不少有趣的细节。
在 SWE-bench Verified 软件工程任务中,GPT-5 拿下 74.9%,略高于 Claude Opus 4.1——听上去没什么,但一半以上的分数来自允许它"认真思考"的模式。
而直播里那张错误的可视化——"52.8 > 69.1 = 30.8"——反倒成了观众的谈资。
更让人惊讶的是 多语言代码编辑任务,GPT-5 把准确率直接拉到了 88%,而 GPT-4o 还停留在 25.8%。这几乎是两个时代的差距。
它的数学和视觉推理同样犀利。
AIME 这类美国奥数入门题,在配备工具和 Python 脚本的情况下,GPT-5 交出了一份 100% 正确的答卷。
过去能做到这一点的模型屈指可数。
在 科学图表推理上,它的表现也很特别——随着思考时间的增加,准确率不断上升;而 o3 在"想太久"之后反而会开始犯错。
这些数据背后,藏着一个更重要的变化:GPT-5 已经不只是一个单一的大模型。
OpenAI 这次给它装上了一个 "路由器",能根据问题难度、延迟要求、所需工具,在 快速版本和 深思版本之间自动切换;额度用完,还会降级到 mini 版。
用户不再需要自己纠结用哪一款,就像操作系统会自动分配线程一样,GPT-5 在后台调度 "算力" 与 "思考时间"。
这种调度不只是为了速度。
它的任务分解能力更强,能把复杂的需求切成多步,调用浏览器、代码沙箱、数据库等外部工具协同完成。
容错率也高了,不会在中途被某一步卡死。
安全机制被做成了"产品化能力",不是单纯拒绝,而是解释、替代、引导——听上去更像一个成熟的系统,而不是一台谨小慎微的机器。
价格是另一个让人意外的点。
API 的输入费用只有 1.25 美元 / 百万 token,比 GPT-4o 还低,并且支持缓存折扣。
对于需要长上下文、频繁调用的企业来说,这个节省幅度并不小。
而且它一次性开放了 四个版本:标准版、mini、nano,以及 Chat 专用版。
从日常问答到批量生产级任务,几乎都能找到对应的方案。
凌晨的测试群里,朋友们已经开始试水。
有人丢给它一个生产级别的代码修改任务,Claude 和 Gemini 全部崩溃,GPT-5 却准确完成;
有人用它生成前端界面,UI 审美比预期自然,没有那种"一看就是 AI 画的"的生硬感;
也有人做了多语言编程测试,准确率的提升几乎让人怀疑是不是换了个引擎。
当然,也有一些老用户惋惜——在某些细腻的文风、情绪化表达上,GPT-5 似乎还不及 GPT-4.5 那种"人味"。
如果说 GPT-4o 还是一台聪明的多模态对话机,那么 GPT-5 更像是一个雏形中的 "智能操作系统底座"。
它可以托管任务,可以动态调度资源,可以在安全边界内尽量帮你完成目标。
这背后是 OpenAI 的野心——不再只做一个模型供应商,而是搭建一整套 可编排、可塑形的智能基础设施。
这样的路,走得稳,也走得远。
它不像两年半前那样用惊喜砸中你,而是在悄悄地把地基打牢。
可能在某个不经意的清晨,你会发现,这块地基上已经长出了一片新的智能应用生态。
而这一夜,GPT-5,就是那块地基的第一层混凝土。
没有评论:
发表评论