2026年3月8日星期日

OpenAI GPT-5。4 发布:AI推理编程电脑操控三合一,开发者效率提升50%

OpenAI 发布旗舰模型 GPT-5.4,在推理、编程和原生电脑操控能力上实现突破。模型支持直接操作电脑界面完成任务,在多项基准测试中领先,编程生成速度提升1.5倍,幻觉率降低33%。输入/输出定价分别为每百万 token 2.5美元和15美元,并提供 Pro 版本选项。

Tags:

被Gemini和Claude按在地上摩擦了一个月,OpenAI终于掀桌子了。

就在刚刚,OpenAI不装了,直接跳过过渡版本,发布了下一代旗舰——GPT-5.4。

这一波,不是挤牙膏,是直接换了一管新牙膏。

很多人还在纠结哪个模型写代码好,哪个模型逻辑强。GPT-5.4直接告诉你:小孩子才做选择,成年人全都要。

01 忍辱负重一个月,王者归来

配图

这一个月,OpenAI过得憋屈。前有Gemini 3.1 Pro,后有Claude Opus 4.6,都在疯狂蚕食市场。

但GPT-5.4一出,格局瞬间变天。

这是一次「推理+编程」的合流式跨越。以前我们要么用聪明的模型,要么用会写代码的模型,现在GPT-5.4把两者合二为一了。

成绩单直接甩在友商脸上:

GDPval胜率83%,直接叫板顶尖人类专家;

SWE-Bench Pro编程拿第一,FrontierMath数学拿第一;

最变态的是ARC-AGI-2抽象推理,跑出了83.3%的新高。Gemini和Opus全部被踩在脚下。

这不仅仅是分数的胜利,是OpenAI在告诉所有人:你大爷还是你大爷。

02 史诗级进化:AI不仅长脑子,还长了手

配图

这是本次更新最炸裂的地方:GPT-5.4拥有了「原生电脑使用」能力。

听懂了吗?以前的AI是给你出主意,让你去干活。现在的GPT-5.4,能直接抢过你的鼠标键盘,帮你干活。

识别UI、操控键鼠、在软件和网页间反复横跳,它比你还像个熟练工。

在OSWorld-Verified测试上,它拿下了75%的成功率。要知道,人类的成功率才72.4%。

没错,AI操作电脑,已经比很多「手残党」还要溜了。

以后发邮件、填表格、跑报销流程这种毫无营养的机械劳动,直接扔给GPT-5.4,它不香吗?

这就是指挥官常说的:AI时代,不懂工具的人,注定被工具人取代。

03 干翻华尔街,效率狂飙50%

配图

光有蛮力不行,还得有脑子。

在模拟初级投资银行分析师的测试中,GPT-5.4平均得分87.3%,而上一代只有68.4%。

做PPT、搞Excel建模、排班表,这些令打工人头秃的工作,它不仅能做,而且做得比大多数专业人士还好。

更恐怖的是代码能力。

它继承了GPT-5.3-Codex的全部基因,并且在/fast模式下,生成速度提升了1.5倍。

同样的智力,快了50%。这意味着什么?这意味着成本的极致压缩。

对于开发者来说,它还支持「Playwright Interactive」技能,一边写代码,一边在浏览器里可视化调试。

这哪里是AI,简直就是个不知疲倦的超级实习生。

04 拒绝智商税:降本增效才是硬道理

配图

很多AI工具最大的痛点就是贵,还经常胡说八道。

GPT-5.4这次学乖了。它是OpenAI迄今为止最讲求事实的模型,幻觉率暴降33%。

而且,它引入了「工具搜索」功能。

以前为了让AI用工具,得把所有说明书塞给它,不仅费钱还容易爆显存。现在,它只在需要的时候去搜索工具定义。

这一招,直接把Token使用量砍掉了47%。

省下来的Token,就是省下来的真金白银。

定价方面:

GPT-5.4:输入2.5美元/百万token,输出15美元/百万token。

Pro版本:输入30美元/百万token,输出180美元/百万token。

丰俭由人,不管是个人开发者还是大企业,都能找到适合自己的姿势。

魔方总结

GPT-5.4的出现,标志着AI从「聊天机器人」正式进化为「数字打工人」。

它没有明显的短板,推理、编程、视觉、操作电脑,全维度的强悍。


加魔方个人微信,即可获取AI工具大全一份


图片


独乐乐不如众乐乐,好东西要记得和大家分享,欢迎点击下面按钮关注魔方公众号,加入收藏,点亮看,分享给周围的朋友们。



没有评论:

发表评论

智谱AutoClaw安装指南:1分钟部署本地OpenClaw智能体,无需代码与服务器

智谱发布的AutoClaw(澳龙)是一款一键下载即可使用的OpenClaw本地部署工具,无需懂代码、租服务器或额外付费。安装过程仅需登录1次、点击4个按钮、扫描1个二维码,即可在飞书等平台使用。支持预置60多个国内适用Skill、抢先体验Pony-alpha-2模型,并可将原有O...