OpenAI 发布旗舰模型 GPT-5.4,在推理、编程和原生电脑操控能力上实现突破。模型支持直接操作电脑界面完成任务,在多项基准测试中领先,编程生成速度提升1.5倍,幻觉率降低33%。输入/输出定价分别为每百万 token 2.5美元和15美元,并提供 Pro 版本选项。
Tags:
被Gemini和Claude按在地上摩擦了一个月,OpenAI终于掀桌子了。
就在刚刚,OpenAI不装了,直接跳过过渡版本,发布了下一代旗舰——GPT-5.4。
这一波,不是挤牙膏,是直接换了一管新牙膏。
很多人还在纠结哪个模型写代码好,哪个模型逻辑强。GPT-5.4直接告诉你:小孩子才做选择,成年人全都要。
01 忍辱负重一个月,王者归来
这一个月,OpenAI过得憋屈。前有Gemini 3.1 Pro,后有Claude Opus 4.6,都在疯狂蚕食市场。
但GPT-5.4一出,格局瞬间变天。
这是一次「推理+编程」的合流式跨越。以前我们要么用聪明的模型,要么用会写代码的模型,现在GPT-5.4把两者合二为一了。
成绩单直接甩在友商脸上:
GDPval胜率83%,直接叫板顶尖人类专家;
SWE-Bench Pro编程拿第一,FrontierMath数学拿第一;
最变态的是ARC-AGI-2抽象推理,跑出了83.3%的新高。Gemini和Opus全部被踩在脚下。
这不仅仅是分数的胜利,是OpenAI在告诉所有人:你大爷还是你大爷。
02 史诗级进化:AI不仅长脑子,还长了手
这是本次更新最炸裂的地方:GPT-5.4拥有了「原生电脑使用」能力。
听懂了吗?以前的AI是给你出主意,让你去干活。现在的GPT-5.4,能直接抢过你的鼠标键盘,帮你干活。
识别UI、操控键鼠、在软件和网页间反复横跳,它比你还像个熟练工。
在OSWorld-Verified测试上,它拿下了75%的成功率。要知道,人类的成功率才72.4%。
没错,AI操作电脑,已经比很多「手残党」还要溜了。
以后发邮件、填表格、跑报销流程这种毫无营养的机械劳动,直接扔给GPT-5.4,它不香吗?
这就是指挥官常说的:AI时代,不懂工具的人,注定被工具人取代。
03 干翻华尔街,效率狂飙50%
光有蛮力不行,还得有脑子。
在模拟初级投资银行分析师的测试中,GPT-5.4平均得分87.3%,而上一代只有68.4%。
做PPT、搞Excel建模、排班表,这些令打工人头秃的工作,它不仅能做,而且做得比大多数专业人士还好。
更恐怖的是代码能力。
它继承了GPT-5.3-Codex的全部基因,并且在/fast模式下,生成速度提升了1.5倍。
同样的智力,快了50%。这意味着什么?这意味着成本的极致压缩。
对于开发者来说,它还支持「Playwright Interactive」技能,一边写代码,一边在浏览器里可视化调试。
这哪里是AI,简直就是个不知疲倦的超级实习生。
04 拒绝智商税:降本增效才是硬道理
很多AI工具最大的痛点就是贵,还经常胡说八道。
GPT-5.4这次学乖了。它是OpenAI迄今为止最讲求事实的模型,幻觉率暴降33%。
而且,它引入了「工具搜索」功能。
以前为了让AI用工具,得把所有说明书塞给它,不仅费钱还容易爆显存。现在,它只在需要的时候去搜索工具定义。
这一招,直接把Token使用量砍掉了47%。
省下来的Token,就是省下来的真金白银。
定价方面:
GPT-5.4:输入2.5美元/百万token,输出15美元/百万token。
Pro版本:输入30美元/百万token,输出180美元/百万token。
丰俭由人,不管是个人开发者还是大企业,都能找到适合自己的姿势。
魔方总结
GPT-5.4的出现,标志着AI从「聊天机器人」正式进化为「数字打工人」。
它没有明显的短板,推理、编程、视觉、操作电脑,全维度的强悍。
加魔方个人微信,即可获取AI工具大全一份
独乐乐不如众乐乐,好东西要记得和大家分享,欢迎点击下面按钮关注魔方公众号,加入收藏,点亮在看,分享给周围的朋友们。
没有评论:
发表评论