2026年3月9日星期一

GPT-5。4 正式上线:深度知识工作、计算机使用、编程调试三大核心升级解析

OpenAI 新一代旗舰模型 GPT-5.4 已正式发布,涵盖 ChatGPT 及开发者 API。核心升级包括深度知识工作(电子表格建模得分87.3%)、原生计算机使用(桌面导航成功率75%)及高阶编程调试(SWE-Bench Pro准确率57.7%)。API 标准版定价为输入2.5美元/百万token,输出15美元/百万token。新模型引入智能工具调用机制,可显著降低长期使用成本。

Tags:

被Gemini 3.1 Pro、Claude Opus 4.6压制一个月后,OpenAI终于亮剑——新一代旗舰GPT-5.4正式上线,ChatGPT端(Thinking/Pro双版本)+开发者端(API/Codex+极速版)同步发布。


Image

💥跳过5.3直接冲5.4?不是噱头,是「推理+编程」合流式跨越,成绩单直接杀疯:


Image

核心升级一目了然,三大方向全面拉满,无任何短板!

深度知识工作

在内部基准测试中测试了初级投资银行分析师可能执行的电子表格建模任务,GPT-5.4 的平均得分为87.3%,而 GPT-5.2 的平均得分为68.4%


Image

演示文稿评估中,人类评分者在68.0%的情况下更倾向于选择 GPT-5.4 生成的演示文稿,这是因为 GPT-5.4 的演示文稿具有更强的美观性、更丰富的视觉效果以及更高效的图像生成功能。


Image

原生支持计算机使用

GPT-5.4既能通过Playwright等库编写代码操控电脑,也能依截图下达键鼠指令,行为可按需调试、安全策略支持自定义配置,跨网站/软件完成实操任务的能力拉满!

OSWorld-Verified桌面导航成功率75.0%,超人类(72.4%)、远胜GPT-5.2(47.3%);Online-Mind2Web纯截图操作成功率92.8%,碾压ChatGPT Atlas代理模式(70.9%)!


Image

高阶编程与调试

深度继承GPT-5.3-Codex全部编程基因,无需在"聪明模型"和"会写代码"之间来回切换,一个模型打通推理、编程、调试全链路

SWE-Bench Pro编程准确率57.7%,超越GPT-5.3-Codex,在复杂前端任务上表现卓越,生成界面美观且功能完备。


Image

更值得关注的是,它新增了"Playwright (Interactive)"实验性技能,专为网页、应用开发调试量身打造。

当你让AI开发模拟游戏等应用时,它能同步开启可视化调试窗口,一边生成美术资产、编写核心逻辑,一边自动运行测试,实时验证游戏状态、调试交互细节,全程无需人工干预,让开发、调试、验证一步到位。

凭借这一技能,仅凭一段提示词,就能轻松生成主题公园模拟游戏、回合制战棋RPG、超写实金门大桥3D飞行体验,开发效率直接翻倍。


Image

GPT-5.4官方定价

官方定价同步公布


Image

API端标准版——输入2.5美元/百万token、输出15美元/百万token;
API端Pro版——输入30美元/百万token、输出180美元/百万token;

⚠️ 重点提醒:虽然GPT-5.4单token单价较前代有所上涨,但它在Agent任务中的"省钱技巧"全藏在技术机制里,尤其核心的工具搜索功能,堪称开发者的成本救星!
以往AI接入外部工具(比如几十个公司数据库、内部接口)时,必须把所有工具的详细定义全部塞进提示词,哪怕只用到1个工具,也要为剩下几十个工具的定义支付Token费用,浪费严重。
而GPT-5.4引入了类似"查字典"的智能机制,模型先查看简略工具清单,确定需要使用某一工具后,再临时调取该工具的详细定义,无需预加载全部工具。

在Scale的MCP Atlas基准测试(250项任务、开启36个MCP服务器)中,这项技术在保持同等准确率的前提下,直接将总Token使用量降低47%,长期使用能大幅节省成本。


Image

最后说句实在的:GPT-5.4最恐怖的不是某一个维度的突破,而是全维度无短板——深度知识工作、原生计算机使用、高阶编程与调试三大核心升级,每一项都做到顶尖。

技术交流可入群

图片

最近有算力可薅羊毛

图片



没有评论:

发表评论

tttLRM:首个线性复杂度自回归3D重建大模型,支持64视图流式输入,推理速度提升百倍

宾夕法尼亚大学与Adobe提出的tttLRM模型,首次将测试时训练引入3D重建领域,通过LaCT架构实现线性计算复杂度。该模型支持多达64张多视角图像的流式输入,在保持高质量重建细节的同时,大幅提升推理速度,适用于需要快速、精准建模的复杂场景与对象级3D重建任务。 Tags: ...