本文深度评测GPT-5.4的核心更新:原生Computer Use功能可操控电脑执行任务,在OSWorld测试中首次超越人类基准;API支持100万Token上下文,缓解长文档处理遗忘问题;官方称幻觉减少33%。文章对比了其在自动化、长文本处理与Claude在写作风格上的差异,并分析其当前主要面向开发者,普通用户升级感知可能有限。适合关注AI前沿进展、需要自动化处理重复任务或长文本项目的用户参考。
Tags:
3月5日凌晨,我发了一篇文章,标题叫GPT-5.3发布了,但我还是选择了Claude
发完已经快11点了,关电脑睡觉。
凌晨2点多,GPT-5.4 官宣了。
第二天起来,评论区里有人只留了两个字:5.4。
……好吧。
说实话,看到这条评论的那一刻,我第一反应不是兴奋,是尴尬。但随即想到,这不正好是个机会吗?带着「我凭什么要改变主意」的疑问去认真测一测,比单纯蹭热点更有意思。
所以这篇文章,是我给自己的一个交代。
这次,定位变了
每次 OpenAI 发新版本,最常见的评论就是:"有什么区别?感觉差不多。"
GPT-5.4 这次,我觉得不太一样,不是因为它更聪明了多少,而是因为它的定位变了。
以前的 GPT,是一个很厉害的回答问题的工具。你问,它答,这是它的边界。
GPT-5.4 想做的事情,是替你干活。
这个转变,比它具体强了多少分,更让我在意。
最让我意外的,不是它有多聪明
测试过程中,让我停下来的,是这个功能:Computer Use(原生操控电脑)。
不是插件,不是外挂,是模型本身就能「看着屏幕干活」。
你可以理解成:你把电脑交给它,告诉它"帮我把这份 Excel 里的数据整理成报告,发给王总",然后……它去做了。打开软件、整理数据、写邮件、点发送。
有一个数字让我印象深刻:在 OSWorld 基准测试(测试 AI 操控电脑完成任务的能力)上,GPT-5.4 拿到了 **75%**,而人类的基准线是 **72.4%**。
这是第一次,AI 在这项测试上超过了人类。
我没有夸大这件事的意义,基准测试不等于现实,但这个节点本身是真实的。就好像 AlphaGo 第一次赢人类棋手,赢了之后围棋还是围棋,但什么东西变了。
需要说明的是:Computer Use 目前主要面向 API 开发者,普通 ChatGPT 用户还用不到。但它指向的方向,值得所有人关注。
100万Token,治的是AI的健忘症
用过 AI 做长期项目的人,一定经历过这个:
聊了一个小时,建立了很多共识,然后——上下文满了,重新来过。或者粘贴了一半代码,它说「内容太长,帮我分段」。一件事没干完,光是重新交代背景就已经耗掉了一半耐心。
GPT-5.4 API 版本支持 100万 Token 的上下文窗口——换算成汉字,大约是 150 万字,相当于三四部长篇小说的体量。
你可以把整个项目的代码库、全年的会议记录、一本完整的参考书,一次性喂给它,然后问任何问题。它不会"忘",因为它从头到尾都看得见。
AI 的健忘症,一直是让人抓狂却说不清楚的痛点。这次至少在技术上,迈了一大步。
幻觉少了33%,我信吗?
OpenAI 说,和 GPT-5.2 相比,GPT-5.4 单个陈述出错的概率降低了 33%,整个回答出现错误的概率降低了 18%。
这个数字我没法独立核实——模型刚出来两天,严肃的第三方测试还没来得及做。
但我自己用下来有一个真实感受:开了联网之后,它给出的数据基本是对的。
它不会凭空捏造一个数字,而是去网上找,找到了再告诉你。这不是「它变聪明了」,是「它知道去查了」。对我来说,这个变化比任何准确率百分比都更直接。
说说它还不够好的地方
写作这块,Claude 还是赢。我专门用同一个提示词测了两边「写一段有点情绪的内容」。GPT-5.4 写出来的,流畅、正确,像机器写的。Claude的版本有点粗糙,但有人味。
对普通用户,这次升级感知可能不大。Computer Use目前主要在 API和Codex里,1M上下文也是API专属。如果你只是每天开 ChatGPT聊聊天、写写邮件,GPT-5.4和GPT-5.2的体感差距,可能没有发布会说的那么强大。
那我改变主意了吗?
还没有。
不是因为 GPT-5.4 不够好,它确实更强了,在我测试的几个维度上进步是真实的。但「更强」和「更适合我」是两件事。
我的日常工作里,写作和长文档处理占大头。这两件事上,Claude 现在仍然是我更顺手的那个。
但Computer Use这个方向,我会持续跟进。如果它真的能稳定地帮我完成那些重复的操作流程——打开软件、整理表格、发消息,我会再次测试一下。
GPT-5.4 是真正意义上的一步,不是版本号游戏。但这一步能不能走进你的工作流,还需要时间验证。
你现在用的是哪个 AI 工具?在评论区告诉我,我想知道大家的真实使用习惯。
觉得有用?长按转发给也在用 AI 的朋友。我刚说完「还是选 Claude」,说不定 GPT-5.5 就出来了。
没有评论:
发表评论