2026年3月7日星期六

GPT-5。4 深度评测:Computer Use 操控电脑、100万Token上下文、幻觉减少33%,对比Claude如何选?

本文深度评测GPT-5.4的核心更新:原生Computer Use功能可操控电脑执行任务,在OSWorld测试中首次超越人类基准;API支持100万Token上下文,缓解长文档处理遗忘问题;官方称幻觉减少33%。文章对比了其在自动化、长文本处理与Claude在写作风格上的差异,并分析其当前主要面向开发者,普通用户升级感知可能有限。适合关注AI前沿进展、需要自动化处理重复任务或长文本项目的用户参考。

Tags:

3月5日凌晨,我发了一篇文章,标题叫GPT-5.3发布了,但我还是选择了Claude

发完已经快11点了,关电脑睡觉。

凌晨2点多,GPT-5.4 官宣了。

第二天起来,评论区里有人只留了两个字:5.4

图片

……好吧。

说实话,看到这条评论的那一刻,我第一反应不是兴奋,是尴尬。但随即想到,这不正好是个机会吗?带着「我凭什么要改变主意」的疑问去认真测一测,比单纯蹭热点更有意思。

所以这篇文章,是我给自己的一个交代。

图片

这次,定位变了

每次 OpenAI 发新版本,最常见的评论就是:"有什么区别?感觉差不多。"

GPT-5.4 这次,我觉得不太一样,不是因为它更聪明了多少,而是因为它的定位变了

以前的 GPT,是一个很厉害的回答问题的工具。你问,它答,这是它的边界。

GPT-5.4 想做的事情,是替你干活

这个转变,比它具体强了多少分,更让我在意。

最让我意外的,不是它有多聪明

测试过程中,让我停下来的,是这个功能:Computer Use(原生操控电脑)

不是插件,不是外挂,是模型本身就能「看着屏幕干活」。

你可以理解成:你把电脑交给它,告诉它"帮我把这份 Excel 里的数据整理成报告,发给王总",然后……它去做了。打开软件、整理数据、写邮件、点发送。

有一个数字让我印象深刻:在 OSWorld 基准测试(测试 AI 操控电脑完成任务的能力)上,GPT-5.4 拿到了 **75%**,而人类的基准线是 **72.4%**。

这是第一次,AI 在这项测试上超过了人类。

我没有夸大这件事的意义,基准测试不等于现实,但这个节点本身是真实的。就好像 AlphaGo 第一次赢人类棋手,赢了之后围棋还是围棋,但什么东西变了。

图片

需要说明的是:Computer Use 目前主要面向 API 开发者,普通 ChatGPT 用户还用不到。但它指向的方向,值得所有人关注。

100万Token,治的是AI的健忘症

用过 AI 做长期项目的人,一定经历过这个:

聊了一个小时,建立了很多共识,然后——上下文满了,重新来过。或者粘贴了一半代码,它说「内容太长,帮我分段」。一件事没干完,光是重新交代背景就已经耗掉了一半耐心。

GPT-5.4 API 版本支持 100万 Token 的上下文窗口——换算成汉字,大约是 150 万字,相当于三四部长篇小说的体量。

你可以把整个项目的代码库、全年的会议记录、一本完整的参考书,一次性喂给它,然后问任何问题。它不会"忘",因为它从头到尾都看得见。

AI 的健忘症,一直是让人抓狂却说不清楚的痛点。这次至少在技术上,迈了一大步。

幻觉少了33%,我信吗?

OpenAI 说,和 GPT-5.2 相比,GPT-5.4 单个陈述出错的概率降低了 33%,整个回答出现错误的概率降低了 18%。

这个数字我没法独立核实——模型刚出来两天,严肃的第三方测试还没来得及做。

但我自己用下来有一个真实感受:开了联网之后,它给出的数据基本是对的。

它不会凭空捏造一个数字,而是去网上找,找到了再告诉你。这不是「它变聪明了」,是「它知道去查了」。对我来说,这个变化比任何准确率百分比都更直接。

图片

说说它还不够好的地方

写作这块,Claude 还是赢。我专门用同一个提示词测了两边「写一段有点情绪的内容」。GPT-5.4 写出来的,流畅、正确,像机器写的。Claude的版本有点粗糙,但有人味。

图片

对普通用户,这次升级感知可能不大。Computer Use目前主要在 API和Codex里,1M上下文也是API专属。如果你只是每天开 ChatGPT聊聊天、写写邮件,GPT-5.4和GPT-5.2的体感差距,可能没有发布会说的那么强大。

那我改变主意了吗?

还没有。

不是因为 GPT-5.4 不够好,它确实更强了,在我测试的几个维度上进步是真实的。但「更强」和「更适合我」是两件事。

我的日常工作里,写作和长文档处理占大头。这两件事上,Claude 现在仍然是我更顺手的那个。

但Computer Use这个方向,我会持续跟进。如果它真的能稳定地帮我完成那些重复的操作流程——打开软件、整理表格、发消息,我会再次测试一下。

GPT-5.4 是真正意义上的一步,不是版本号游戏。但这一步能不能走进你的工作流,还需要时间验证。

你现在用的是哪个 AI 工具?在评论区告诉我,我想知道大家的真实使用习惯。

觉得有用?长按转发给也在用 AI 的朋友。我刚说完「还是选 Claude」,说不定 GPT-5.5 就出来了。

没有评论:

发表评论

能源管理系统EMS开源项目deep-ems:支持企业能耗监控、定额管理与碳核算二次开发

本文介绍企业级能源管理系统deep-ems开源项目,适用于制造业、园区等需进行能耗监控与碳管理的企业。项目提供完整源代码,支持二次开发;核心功能包括通过MQTT实时采集能耗数据、AI能耗预测、异常预警、自动化碳核算及可视化驾驶舱,帮助企业实现精细化管理并应对双碳目标。 Tags:...