AI I024: GPT-5。4 深度评测：Computer Use 操控电脑、100万Token上下文、幻觉减少33%，对比Claude如何选？

2026年3月7日星期六

GPT-5。4 深度评测：Computer Use 操控电脑、100万Token上下文、幻觉减少33%，对比Claude如何选？

本文深度评测GPT-5.4的核心更新：原生Computer Use功能可操控电脑执行任务，在OSWorld测试中首次超越人类基准；API支持100万Token上下文，缓解长文档处理遗忘问题；官方称幻觉减少33%。文章对比了其在自动化、长文本处理与Claude在写作风格上的差异，并分析其当前主要面向开发者，普通用户升级感知可能有限。适合关注AI前沿进展、需要自动化处理重复任务或长文本项目的用户参考。

Tags:

GPT-5.4

AI工具对比

Computer Use

长上下文AI

Claude

3月5日凌晨，我发了一篇文章，标题叫GPT-5.3发布了，但我还是选择了Claude

发完已经快11点了，关电脑睡觉。

凌晨2点多，GPT-5.4 官宣了。

第二天起来，评论区里有人只留了两个字：5.4。

……好吧。

说实话，看到这条评论的那一刻，我第一反应不是兴奋，是尴尬。但随即想到，这不正好是个机会吗？带着「我凭什么要改变主意」的疑问去认真测一测，比单纯蹭热点更有意思。

所以这篇文章，是我给自己的一个交代。

这次，定位变了

每次 OpenAI 发新版本，最常见的评论就是："有什么区别？感觉差不多。"

GPT-5.4 这次，我觉得不太一样，不是因为它更聪明了多少，而是因为它的定位变了。

以前的 GPT，是一个很厉害的回答问题的工具。你问，它答，这是它的边界。

GPT-5.4 想做的事情，是替你干活。

这个转变，比它具体强了多少分，更让我在意。

最让我意外的，不是它有多聪明

测试过程中，让我停下来的，是这个功能：Computer Use（原生操控电脑）。

不是插件，不是外挂，是模型本身就能「看着屏幕干活」。

你可以理解成：你把电脑交给它，告诉它"帮我把这份 Excel 里的数据整理成报告，发给王总"，然后……它去做了。打开软件、整理数据、写邮件、点发送。

有一个数字让我印象深刻：在 OSWorld 基准测试（测试 AI 操控电脑完成任务的能力）上，GPT-5.4 拿到了 **75%**，而人类的基准线是 **72.4%**。

这是第一次，AI 在这项测试上超过了人类。

我没有夸大这件事的意义，基准测试不等于现实，但这个节点本身是真实的。就好像 AlphaGo 第一次赢人类棋手，赢了之后围棋还是围棋，但什么东西变了。

需要说明的是：Computer Use 目前主要面向 API 开发者，普通 ChatGPT 用户还用不到。但它指向的方向，值得所有人关注。

100万Token，治的是AI的健忘症

用过 AI 做长期项目的人，一定经历过这个：

聊了一个小时，建立了很多共识，然后——上下文满了，重新来过。或者粘贴了一半代码，它说「内容太长，帮我分段」。一件事没干完，光是重新交代背景就已经耗掉了一半耐心。

GPT-5.4 API 版本支持 100万 Token 的上下文窗口——换算成汉字，大约是 150 万字，相当于三四部长篇小说的体量。

你可以把整个项目的代码库、全年的会议记录、一本完整的参考书，一次性喂给它，然后问任何问题。它不会"忘"，因为它从头到尾都看得见。

AI 的健忘症，一直是让人抓狂却说不清楚的痛点。这次至少在技术上，迈了一大步。

幻觉少了33%，我信吗？

OpenAI 说，和 GPT-5.2 相比，GPT-5.4 单个陈述出错的概率降低了 33%，整个回答出现错误的概率降低了 18%。

这个数字我没法独立核实——模型刚出来两天，严肃的第三方测试还没来得及做。

但我自己用下来有一个真实感受：开了联网之后，它给出的数据基本是对的。

它不会凭空捏造一个数字，而是去网上找，找到了再告诉你。这不是「它变聪明了」，是「它知道去查了」。对我来说，这个变化比任何准确率百分比都更直接。

说说它还不够好的地方

写作这块，Claude 还是赢。我专门用同一个提示词测了两边「写一段有点情绪的内容」。GPT-5.4 写出来的，流畅、正确，像机器写的。Claude的版本有点粗糙，但有人味。

对普通用户，这次升级感知可能不大。Computer Use目前主要在 API和Codex里，1M上下文也是API专属。如果你只是每天开 ChatGPT聊聊天、写写邮件，GPT-5.4和GPT-5.2的体感差距，可能没有发布会说的那么强大。

那我改变主意了吗？

还没有。

不是因为 GPT-5.4 不够好，它确实更强了，在我测试的几个维度上进步是真实的。但「更强」和「更适合我」是两件事。

我的日常工作里，写作和长文档处理占大头。这两件事上，Claude 现在仍然是我更顺手的那个。

但Computer Use这个方向，我会持续跟进。如果它真的能稳定地帮我完成那些重复的操作流程——打开软件、整理表格、发消息，我会再次测试一下。

GPT-5.4 是真正意义上的一步，不是版本号游戏。但这一步能不能走进你的工作流，还需要时间验证。

你现在用的是哪个 AI 工具？在评论区告诉我，我想知道大家的真实使用习惯。

觉得有用？长按转发给也在用 AI 的朋友。我刚说完「还是选 Claude」，说不定 GPT-5.5 就出来了。

AI I024

2026年3月7日星期六

GPT-5。4 深度评测：Computer Use 操控电脑、100万Token上下文、幻觉减少33%，对比Claude如何选？

Tags:

GPT-5.4

AI工具对比

Computer Use

长上下文AI

Claude

这次，定位变了

最让我意外的，不是它有多聪明

100万Token，治的是AI的健忘症

幻觉少了33%，我信吗？

说说它还不够好的地方

那我改变主意了吗？

没有评论:

发表评论

免费AI视频生成工具seedance2。0mini无水印全能参考附微表情提示词

2026年3月7日星期六

GPT-5。4 深度评测：Computer Use 操控电脑、100万Token上下文、幻觉减少33%，对比Claude如何选？

Tags: GPT-5.4 AI工具对比 Computer Use 长上下文AI Claude

这次，定位变了

最让我意外的，不是它有多聪明

100万Token，治的是AI的健忘症

幻觉少了33%，我信吗？

说说它还不够好的地方

那我改变主意了吗？

没有评论:

发表评论

免费AI视频生成工具seedance2。0mini无水印全能参考附微表情提示词

Tags:

GPT-5.4

AI工具对比

Computer Use

长上下文AI

Claude