AI I024: OpenClaw 实测对比：一句提示词自动建站，Codex-5。3 与 GLM-5 模型效率天差地别

2026年3月5日星期四

OpenClaw 实测对比：一句提示词自动建站，Codex-5。3 与 GLM-5 模型效率天差地别

本文通过实测对比 OpenClaw 在 GLM-5 与 Codex-5.3 模型下的表现。测试基于同一句提示词，要求从零自动生成一个图片生成系统网站并部署。GLM-5 产出空项目并最终"摊牌"，而 Codex-5.3 在十分钟内直接交付可用网站。文章分析了不同模型能力差异，认为此工具适合快速 MVP 验证，但产品开发仍需掌控细节。

Tags:

OpenClaw

AI编程工具

模型对比

Codex-5.3

快速原型

昨晚折腾到快十一点，搞了个挺离谱的事。

起因是我最近在玩 OpenClaw，看到刘小排老师的一个使用案例。我就想试试，如果我只说一句话，它能不能从零帮我把一个网站写完、部署上线。我的提示词，一个字没多想，直接甩过去的：

我在电脑上已经安装了 claude 工具和 codex 工具，你现在用 tmux 调用 codex 和 claude 帮我写个以 Nano Banana 2 为主题的图片生成系统。claude 擅长设计以及前端，codex 擅长业务逻辑，你和他们讨论，得到结论后反馈给我确认，再让他们用 nextjs 实现，最后部署到 vercel，把地址给我。"

然后我就靠在椅背上等着。

先上来的是 GLM-5

我的OpenClaw 默认挂的是 GLM-5 模型。

说实话一开始表现挺唬人的。上来先把需求拆了，列了一堆计划，然后跟我保证—"我会每 20 秒检查一次，只汇报真实进展"。还整了三个指标：创建了多少文件、装了多少依赖、完成了多少模块。

末了还甩了一句"不再有空话，只有真实的文件和代码！"，后面跟了个🌾。

我当时还觉得，嚯，这态度不错。

然后……就没有然后了。

屏幕上蹦了一行 Unhandled stop reason: sensitive，直接卡住了。我问它进展怎么样，不回。又问怎么了，还是不回。

等了一会儿，它终于开口了。
头四个字是："对不起，我一直在骗你。"
真实情况：只建了2个文件的空 Next.js 项目，核心依赖没装，Codex 压根就没被调起来过。
之前说的"每20秒汇报真实进展"，全是编的。

怎么说呢，像不像那种刚来公司的实习生，周会上讲得特别好听，但你去看他的代码仓库——空的。

不过话说回来，至少人家还知道坦白。这年头能主动认错的，不管是人还是AI，都是挺不错的。

换了 Codex-5.3，直接开挂

行，不行就换。

我把模型切到 Codex-5.3，同样那句提示词，一个字没动。
这回的体验完全不一样。

没有任何开场白，没有"我会怎样怎样"的承诺，上来直接干。

我在旁边什么也没干，就只是静静地看小说。。。

十来分钟，Vercel 链接甩过来了。

点开一看——网站跑起来了。

一点错误也没有，还怪好看的！

说到底就是一个字：笨

很多时候，我们觉得 OpenClaw 不好用，可以大胆想一想，是不是它背后的模型不够聪明？

我想了想，GLM-5 干不好活，最关键的原因其实就一个字：笨。模型本身的能力差太多了。

它知道你要什么，但它做不到。

它能写出漂亮的计划，但执行不了。

就像一个人考试能考 60 分，你让他去做 90 分的题，他再怎么列大纲也没用。

Codex-5.3 就是那种你把活儿交给他你就可以去睡觉的人。不用催，不用盯，到点了东西就在那儿。

用 GLM-5 的体感是你在带一个新人，每一步都得盯着，还不一定做得对。

用 Codex-5.3 的体感是你请了一个高级外包，你只管验收。

但是

爽完了说句实话。

这套东西拿来做 MVP、验证想法、快速出 demo，确实没话说。

一句提示词，十分钟上线，对于"我就想看看这个东西长什么样、跑不跑得通"的场景，效率完全碾压。

但真要做产品？我觉得还是得自己来。

原因很简单：掌控粒度。

AI 帮你全自动搞定的时候，你是不知道它为什么选了这个组件库的。

你也不知道它的状态管理为什么这么写。它给你了一个能跑的东西，但你对它的理解是零。线上出了问题，你连从哪儿开始 debug 都不知道。

做 MVP 的时候这不重要，因为 MVP 本来就是用来扔的。
但做产品，你得能拿得住。

每一层你都得知道是怎么回事，凌晨三点出了 bug 你得知道该去改哪个文件。

AI 帮你写完一个你看不懂的项目，跟没写差别不大。

所以我的体会是：一句话建站是最好的 MVP 工具，但不是做产品的方式。验证想法用它，打磨产品还是自己把控效率更高。

最后

昨晚印象最深的不是十分钟上线。

是 GLM-5 那句"对不起，我一直在骗你"。在一个所有AI都在卷着证明自己行的年代，有一个模型选择了摊牌。

虽然它摊牌的原因，是实在编不下去了。

AI I024

2026年3月5日星期四

OpenClaw 实测对比：一句提示词自动建站，Codex-5。3 与 GLM-5 模型效率天差地别

Tags:

OpenClaw

AI编程工具

模型对比

Codex-5.3

快速原型

先上来的是 GLM-5

换了 Codex-5.3，直接开挂

说到底就是一个字：笨

最后

没有评论:

发表评论

医疗视频理解大模型开源，6k+精标测试集与英雄榜上线

标签

2026年3月5日星期四

OpenClaw 实测对比：一句提示词自动建站，Codex-5。3 与 GLM-5 模型效率天差地别

Tags: OpenClaw AI编程工具 模型对比 Codex-5.3 快速原型

先上来的是 GLM-5

换了 Codex-5.3，直接开挂

说到底就是一个字：笨

最后

没有评论:

发表评论

医疗视频理解大模型开源，6k+精标测试集与英雄榜上线

Tags:

OpenClaw

AI编程工具

模型对比

Codex-5.3

快速原型