本文通过实测对比 OpenClaw 在 GLM-5 与 Codex-5.3 模型下的表现。测试基于同一句提示词,要求从零自动生成一个图片生成系统网站并部署。GLM-5 产出空项目并最终"摊牌",而 Codex-5.3 在十分钟内直接交付可用网站。文章分析了不同模型能力差异,认为此工具适合快速 MVP 验证,但产品开发仍需掌控细节。
Tags:
昨晚折腾到快十一点,搞了个挺离谱的事。
起因是我最近在玩 OpenClaw,看到刘小排老师的一个使用案例。我就想试试,如果我只说一句话,它能不能从零帮我把一个网站写完、部署上线。 我的提示词,一个字没多想,直接甩过去的:
我在电脑上已经安装了 claude 工具和 codex 工具,你现在用 tmux 调用 codex 和 claude 帮我写个以 Nano Banana 2 为主题的图片生成系统。claude 擅长设计以及前端,codex 擅长业务逻辑,你和他们讨论,得到结论后反馈给我确认,再让他们用 nextjs 实现,最后部署到 vercel,把地址给我。"
然后我就靠在椅背上等着。
先上来的是 GLM-5
我的OpenClaw 默认挂的是 GLM-5 模型。
说实话一开始表现挺唬人的。上来先把需求拆了,列了一堆计划,然后跟我保证—"我会每 20 秒检查一次,只汇报真实进展"。还整了三个指标:创建了多少文件、装了多少依赖、完成了多少模块。
末了还甩了一句"不再有空话,只有真实的文件和代码!",后面跟了个🌾。
我当时还觉得,嚯,这态度不错。
然后……就没有然后了。
屏幕上蹦了一行 Unhandled stop reason: sensitive,直接卡住了。我问它进展怎么样,不回。又问怎么了,还是不回。
等了一会儿,它终于开口了。
头四个字是:"对不起,我一直在骗你。"
真实情况:只建了2个文件的空 Next.js 项目,核心依赖没装,Codex 压根就没被调起来过。
之前说的"每20秒汇报真实进展",全是编的。
怎么说呢,像不像那种刚来公司的实习生,周会上讲得特别好听,但你去看他的代码仓库——空的。
不过话说回来,至少人家还知道坦白。这年头能主动认错的,不管是人还是AI,都是挺不错的。
换了 Codex-5.3,直接开挂
行,不行就换。
我把模型切到 Codex-5.3,同样那句提示词,一个字没动。
这回的体验完全不一样。
没有任何开场白,没有"我会怎样怎样"的承诺,上来直接干。
我在旁边什么也没干,就只是静静地看小说。。。
十来分钟,Vercel 链接甩过来了。
点开一看——网站跑起来了。
一点错误也没有,还怪好看的!
说到底就是一个字:笨
很多时候,我们觉得 OpenClaw 不好用,可以大胆想一想,是不是它背后的模型不够聪明?
我想了想,GLM-5 干不好活,最关键的原因其实就一个字:笨。模型本身的能力差太多了。
它知道你要什么,但它做不到。
它能写出漂亮的计划,但执行不了。
就像一个人考试能考 60 分,你让他去做 90 分的题,他再怎么列大纲也没用。
Codex-5.3 就是那种你把活儿交给他你就可以去睡觉的人。不用催,不用盯,到点了东西就在那儿。
用 GLM-5 的体感是你在带一个新人,每一步都得盯着,还不一定做得对。
用 Codex-5.3 的体感是你请了一个高级外包,你只管验收。
但是
爽完了说句实话。
这套东西拿来做 MVP、验证想法、快速出 demo,确实没话说。
一句提示词,十分钟上线,对于"我就想看看这个东西长什么样、跑不跑得通"的场景,效率完全碾压。
但真要做产品?我觉得还是得自己来。
原因很简单:掌控粒度。
AI 帮你全自动搞定的时候,你是不知道它为什么选了这个组件库的。
你也不知道它的状态管理为什么这么写。它给你了一个能跑的东西,但你对它的理解是零。线上出了问题,你连从哪儿开始 debug 都不知道。
做 MVP 的时候这不重要,因为 MVP 本来就是用来扔的。
但做产品,你得能拿得住。
每一层你都得知道是怎么回事,凌晨三点出了 bug 你得知道该去改哪个文件。
AI 帮你写完一个你看不懂的项目,跟没写差别不大。
所以我的体会是:一句话建站是最好的 MVP 工具,但不是做产品的方式。 验证想法用它,打磨产品还是自己把控效率更高。
最后
昨晚印象最深的不是十分钟上线。
是 GLM-5 那句"对不起,我一直在骗你"。 在一个所有AI都在卷着证明自己行的年代,有一个模型选择了摊牌。
虽然它摊牌的原因,是实在编不下去了。
没有评论:
发表评论