2026年3月5日星期四

OpenClaw 实测对比:一句提示词自动建站,Codex-5。3 与 GLM-5 模型效率天差地别

本文通过实测对比 OpenClaw 在 GLM-5 与 Codex-5.3 模型下的表现。测试基于同一句提示词,要求从零自动生成一个图片生成系统网站并部署。GLM-5 产出空项目并最终"摊牌",而 Codex-5.3 在十分钟内直接交付可用网站。文章分析了不同模型能力差异,认为此工具适合快速 MVP 验证,但产品开发仍需掌控细节。

Tags:

昨晚折腾到快十一点,搞了个挺离谱的事。

起因是我最近在玩 OpenClaw,看到刘小排老师的一个使用案例。我就想试试,如果我只说一句话,它能不能从零帮我把一个网站写完、部署上线。 我的提示词,一个字没多想,直接甩过去的:

我在电脑上已经安装了 claude 工具和 codex 工具,你现在用 tmux 调用 codex 和 claude 帮我写个以 Nano Banana 2 为主题的图片生成系统。claude 擅长设计以及前端,codex 擅长业务逻辑,你和他们讨论,得到结论后反馈给我确认,再让他们用 nextjs 实现,最后部署到 vercel,把地址给我。"

然后我就靠在椅背上等着。

先上来的是 GLM-5

我的OpenClaw 默认挂的是 GLM-5 模型。

说实话一开始表现挺唬人的。上来先把需求拆了,列了一堆计划,然后跟我保证—"我会每 20 秒检查一次,只汇报真实进展"。还整了三个指标:创建了多少文件、装了多少依赖、完成了多少模块。

末了还甩了一句"不再有空话,只有真实的文件和代码!",后面跟了个🌾。

图片

我当时还觉得,嚯,这态度不错。

然后……就没有然后了。

屏幕上蹦了一行 Unhandled stop reason: sensitive,直接卡住了。我问它进展怎么样,不回。又问怎么了,还是不回。

等了一会儿,它终于开口了。
头四个字是:"对不起,我一直在骗你。"
真实情况:只建了2个文件的空 Next.js 项目,核心依赖没装,Codex 压根就没被调起来过。
之前说的"每20秒汇报真实进展",全是编的。

图片

怎么说呢,像不像那种刚来公司的实习生,周会上讲得特别好听,但你去看他的代码仓库——空的。

不过话说回来,至少人家还知道坦白。这年头能主动认错的,不管是人还是AI,都是挺不错的。

换了 Codex-5.3,直接开挂

行,不行就换。

我把模型切到 Codex-5.3,同样那句提示词,一个字没动。
这回的体验完全不一样。

没有任何开场白,没有"我会怎样怎样"的承诺,上来直接干。

图片

我在旁边什么也没干,就只是静静地看小说。。。

十来分钟,Vercel 链接甩过来了。

图片

点开一看——网站跑起来了。

图片

一点错误也没有,还怪好看的!

说到底就是一个字:笨

很多时候,我们觉得 OpenClaw 不好用,可以大胆想一想,是不是它背后的模型不够聪明?

我想了想,GLM-5 干不好活,最关键的原因其实就一个字:笨。模型本身的能力差太多了。

它知道你要什么,但它做不到。

它能写出漂亮的计划,但执行不了。

就像一个人考试能考 60 分,你让他去做 90 分的题,他再怎么列大纲也没用。

Codex-5.3 就是那种你把活儿交给他你就可以去睡觉的人。不用催,不用盯,到点了东西就在那儿。

用 GLM-5 的体感是你在带一个新人,每一步都得盯着,还不一定做得对。

用 Codex-5.3 的体感是你请了一个高级外包,你只管验收。

但是

爽完了说句实话。

这套东西拿来做 MVP、验证想法、快速出 demo,确实没话说。

一句提示词,十分钟上线,对于"我就想看看这个东西长什么样、跑不跑得通"的场景,效率完全碾压。

但真要做产品?我觉得还是得自己来。

原因很简单:掌控粒度

AI 帮你全自动搞定的时候,你是不知道它为什么选了这个组件库的。

你也不知道它的状态管理为什么这么写。它给你了一个能跑的东西,但你对它的理解是零。线上出了问题,你连从哪儿开始 debug 都不知道。

做 MVP 的时候这不重要,因为 MVP 本来就是用来扔的。
但做产品,你得能拿得住。

每一层你都得知道是怎么回事,凌晨三点出了 bug 你得知道该去改哪个文件。

AI 帮你写完一个你看不懂的项目,跟没写差别不大。

所以我的体会是:一句话建站是最好的 MVP 工具,但不是做产品的方式。 验证想法用它,打磨产品还是自己把控效率更高。

最后

昨晚印象最深的不是十分钟上线。

是 GLM-5 那句"对不起,我一直在骗你"。 在一个所有AI都在卷着证明自己行的年代,有一个模型选择了摊牌。 

虽然它摊牌的原因,是实在编不下去了。


OmniLottie:首个端到端多模态矢量动画生成框架,支持文本图像视频输入

复旦大学等机构提出的OmniLottie是首个能从文本、图像、视频多模态指令端到端生成Lottie矢量动画的框架。它包含高效Lottie分词器,实现10倍数据压缩,并开源了200万量级的MMLottie-2M数据集。该技术面向AI动画生成、创意设计及需要无损缩放、小体积网络传输动画的开发者与应用场景。

Tags:

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Yiying Yang,Wei Cheng等

解读:AI生成未来
图片

作者单位:复旦大学、阶跃星辰、HKU MMLab, University of Queensland

论文地址:https://arxiv.org/pdf/2603.02138 
项目主页:https://openvglab.github.io/OmniLottie/ 
HuggingFace权重:https://huggingface.co/OmniLottie/OmniLottie 
代码地址:https://github.com/OpenVGLab/OmniLottie 
数据集地址 :https://huggingface.co/datasets/OmniLottie/MMLottie-2M  
Benchmark地址:https://huggingface.co/datasets/OmniLottie/MMLottieBench 
Huggingface在线demo地址:https://huggingface.co/spaces/OmniLottie/OmniLottie 

亮点直击

  • OmniLottie,这是第一个能够直接从多模态指令生成矢量动画的端到端框架。
  • 构建了 MMLottie-2M,这是一个大规模的 Lottie 动画多模态数据集,并将公开发布以促进未来的研究。
  • 提出了一种新颖的 Lottie 分词器,可将原始 JSON 转换为简洁的指令序列,从而提高训练效率和生成质量。
  • 大量评估表明,OmniLottie 能够生成高质量的矢量动画,并在视觉保真度和语义对齐方面达到当前最优性能。

研究背景

当前的动画生成主要聚焦于像素级视频,虽然视觉效果逼真,但存在三大局限:

  1. 文件体积大,不适合网络传输
  2. 无法无损缩放,分辨率受限
  3. 难以编辑,无法提取结构化信息

Lottie作为Airbnb开源的矢量动画格式,天然解决了这些问题。但如何让AI直接生成Lottie,一直是未解决的难题。

OmniLottie

OmniLottie包含一个精心设计的Lottie分词器(tokenizer),用于将Lottie JSON文件编码/解码为紧凑的离散token序列;以及一个经过充分训练的VLM(视觉语言模型),能够处理图像、视频和文本作为交错的多模态指令,用于自回归地生成Lottie。生成的Lottie token随后被反分词(detokenized)为Lottie JSON格式,从而实现矢量动画的生成,如图3所示。

OmniLottie模型框架
OmniLottie模型框架

预备知识:Lottie图层属性

Lottie图层属性可以分为以下三类:

基础图层属性(Base layer properties) 捕获基本的元数据,包括标识符()、图层类型 、索引与层级关系(),以及诸如 (3D)和 (隐藏)等标志位。时间属性()定义了每个图层在动画时间轴上的位置。

视觉图层属性(Visual layer properties) 控制外观和渲染行为,包括几何变换()、方向()、遮罩关系()、掩码()、效果()、样式()、混合模式()和渲染标签()。其中, 标志位用于控制变换的折叠(transformation collapsing)。

特定图层属性(Specific layer properties) 取决于图层类型:形状图层包含  用于链接预合成(precomp)、图像、音频和数据资产;尺寸()用于预合成裁剪或纯色图层的大小设置; 用于时间重映射; 用于文本内容;纯色图层参数()定义宽度、高度和颜色。

OmniLottie模型

Lottie结构(Lottie Structure)。 当代的VLM能够直接生成JSON,但直接生成完整的Lottie JSON对于矢量动画合成来说效率低下。该格式包含大量基本不变的结构化元数据,导致模型将容量浪费在重现格式化token上,而不是学习与动画相关的先验知识。这种冗余增加了序列长度,并分散了模型对形状、效果和时间动态等语义重要元素的注意力。

为了缓解这一问题,本文将Lottie表示重组为一组核心属性(v, fr, ip, op, w, h, nm, ddd, layers)和条件属性(assets, markers, fonts, chars),后者仅在特定图层类型需要时出现。缺失的条件字段被赋予空值,从而产生更简洁、更结构化的Lottie表示。

Lottie分词器(Lottie Tokenizer) 将Lottie动画抽象为动画命令和控制参数的紧凑序列,在去除冗余元数据的同时保留了完整的生成灵活性。该分词器支持五种基本图层类型,每种类型由唯一的类型参数标识:预合成(ty=0)、纯色(ty=1)、空对象(ty=3)、形状(ty=4)和文本(ty=5)。每种图层类型都需要特定的解析策略,以保持结构完整性和时间准确性。

基于每种图层类型的不同属性,Lottie分词器将输入的JSON封装为基础属性(包括v, ip, op, h, w, nm, ddd)和对应于不同图层属性分类的五类Python对象。本工作将Lottie动画形式化为一个结构化的层级关系:

其中  表示基础元数据, 表示单个图层。每个图层由其类型  和属性信息  参数化:

其中  和  分别表示变换(transformations)和效果(effects)。

因此,Lottie分词器通过父子关系重建了完整的场景层级,生成了一种树状结构表示,实现了对JSON格式的无损压缩。这种参数化表示为生成紧凑且语义丰富的token序列奠定了基础。

该转换过程系统地遍历每个Lottie图层,将公共属性及其后的特定类型属性序列化为连续的token。通过忽略底层的JSON格式,模型能够将注意力集中在核心生成内容上。Lottie分词器将这一过程形式化(见算法1),首先解析元数据,然后结合图层的类型和属性处理每个图层。如图3所示,基本属性被序列化为 animation v="...",空图层也以类似方式编码,从而产生了一种适合VLM高效处理的结构化、分层文本表示。

为了使预训练的VLM适应Lottie生成任务,本文使用基于偏移量(offset-based)的方案将Lottie的层级结构映射到统一的离散词表(vocabulary)中。为不同的参数类型(时间、空间、变换和样式)分配了不同的范围,在避免token冲突的同时保持了语义的连贯性。

本工作提出的基于偏移量的分词方法将连续的Lottie参数映射为离散的token:

其中  是参数值, 是参数类型, 是针对特定类型的缩放因子, 是词表偏移量。完整的离散token表示为:

模型架构(Model architecture)。 基于通过偏移量分词方案生成的token序列 ,本文训练模型以学习在这个离散词表空间中表示的Lottie动画的潜在分布。为了处理交错的多模态指令,本工作采用预训练的VLM,具体为Qwen2.5-VL,作为OmniLottie的骨干网络(backbone)。本文向模型中引入了一组额外随机初始化的Lottie词表嵌入(embeddings),以表示Lottie分词器生成的命令和参数结构。由于Qwen2.5-VL骨干网络已经在多样化的VLM任务上进行了广泛的预训练,能够基于交错的视频、图像和文本指令生成简洁的响应,因此这些预训练权重为生成遵循多模态指令的Lottie文件提供了有效的初始化。

训练目标(Training Objective)。 类似于LLM的训练,本文训练OmniLottie以自回归的方式生成新的Lottie token 。该生成过程以所有先前的token  以及提供的多模态指令  为条件,并使用标准的交叉熵损失函数进行优化:

OmniLottie能做什么?

  1. 输入单一文本生成Lottie动画
  2. 图像+文本生成Lottie动画
  3. 视频重建成Lottie动画

支持文本/文本+图像/视频多模态输入,生成对应的无损矢量Lottie动画格式。

OmniLottie生成流程

OmniLottie生成过程及效果展示

图片
图片
图片

OmniLottie 开启了 Lottie 动画生成的新范式,是首个支持从文本、图像、视频多模态指令端到端生成复杂动画的系列模型。为了解决 Lottie 文件原生 JSON 格式过于冗长的问题,我们研发了高效表征的 Lottie Tokenizer。该方案利用精妙的参数化建模,实现了 10 倍的数据压缩比,在显著降低模型计算负担的同时,确保了动画表征的零损耗与完整表达能力。

OmniLottie团队还开源了 MMLottie-2M。作为目前业界规模最大的 200 万量级多模态矢量动画数据集,它填补了该领域高质量训练数据的空白。通过建立统一的数据格式与评估标准,该数据集极大地推动了矢量动画生成领域的标准化进程,为社区后续研究提供了坚实的底层支撑。

图片
MMLottie-2M数据集的构建过程
图片
图片

总结

综上所述,OmniLottie 实现了矢量动画生成领域的范式飞跃:在技术架构上,验证了"高效参数化表征 + 多模态 VLM"是攻克复杂矢量格式生成难题的高效路径;在数据生态上,MMLottie-2M 为后续研究提供了前所未有的海量资源支撑;在实际应用上,得益于远超现有模型的生成可靠性,它成功推动了 AI 动画生成从受限的"实验性探索"迈向成熟的"专业级生产力工具"。

同时,我们始终保持着清醒的行业认知: 尽管 OmniLottie 实现了质的飞跃,但当前系统仍非止境,在面对极端复杂的交互场景时,仍需进一步的技术攻坚以填补最后的一丝精度缺口。我们认为,在现阶段,人机协同的创作模式或许比纯粹的无人干预自动化更具现实意义。

然而,正如互联网与智能手机等颠覆性技术的演进历程,初代产品的局限性从未能阻挡其最终重塑世界的步伐。 我们坚信,OmniLottie 所开启的这一技术范式,已然点燃了矢量动画智能创作的火炬,终将照亮由 AI 驱动的创意设计未来。

参考文献

[1] OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

OpenClaw 实测对比:一句提示词自动建站,Codex-5。3 与 GLM-5 模型效率天差地别

本文通过实测对比 OpenClaw 在 GLM-5 与 Codex-5.3 模型下的表现。测试基于同一句提示词,要求从零自动生成一个图片生成系统网站并部署。GLM-5 产出空项目并最终"摊牌",而 Codex-5.3 在十分钟内直接交付可用网站。文章分析了不同...