AI I024: AI封神了！无剪辑出片60秒《猫和老鼠》，外网疯传！

今天继续聊聊科技圈的那些事儿。

一篇来自英伟达、斯坦福、伯克利、UT Austin 和 UCSD 的超酷研究——用AI一键生成1分钟连贯动画视频！

这篇论文已被计算机视觉顶会 CVPR 2025 接收。

项目主页：

https://test-time-training.github.io/video-dit

文章地址：

https://arxiv.org/pdf/2504.05298

还有另一个亮点Wish-to-Game, 把你的想法变成真正的游戏。不要代码，只凭感觉和想象力。

尝鲜地址:

https://www.astrocade.com

一分钟视频生成

视频生成这事，早就不是新鲜事。你现在就能在网上找到一些从文字生成视频的工具。但一直存在一个问题卡住了所有人：怎么让 AI 生成「连续一分钟」的、有起承转合、还能讲故事的视频？

目前的大多数模型，比如 OpenAI 的 Sora 或 Meta 的 MovieGen，最长只能生成十几秒。而这篇来自 NVIDIA、斯坦福等机构的论文展示了一个突破：他们让模型生成了完整的一分钟动画，而且不用剪辑、拼接、也不用后期处理，一次性生成完毕！

这个黑科技的核心，是一种叫 Test-Time Training (TTT) 的结构。

来看看几段样片：

苹果派：

水下冒险：

嘉年华：

像这这样的短片总共有五个，大家也可以到他们的官网去查看详细提示词还有故事梗概。

大家认为效果怎么样？要是我不提前说的话，能猜出来是AI生成的吗？

重点来了TTT-MLP是根据文字剧本一次性生成的1分钟动画，没有任何后期剪辑或拼接！

不少网友看完也是纷纷点赞，感叹"AI封神了"：

TTT层让Transformer变"长记性"

现在的AI生成视频有个痛点：记性太短，因为传统的 Transformer 模型根本吃不下。就像金鱼一样，生成20秒后就忘记前面发生了什么。

TTT 是一种改造过的 RNN 层，它的隐藏状态不是死板的向量或矩阵，而是一个可以训练的神经网络！

它能在生成时继续优化自己，就像给 Transformer 装了一个临场发挥模块。

同时还开发了一个特别的 GPU 加速算法，把大部分中间状态装进共享内存，避免过多数据传输，提升效率。

架构核心，如图所示：

每个注意力层后面加一个带"学习门控"的 TTT 层；
Transformer 只处理 3 秒片段（局部），TTT 层负责跨片段理解（全局）；

实力对比

研究团队把他们的 TTT-MLP 模型和当前主流的几种长视频生成方案做了对比，包括：

Mamba 2：线性 RNN 变体
Gated DeltaNet：另一种流行的高效 RNN 层
Sliding-window Attention：局部注意力机制

故事线：汤姆愉快地坐在厨房的桌子旁吃苹果派。杰瑞则带着渴望的表情，希望自己也能尝一尝。杰瑞走到房子的前门外，按响了门铃。

当汤姆去开门时，杰瑞绕到房子的后面进入厨房，偷走了汤姆的苹果派。杰瑞拿着派跑向他的鼠洞，而汤姆则在追逐他。就在汤姆快要抓住杰瑞的时候，杰瑞钻进了鼠洞，而汤姆撞到了墙上。

我们可以看到TTT-MLP是表现最好的。

TTT-MLP 在场景变化和不同角度下保持时间一致性，生成平滑且高质量的动作。
Sliding-window Attention改变了厨房环境，变换了房子的颜色，并多次重复杰瑞偷馅饼的动作。
Gated DeltaNet 在汤姆的不同角度缺乏时间一致性，但在后续帧中保持了厨房环境的一致性。
Mamba 2 在汤姆咆哮并追逐杰瑞时扭曲了他的外貌，但在整个视频中保持了厨房环境的一致性。

详细的对比视频也可以在官网查看。

TTT的特点

优点：

能处理复杂多场景故事
保持角色和场景的一致性
动作自然流畅（大部分时候）

现存问题：

物体有时会"飘浮"：奶酪悬浮在空中，而不是自然地掉落到地面。
灯光变化不太自然：当汤姆转身时，厨房的光线变得显著更亮
复杂镜头运动还不够精准：在同一场景的每个 3 秒段落中，方块会发生形态变化
生成速度有待提升（目前比传统方法慢1.4倍）

团队为这次研究专门构建了一个数据集，让汤姆和杰瑞再次就业。从已有的《猫和老鼠》动画中提取了 7 小时视频 + 精细故事板注释。

注意，这次训练目标不是"模仿原画风"，而是专注于：

故事连贯性
场景切换处理
动作和剧情的因果性

他们的目标是：生成复杂多场景、长篇动态视频，为通用视频生成铺路。

Wish-to-Game

最近"vibe coding"火了，大家说以后程序员只靠说话就能写代码。现在，vibe game design 也来了！

一个名叫 Astrocade 的团队推出了"Wish-to-Game"平台，主打一句话生成可玩的游戏！

什么是 Wish-to-Game？

简单说，将你的所有游戏想法通过语言实现。这听起来是不是一件非常酷炫的事情。

我们在官方平台上，通过对话的形式逐渐创作出属于你自己的游戏。

网友在评论区疯狂输出自己的各式各样的想法，Astrocade公司也都回答到快去尝试！

水下障碍赛？
猫咪的互动小说？
中土世界的农场经营模拟？

统统没问题，就是你说我做、说完就能玩。

最后一句话

如果说此前的视频生成技术只能做"会动的美图"，那这次 TTT 模型，算是让 AI 讲起了有头有尾的故事。

那 Astrocade 就是让 AI 和你一起创造能玩的故事。

两者都在指向一个清晰的未来方向：想法变作品只需要一句话。

你会用 AI 讲一个怎样的故事，做一个什么样的游戏？欢迎在评论区分享你的看法！

如果喜欢这类内容，别忘了点赞关注~ 下期我们会带来更多有趣的AI前沿研究。我是 Jack，我们下期再见！

·················END·················

AI I024

2025年4月9日星期三

AI封神了！无剪辑出片60秒《猫和老鼠》，外网疯传！