今天继续聊聊科技圈的那些事儿。
一篇来自英伟达、斯坦福、伯克利、UT Austin 和 UCSD 的超酷研究——用AI一键生成1分钟连贯动画视频!
这篇论文已被计算机视觉顶会 CVPR 2025 接收。
项目主页:
https://test-time-training.github.io/video-dit
文章地址:
https://arxiv.org/pdf/2504.05298
还有另一个亮点Wish-to-Game, 把你的想法变成真正的游戏。不要代码,只凭感觉和想象力。
尝鲜地址:
https://www.astrocade.com
一分钟视频生成
视频生成这事,早就不是新鲜事。你现在就能在网上找到一些从文字生成视频的工具。但一直存在一个问题卡住了所有人:怎么让 AI 生成「连续一分钟」的、有起承转合、还能讲故事的视频?
目前的大多数模型,比如 OpenAI 的 Sora 或 Meta 的 MovieGen,最长只能生成十几秒。而这篇来自 NVIDIA、斯坦福等机构的论文展示了一个突破:他们让模型生成了完整的一分钟动画,而且不用剪辑、拼接、也不用后期处理,一次性生成完毕!
这个黑科技的核心,是一种叫 Test-Time Training (TTT) 的结构。
来看看几段样片:
苹果派:
水下冒险:
嘉年华:
像这这样的短片总共有五个,大家也可以到他们的官网去查看详细提示词还有故事梗概。
大家认为效果怎么样?要是我不提前说的话,能猜出来是AI生成的吗?
重点来了TTT-MLP是根据文字剧本一次性生成的1分钟动画,没有任何后期剪辑或拼接!
不少网友看完也是纷纷点赞,感叹"AI封神了":
TTT层让Transformer变"长记性"
现在的AI生成视频有个痛点:记性太短, 因为传统的 Transformer 模型根本吃不下。就像金鱼一样,生成20秒后就忘记前面发生了什么。
TTT 是一种改造过的 RNN 层,它的隐藏状态不是死板的向量或矩阵,而是一个可以训练的神经网络!
它能在生成时继续优化自己,就像给 Transformer 装了一个临场发挥模块。
同时还开发了一个特别的 GPU 加速算法,把大部分中间状态装进共享内存,避免过多数据传输,提升效率。
架构核心,如图所示:
每个注意力层后面加一个带"学习门控"的 TTT 层;
Transformer 只处理 3 秒片段(局部),TTT 层负责跨片段理解(全局);
实力对比
研究团队把他们的 TTT-MLP 模型和当前主流的几种长视频生成方案做了对比,包括:
Mamba 2:线性 RNN 变体
Gated DeltaNet:另一种流行的高效 RNN 层
Sliding-window Attention:局部注意力机制
故事线:汤姆愉快地坐在厨房的桌子旁吃苹果派。杰瑞则带着渴望的表情,希望自己也能尝一尝。 杰瑞走到房子的前门外,按响了门铃。
当汤姆去开门时,杰瑞绕到房子的后面进入厨房,偷走了汤姆的苹果派。 杰瑞拿着派跑向他的鼠洞,而汤姆则在追逐他。就在汤姆快要抓住杰瑞的时候,杰瑞钻进了鼠洞,而汤姆撞到了墙上。
我们可以看到TTT-MLP是表现最好的。
TTT-MLP 在场景变化和不同角度下保持时间一致性,生成平滑且高质量的动作。
Sliding-window Attention改变了厨房环境,变换了房子的颜色,并多次重复杰瑞偷馅饼的动作。
Gated DeltaNet 在汤姆的不同角度缺乏时间一致性,但在后续帧中保持了厨房环境的一致性。
Mamba 2 在汤姆咆哮并追逐杰瑞时扭曲了他的外貌,但在整个视频中保持了厨房环境的一致性。
详细的对比视频也可以在官网查看。
TTT的特点
优点:
能处理复杂多场景故事
保持角色和场景的一致性
动作自然流畅(大部分时候)
现存问题:
物体有时会"飘浮":奶酪悬浮在空中,而不是自然地掉落到地面。
灯光变化不太自然:当汤姆转身时,厨房的光线变得显著更亮
复杂镜头运动还不够精准:在同一场景的每个 3 秒段落中,方块会发生形态变化
生成速度有待提升(目前比传统方法慢1.4倍)
团队为这次研究专门构建了一个数据集,让汤姆和杰瑞再次就业。从已有的《猫 和老鼠》动画中提取了 7 小时视频 + 精细故事板注释。
注意,这次训练目标不是"模仿原画风",而是专注于:
故事连贯性
场景切换处理
动作和剧情的因果性
他们的目标是:生成复杂多场景、长篇动态视频,为通用视频生成铺路。
Wish-to-Game
最近"vibe coding"火了,大家说以后程序员只靠说话就能写代码。现在,vibe game design 也来了!
一个名叫 Astrocade 的团队推出了"Wish-to-Game"平台,主打一句话生成可玩的游戏!
什么是 Wish-to-Game?
简单说,将你的所有游戏想法通过语言实现。 这听起来是不是一件非常酷炫的事情。
我们在官方平台上,通过对话的形式逐渐创作出属于你自己的游戏。
网友在评论区疯狂输出自己的各式各样的想法,Astrocade公司也都回答到快去尝试!
水下障碍赛?
猫咪的互动小说?
中土世界的农场经营模拟?
统统没问题,就是你说我做、说完就能玩。
最后一句话
如果说此前的视频生成技术只能做"会动的美图",那这次 TTT 模型,算是让 AI 讲起了有头有尾的故事。
那 Astrocade 就是让 AI 和你一起创造能玩的故事。
两者都在指向一个清晰的未来方向:想法变作品只需要一句话。
你会用 AI 讲一个怎样的故事,做一个什么样的游戏?欢迎在评论区分享你的看法!
如果喜欢这类内容,别忘了点赞关注~ 下期我们会带来更多有趣的AI前沿研究。我是 Jack,我们下期再见!
没有评论:
发表评论