2025年4月9日星期三

AI封神了!无剪辑出片60秒《猫和老鼠》,外网疯传!

今天继续聊聊科技圈的那些事儿。

一篇来自英伟达、斯坦福、伯克利、UT Austin 和 UCSD 的超酷研究——用AI一键生成1分钟连贯动画视频

这篇论文已被计算机视觉顶会 CVPR 2025 接收。

项目主页:

https://test-time-training.github.io/video-dit

文章地址:

https://arxiv.org/pdf/2504.05298

还有另一个亮点Wish-to-Game, 把你的想法变成真正的游戏。不要代码,只凭感觉和想象力。

尝鲜地址:

https://www.astrocade.com

一分钟视频生成

视频生成这事,早就不是新鲜事。你现在就能在网上找到一些从文字生成视频的工具。但一直存在一个问题卡住了所有人:怎么让 AI 生成「连续一分钟」的、有起承转合、还能讲故事的视频?

目前的大多数模型,比如 OpenAI 的 Sora 或 Meta 的 MovieGen,最长只能生成十几秒。而这篇来自 NVIDIA、斯坦福等机构的论文展示了一个突破:他们让模型生成了完整的一分钟动画,而且不用剪辑、拼接、也不用后期处理,一次性生成完毕!

这个黑科技的核心,是一种叫 Test-Time Training (TTT) 的结构。

来看看几段样片:

苹果派

水下冒险

嘉年华

像这这样的短片总共有五个,大家也可以到他们的官网去查看详细提示词还有故事梗概。

大家认为效果怎么样?要是我不提前说的话,能猜出来是AI生成的吗?

重点来了TTT-MLP是根据文字剧本一次性生成的1分钟动画,没有任何后期剪辑或拼接!

不少网友看完也是纷纷点赞,感叹"AI封神了":

TTT层让Transformer变"长记性"

现在的AI生成视频有个痛点:记性太短, 因为传统的 Transformer 模型根本吃不下。就像金鱼一样,生成20秒后就忘记前面发生了什么。

TTT 是一种改造过的 RNN 层,它的隐藏状态不是死板的向量或矩阵,而是一个可以训练的神经网络!

它能在生成时继续优化自己,就像给 Transformer 装了一个临场发挥模块。

同时还开发了一个特别的 GPU 加速算法,把大部分中间状态装进共享内存,避免过多数据传输,提升效率。

架构核心,如图所示:

  • 每个注意力层后面加一个带"学习门控"的 TTT 层;

  • Transformer 只处理 3 秒片段(局部),TTT 层负责跨片段理解(全局);

实力对比

研究团队把他们的 TTT-MLP 模型和当前主流的几种长视频生成方案做了对比,包括:

  • Mamba 2:线性 RNN 变体

  • Gated DeltaNet:另一种流行的高效 RNN 层

  • Sliding-window Attention:局部注意力机制

故事线:汤姆愉快地坐在厨房的桌子旁吃苹果派。杰瑞则带着渴望的表情,希望自己也能尝一尝。 杰瑞走到房子的前门外,按响了门铃。

当汤姆去开门时,杰瑞绕到房子的后面进入厨房,偷走了汤姆的苹果派。 杰瑞拿着派跑向他的鼠洞,而汤姆则在追逐他。就在汤姆快要抓住杰瑞的时候,杰瑞钻进了鼠洞,而汤姆撞到了墙上。

我们可以看到TTT-MLP是表现最好的。

  • TTT-MLP 在场景变化和不同角度下保持时间一致性,生成平滑且高质量的动作。

  • Sliding-window Attention改变了厨房环境,变换了房子的颜色,并多次重复杰瑞偷馅饼的动作。

  • Gated DeltaNet 在汤姆的不同角度缺乏时间一致性,但在后续帧中保持了厨房环境的一致性。

  • Mamba 2 在汤姆咆哮并追逐杰瑞时扭曲了他的外貌,但在整个视频中保持了厨房环境的一致性。

详细的对比视频也可以在官网查看。

TTT的特点

优点

  • 能处理复杂多场景故事

  • 保持角色和场景的一致性

  • 动作自然流畅(大部分时候)

现存问题

  • 物体有时会"飘浮":奶酪悬浮在空中,而不是自然地掉落到地面。

  • 灯光变化不太自然:当汤姆转身时,厨房的光线变得显著更亮

  • 复杂镜头运动还不够精准:在同一场景的每个 3 秒段落中,方块会发生形态变化

  • 生成速度有待提升(目前比传统方法慢1.4倍)

团队为这次研究专门构建了一个数据集,让汤姆和杰瑞再次就业。从已有的《猫 和老鼠》动画中提取了 7 小时视频 + 精细故事板注释。

注意,这次训练目标不是"模仿原画风",而是专注于:

  • 故事连贯性

  • 场景切换处理

  • 动作和剧情的因果性

他们的目标是:生成复杂多场景、长篇动态视频,为通用视频生成铺路。

Wish-to-Game

最近"vibe coding"火了,大家说以后程序员只靠说话就能写代码。现在,vibe game design 也来了!

一个名叫 Astrocade 的团队推出了"Wish-to-Game"平台,主打一句话生成可玩的游戏!

什么是 Wish-to-Game?

简单说,将你的所有游戏想法通过语言实现。 这听起来是不是一件非常酷炫的事情。

我们在官方平台上,通过对话的形式逐渐创作出属于你自己的游戏。

网友在评论区疯狂输出自己的各式各样的想法,Astrocade公司也都回答到快去尝试!

  • 水下障碍赛?

  • 猫咪的互动小说?

  • 中土世界的农场经营模拟?

统统没问题,就是你说我做、说完就能玩。

最后一句话

如果说此前的视频生成技术只能做"会动的美图",那这次 TTT 模型,算是让 AI 讲起了有头有尾的故事。

那 Astrocade 就是让 AI 和你一起创造能玩的故事。

两者都在指向一个清晰的未来方向:想法变作品只需要一句话。

你会用 AI 讲一个怎样的故事,做一个什么样的游戏?欢迎在评论区分享你的看法!

如果喜欢这类内容,别忘了点赞关注~ 下期我们会带来更多有趣的AI前沿研究。我是 Jack,我们下期再见!

·················END·················

没有评论:

发表评论

520福利!Claude3。7Max限时免费使用!

国内如何用 Claude 3.7 爆发性能? 国内如何用 Claude 3.7 爆发性能? 图片 2025 年初,硅谷新锐团队  CodeZap  决定将核心支付系统交给  Claude 3.7 。结果令人咋舌: 延迟降低 40% , 节省 5 万美元开发成本 !这背后,是 ...