今天为大家介绍一种新的故事到视频生成方法-DreamRunner,它能够将文本脚本转化为长篇、多动作、多场景的视频,让故事跃然屏上。通过大型语言模型、检索增强技术和新颖的3D注意力模块,实现了对象精细运动、场景一致性和动作无缝过渡的突破。
相关链接
主页:https://zunwang1.github.io/DreamRunner 论文:https://arxiv.org/pdf/2411.16657 代码:https://github.com/wz0919/DreamRunner
论文介绍
故事叙述视频生成 (SVG) 最近成为一项任务,用于创建长篇、多动作、多场景的视频,这些视频可以一致地呈现输入文本脚本中描述的故事。SVG 在媒体和娱乐领域的多样化内容创作方面具有巨大潜力;然而,它也带来了重大挑战:
对象必须表现出一系列精细、复杂的运动 多个对象需要一致地出现在各个场景中 主体可能需要在单个场景中无缝过渡的多个动作。
为了应对这些挑战,我们提出了一种新颖的故事到视频生成方法DreamRunner :首先,我们使用大型语言模型 (LLM) 构建输入脚本,以促进粗粒度的场景规划以及细粒度的对象级布局和运动规划。接下来, DreamRunner提出检索增强测试时间自适应以捕获每个场景中对象的目标运动先验,支持基于检索到的视频的多样化运动定制,从而促进具有复杂脚本运动的新视频的生成。最后,我们提出了一种新颖的基于时空区域的 3D 注意力和先验注入模块 SR3AI,用于细粒度的对象运动绑定和逐帧语义控制。我们将DreamRunner与各种 SVG 基线进行比较,展示了在字符一致性、文本对齐和平滑过渡方面的最新性能。此外,DreamRunner在合成文本转视频生成中表现出强大的细粒度条件跟踪能力,在 T2V-ComBench 上的表现明显优于基线。最后,我们通过定性示例验证了DreamRunner生成多对象交互的强大能力。
方法
DREAMRUNNER 的整体流程。
计划生成阶段:使用 LLM 从用户提供的通用故事叙述中制作分层视频计划(即"高级计划"和"细粒度计划")。 运动检索和先验学习阶段:从视频数据库中检索与所需运动相关的视频,以便通过测试时间微调来学习运动先验。 主题先验学习阶段:使用参考图像通过测试时间微调来学习主题先验。 基于区域的扩散阶段的视频生成:为扩散模型配备了一种新颖的基于时空区域的 3D 注意力和先验注入模块(即 SR3AI),用于具有细粒度控制的视频生成。 使用 SR3AI 进行基于区域的扩散的实现细节。我们将原始自注意力机制扩展为基于时空区域的 3D 注意力机制(上 橙色部分),该机制能够通过区域特定的掩码将不同区域与其各自的文本描述对齐。然后将基于区域的角色和运动 LoRA(下 黄色和 蓝色部分)交错注入到每个变压器块中的注意力和 FFN 层(右侧部分)。请注意,虽然我们将视觉标记的大小调整为连续的 2D 潜在帧以实现更好的可视化,但它们在基于区域的注意力期间被展平并与所有条件连接在一起。
效果展示
结论
DREAMRUNNER是一种用于故事到视频生成的新框架。具体来说,DREAMRUNNER 首先利用 LLM 构建分层视频计划,然后引入检索增强测试时间自适应来捕获目标运动先验,最后使用一种新颖的基于时空区域的 3D 注意力和先验注入模块生成视频,以实现细粒度的对象运动绑定和帧级语义控制。在故事到视频和组合 T2V 8 代基准测试上的实验表明,DREAMRUNNER 在处理细粒度复杂运动、保持多个对象的多场景一致性以及确保无缝场景转换方面优于强基线和 SoTA。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论