VerseCrafter是复旦与腾讯联合发布的可控视频世界模型,提供显式4D几何控制,允许用户通过参考图和4D轨迹指令,精确控制摄像机运动及多物体协同运动,生成时空一致性强的逼真视频。该模型适用于影视预演、游戏开发、虚拟制片等需要精准视频控制的领域,代码已在GitHub开源。
Tags:
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
目前视频生成面临:
现有模型难精准控制运镜,无法让镜头随物体移动; 大多只能操控单一主体运动,难以指挥多物体协同; 2D视频在视角变化时易出现几何畸变,难保持3D空间一致。
毕竟视频是2D,世界是4D,矛盾突出。复旦等高校和腾讯联合推出的VerseCrafter 首次提出显式4D几何控制框架,一张参考图加4D轨迹指令,就能生成镜头与多物体协同的逼真视频。
相关链接
论文:https://arxiv.org/pdf/2601.05138 源码:https://github.com/TencentARC/VerseCrafter 模型:https://huggingface.co/TencentARC/VerseCrafter 主页:https://sixiaozheng.github.io/VerseCrafter_page
方法概述
VerseCrafter是一个可控的视频世界模型,适用于真实场景。它提供显式的 4D 几何控制,允许用户指定目标相机轨迹和多对象 3D 高斯轨迹,从而使生成的视频能够以极强的时空一致性跟随视角变化和物体运动。给定一个参考视图,我们将场景提升为几何感知控制,并将其渲染成逐帧映射,作为基于扩散的视频合成的条件信号。VerseCrafter 基于VerseControl4D进行训练,VerseControl4D 是一个大规模的自然场景数据集,包含自动生成的相机轨迹和多对象 3D 高斯轨迹,从而能够在各种动态和静态场景中实现稳健的控制。
冷冻Wan2.1主干网
我们采用 Wan2.1 作为冻结的潜在视频扩散先验。保持主干网络不变,可以维持其强大的真实感和泛化能力,而我们基于几何感知的控制方法则可以在不降低视觉质量的前提下,学习如何引导生成过程。
用于 4D 控制的 GeoAdapter
轻量级的GeoAdapter对渲染的 4D 控制图进行编码,并将其作为零初始化的残差调制注入到选定的扩散块中。这种设计能够在保持视频清晰、几何连贯性的同时,实现精确的相机和多物体运动控制。
VerseControl4D 数据集
训练具有精确 4D 几何控制的视频世界模型需要大规模且标注准确的数据。我们提出了VerseControl4D 数据集,该数据集由 Sekai-Real-HQ 和 SpatialVID-HQ 构建而成,并具有完整的几何监督信息。
为了支持仅使用摄像机进行世界探索以及摄像机与物体协同控制,VerseControl4D 包含了动态场景(前景物体运动显著且摄像机运动也随之运动的片段)和静态场景(物体运动可忽略不计且仅有摄像机运动的片段)。训练集中约 20% 的片段为静态场景,验证集还额外包含 250 个静态场景片段,用于专门的仅摄像机评估。
实验结果
结论
VerseCrafter 让视频生成正在从「能生成」走向「能导演」。过去我们讨论「视频像不像真实世界」,现在 VerseCrafter 开始回答「能不能按我的剧本演」。这种以创作工作流为导向的设计思路,或许才是技术落地的关键。对影视预演、游戏开发、虚拟制片、具身智能仿真领域的朋友来说,这类「4D可控+高质量+开源」的视频世界模型,值得重点关注。代码已开源,动手试试说不定能打开新思路~
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论