2026年3月5日星期四

复旦腾讯VerseCrafter视频世界模型:4D几何控制实现摄像机与多物体运动精准操控

VerseCrafter是复旦与腾讯联合发布的可控视频世界模型,提供显式4D几何控制,允许用户通过参考图和4D轨迹指令,精确控制摄像机运动及多物体协同运动,生成时空一致性强的逼真视频。该模型适用于影视预演、游戏开发、虚拟制片等需要精准视频控制的领域,代码已在GitHub开源。

Tags:

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

目前视频生成面临:

  1. 现有模型难精准控制运镜,无法让镜头随物体移动;
  2. 大多只能操控单一主体运动,难以指挥多物体协同;
  3. 2D视频在视角变化时易出现几何畸变,难保持3D空间一致。

毕竟视频是2D,世界是4D,矛盾突出。复旦等高校和腾讯联合推出的VerseCrafter 首次提出显式4D几何控制框架,一张参考图加4D轨迹指令,就能生成镜头与多物体协同的逼真视频。

VerseCrafter 通过构建基于静态背景点云和每个对象 3D 高斯轨迹的 4D 几何控制表示,实现对相机运动和多对象运动的精确控制,生成的视频比 Yume 和 Uni3C 更能跟踪所需的运动,并且与真实视频高度吻合。
VerseCrafter 通过构建基于静态背景点云和每个对象 3D 高斯轨迹的 4D 几何控制表示,实现对相机运动和多对象运动的精确控制,生成的视频比 Yume 和 Uni3C 更能跟踪所需的运动,并且与真实视频高度吻合。
图片

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2601.05138
  • 源码:https://github.com/TencentARC/VerseCrafter
  • 模型:https://huggingface.co/TencentARC/VerseCrafter
  • 主页:https://sixiaozheng.github.io/VerseCrafter_page

unsetunsetunset

unsetunset方法概述unsetunset

VerseCrafter 的框架。我们将 4D 几何控制(相机和 3D 高斯轨迹)渲染为多通道地图,并通过 GeoAdapter 将其注入到冻结的 Wan2.1 主干网中,以实现几何一致性生成。VerseCrafter是一个可控的视频世界模型,适用于真实场景。它提供显式的 4D 几何控制,允许用户指定目标相机轨迹和多对象 3D 高斯轨迹,从而使生成的视频能够以极强的时空一致性跟随视角变化和物体运动。给定一个参考视图,我们将场景提升为几何感知控制,并将其渲染成逐帧映射,作为基于扩散的视频合成的条件信号。VerseCrafter 基于VerseControl4D进行训练,VerseControl4D 是一个大规模的自然场景数据集,包含自动生成的相机轨迹和多对象 3D 高斯轨迹,从而能够在各种动态和静态场景中实现稳健的控制。

冷冻Wan2.1主干网

我们采用 Wan2.1 作为冻结的潜在视频扩散先验。保持主干网络不变,可以维持其强大的真实感和泛化能力,而我们基于几何感知的控制方法则可以在不降低视觉质量的前提下,学习如何引导生成过程。

用于 4D 控制的 GeoAdapter

轻量级的GeoAdapter对渲染的 4D 控制图进行编码,并将其作为零初始化的残差调制注入到选定的扩散块中。这种设计能够在保持视频清晰、几何连贯性的同时,实现精确的相机和多物体运动控制。

unsetunsetVerseControl4D 数据集unsetunset

图片训练具有精确 4D 几何控制的视频世界模型需要大规模且标注准确的数据。我们提出了VerseControl4D 数据集,该数据集由 Sekai-Real-HQ 和 SpatialVID-HQ 构建而成,并具有完整的几何监督信息。

为了支持仅使用摄像机进行世界探索以及摄像机与物体协同控制,VerseControl4D 包含了动态场景(前景物体运动显著且摄像机运动也随之运动的片段)和静态场景(物体运动可忽略不计且仅有摄像机运动的片段)。训练集中约 20% 的片段为静态场景,验证集还额外包含 250 个静态场景片段,用于专门的仅摄像机评估。

图片

unsetunset实验结果unsetunset

图片
图片
图片
图片

unsetunset结论unsetunset

VerseCrafter 让视频生成正在从「能生成」走向「能导演」。过去我们讨论「视频像不像真实世界」,现在 VerseCrafter 开始回答「能不能按我的剧本演」。这种以创作工作流为导向的设计思路,或许才是技术落地的关键。对影视预演、游戏开发、虚拟制片、具身智能仿真领域的朋友来说,这类「4D可控+高质量+开源」的视频世界模型,值得重点关注。代码已开源,动手试试说不定能打开新思路~

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

医疗视频理解大模型开源,6k+精标测试集与英雄榜上线

联影智能开源全球首个医疗视频理解大模型uAI Nexus MedVLM,支持单卡部署,覆盖内镜、腹腔镜等8个手术数据集。同步发布6245个视频-指令对测试集MedVidBench及公开英雄榜,性能超越GPT-5.4等通用模型。适合开发者、医疗AI研究人员参与评测与应用。 Tag...