2025年6月5日星期四

好莱坞级运镜一键克隆!港中文&浙大&快手联合发布CamCloneMaster:颠覆影视制作

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Yawen Luo等

解读:AI生成未来

图片

文章链接:https://arxiv.org/pdf/2506.03140 
项目链接:https://camclonemaster.github.io/

图片

亮点直击

  • CamCloneMaster,一种新颖的框架,能够实现基于参考视频的精确相机控制来生成视频。该框架无需相机参数或测试时微调,为用户提供了便捷直观的体验。
  • CamCloneMaster通过标记拼接(token concatenation)这一简单高效的方法,在单一模型中集成了相机控制的图像到视频(I2V)生成和视频到视频(V2V)重生成功能,无需额外的控制模块。
  • 构建了用于相机克隆学习的Camera Clone数据集:一个大规模、高质量的配对视频集合,包含相同相机轨迹和动态场景。该数据集将公开发布以推动未来研究。

总结速览

解决的问题

  • 繁琐的相机参数控制:现有方法依赖显式的相机参数序列作为控制条件,用户需手动构建复杂的相机运动轨迹,操作不便。
  • 相机参数估计不准确:从参考视频中估计相机参数的精度受限,影响生成视频的相机运动控制效果。
  • 计算成本高:现有方法(如MotionClone)需额外的测试时微调或运动表示提取,引入额外计算开销。
  • 缺乏专用数据集:缺少包含相同相机轨迹或动态场景的配对视频数据集,制约模型训练。

提出的方案

  • CamCloneMaster框架
    • 无需显式相机参数或测试时微调,直接通过参考视频克隆相机运动。
    • 支持统一的图像到视频(I2V)和视频到视频(V2V)任务,用户可通过参考视频指定相机运动或内容。
  • 模型设计
    • 将条件标记(参考视频信息)与噪声视频标记直接拼接为统一输入序列,避免额外控制模块,参数高效。
  • Camera Clone数据集
    • 使用Unreal Engine 5构建大规模合成数据集,包含39.1K场景、391K视频、97.75K相机轨迹,覆盖多样环境与动态内容。

应用的技术

  • 端到端训练框架:通过直接学习参考视频的相机运动,绕过显式参数估计。
  • 标记拼接(Token Concatenation):简化控制流程,统一处理条件与生成内容。
  • 合成数据生成:基于规则自动生成多样化相机轨迹,模拟真实拍摄场景。

达到的效果

  • 控制便捷性:用户仅需提供参考视频即可复现复杂相机运动,降低使用门槛。
  • 性能优势
    • 相机控制准确性:在RealEstate10K和经典电影片段测试中,相机运动复现精度优于现有方法。
    • 视觉质量:生成视频的动态效果和画面质量获用户主观评价认可(47人参与实验)。
  • 多功能支持:单一模型同时支持I2V(给定图像+相机运动参考)和V2V(给定视频+运动参考)任务,扩展应用场景。

CamCloneMaster

CamCloneMaster设计。首先介绍基础模型的组成部分,接着解释从参考视频中提取相机运动作为引导的方法,最后介绍CamCloneMaster的训练策略。

初步:基础模型

CamCloneMaster模型基于一种基于Transformer的隐空间扩散架构。该架构包含一个用于隐空间映射的3D变分自编码器(VAE)和一系列用于序列建模的Transformer模块。每个基础Transformer模块由2D空间自注意力、3D时空注意力、交叉注意力和前馈网络(FFN)组成。文本提示嵌入通过T5编码器获得,并通过交叉注意力注入模型。本文采用Rectified Flow框架来训练扩散Transformer,从而可以从高斯初始样本生成数据样本。具体而言,对于数据点,构建其在时间步处的加噪版本

图片

训练目标采用简单的均方误差(MSE)损失:

图片

其中速度由网络参数化。

通过Token拼接注入参考视频

CamCloneMaster旨在从相机运动参考视频中复现相机运动。本文的模型直接以为条件,无需单独的相机姿态估计,这不仅提升了用户便利性,还降低了姿态估计失败的风险。对于视频到视频(V2V)重生成任务,CamCloneMaster可进一步结合内容参考视频,从而在精确遵循相机运动的同时,对中的动态场景进行重新拍摄(如下图1所示)。

图片

为了注入参考相机运动视频,CamCloneMaster采用了一种简单高效的Token拼接设计。如下图2所示,它将条件Token与带噪视频Token沿帧维度拼接为单一输入序列。这种方法参数效率高,且无需额外模块。

图片

Token拼接的另一优势是能够在一个统一框架内同时支持相机控制的图像到视频生成和视频到视频重生成。为编码这些参考输入,CamCloneMaster复用基础模型的3D VAE ,将(在V2V任务中还包括)转换为条件隐空间变量。

图片

其中,包含帧、个通道和的空间尺寸。

基于共享隐空间,通过Token拼接整合条件隐空间变量。如上图2所示,首先将条件隐空间变量和带噪隐空间变量分块化为Token:

图片

在图像到视频(I2V)设置中,将被替换为全零隐空间变量。 随后,将条件Token 与视频Token 沿帧维度拼接:

图片

其中是扩散Transformer模块的输入。标注"Frame Concat"表示条件Token与噪声Token在帧维度拼接。该设计使DiT的3D时空注意力层能直接建模条件Token与噪声Token的交互,无需为基础模型引入新层或参数。

训练策略

本文的目标是通过参考视频微调模型以实现相机运动克隆,同时保留其基础生成能力。为兼顾效率与能力保留,仅选择性微调DiT块中的3D时空注意力层。为使单一模型同时具备图像到视频和视频到视频能力,我们采用平衡训练策略:50%为相机控制的图像到视频生成,50%为视频到视频重生成。

相机克隆数据集

基于参考的相机克隆学习需要三元组视频集:相机运动参考视频、内容参考视频和目标视频(后者以的相机运动重拍的场景)。现实世界中构建此类数据集难度大且标注密集,因此选择通过Unreal Engine 5渲染构建。如下图3所示,我们收集40个3D场景作为背景,并引入66个角色作为主体,每个角色结合随机动画(如跑步、跳舞)。

图片

构建三元组需满足两个关键要求:

  1. 同步多视角采集:多个相机需以不同轨迹同时拍摄同一场景;
  2. 配对轨迹:不同地点需存在相同相机轨迹的配对镜头。
    实现策略如下:在单个地点部署10台同步相机,每台按预设的10种独特轨迹拍摄;为创建配对轨迹,将3D场景地点分为四组,确保每组内所有地点复现相同的10种相机轨迹。相机轨迹通过设计规则自动生成,涵盖基础移动、弧形运动等复杂路径。

最终数据集包含:

  • 40个场景中39.1K个不同地点拍摄的391K条视觉真实视频
  • 97.75K种多样相机轨迹
  • 基于这些视频构建的1,155K个三元组视频集
    每条视频分辨率576×1,008,共154帧。

实验

实验设置

实现细节:CamCloneMaster基于内部图像到视频扩散模型训练,使用渲染的相机克隆数据集。训练时将视频统一调整为384×672分辨率,均匀采样77帧。仅优化DiT块中的3D时空注意力层,采用Adam优化器(学习率),在64台NVIDIA H800 GPU集群上训练12,000步(批量大小64)。

评估集

  • 相机运动参考:从RealEstate10K测试集随机选取1,000条视频,提供1,000种相机轨迹并附带相机参数(作为参数依赖方法的条件输入)。
  • 内容参考:从Koala-36M随机选取1,000条视频(图像到视频任务中仅使用首帧作为条件输入)。

评估指标

  • 视觉质量:成像质量、CLIP分数、Fr´echet视频距离(FVD)、Fr´echet初始距离(FID);
  • 动态质量:采用VBench指标评估动态范围(Dynamic Degrees)、运动平滑度(Motion Smoothness)、主体与背景时序一致性(Subject/Background Consistency);
  • 相机精度:使用MegaSaM提取视频帧的相机旋转和平移,计算旋转误差(RotErr)、平移误差(TransErr)和相机运动一致性(CamMC);
  • 视角一致性:参考ReCamMaster,采用GIM计算匹配像素数,并评估FVD-V(参考与生成视频的FVD)和CLIP-V(帧间CLIP相似度)。

与前沿方法对比

相机控制的图像到视频生成

基线方法:对比Plücker嵌入相机表示的CameraCtrl和CamI2V,以及无训练框架MotionClone(通过稀疏时序注意力权重克隆参考视频运动)。MotionClone虽无需相机参数,但难以处理复杂相机运动。

定量结果:如下表1所示,CamCloneMaster在相机控制(RotErr/TransErr/CamMC)上显著优于其他方法,同时保持更优的视觉与动态质量。

图片

定性结果:如下图4所示,本文的方法精准克隆参考相机运动(如左例帆船细节结构与右例猴子复杂运动),而CameraCtrl/CamI2V难以跟踪复合轨迹(如左例平移旋转组合),MotionClone则因泛化性限制无法保持主体一致性。

图片

相机控制的视频到视频重生成

基线方法:对比需要相机参数输入的DaS、ReCamMaster和TrajectoryCrafter。DaS通过3D点跟踪从内容参考视频提取动态信息,ReCamMaster采用视频条件机制,TrajectoryCrafter则从内容参考构建点云并渲染新视角作为控制信号。

定量结果:如上表1和下表2所示,CamCloneMaster在多项指标上超越基线方法。本文的方法不仅能精确控制相机并保持高视觉质量,还能有效保留内容参考的动态场景。

图片

定性结果:如下图5所示,基线方法普遍无法生成准确相机运动的视频。具体而言,DaS和TrajectoryCrafter会产生明显伪影,而本文的方法能精准克隆参考视频的相机运动,输出具有高视觉质量和时序一致性的结果。

图片

用户研究

本文通过用户研究揭示相机位姿精度对参数化方法的重要性及其获取挑战。参与者需比较成对视频:一组使用真实相机参数生成,另一组使用MegaSam估计参数生成,选择哪组视频的相机运动更匹配参考。实验基于CamI2V、CameraCtrl和ReCamMaster三种参数化方法,从合成数据集中随机选取12条带真实参数的相机运动参考视频。47名参与者的结果(下表3)显示:

  1. 参数化方法的相机运动保真度高度依赖输入参数精度;
  2. 即使最先进的位姿估计模型也难以提供足够精确的参数,这验证了我们提出的基于参考的相机控制框架的必要性。
图片

另一项用户研究从主观角度评估不同方法。从网络收集24条1080×1920分辨率的相机运动参考和12条内容参考。测试时,参与者同时观看4个随机排序的视频(本文的方法+3个任务相关基线方法生成结果),从三个维度评估:

  1. 相机精度:相机运动与参考视频的匹配度;
  2. 视频-文本一致性:内容与文本提示的契合度;
  3. 时序一致性
    47名参与者的结果(下表4)表明本文的方法在各项指标上均获得最多用户偏好。
图片

消融实验

条件注入机制的消融实验。本文的模型通过将条件tokens与噪声潜在tokens沿帧维度拼接来实现视频生成的条件控制。本文验证了这种帧拼接方式与广泛使用的通道拼接的对比效果。同时测试了仅在时序DiT块层内拼接条件标记的方案,因为条件tokens与噪声tokens之间的显式注意力仅限于3D时空注意力层。最后,将token拼接与类ControlNet架构进行对比,后者通过复制DiT块提取参考视频特征,再通过特征加法注入基础模型。下表5结果表明,在所有层中拼接条件标记对最优性能至关重要(第2、4行)。我们认为全局视频属性(如相机运动)需要高层表征,因此即使是不含显式注意力机制的层也对提取这些属性起关键作用。此外,标记拼接优于类ControlNet的特征加法(第3、4行),这可能是因为特征加法会加大模型区分参考内容与运动线索的难度。

图片

训练策略的消融实验。仅微调DiT块中的3D时空注意力层,并冻结其余参数。下表6结果显示,仅微调3D时空注意力层可提升相机克隆精度,同时保持更好的视觉质量。

图片

结论与局限性

CamCloneMaster,一种新颖的视频生成相机控制方法,支持直观且用户友好的操作。CamCloneMaster无需相机参数或测试时微调即可复制参考视频的相机运动。另一创新是简洁高效的架构,无需额外控制模块即可将相机控制的图像到视频生成(I2V)与视频到视频再生(V2V)统一于单一模型中。我们还构建了高质量合成数据集用于训练。

局限性。尽管tokens拼接策略在相机控制视频生成中表现优异,但会增加计算负担。未来工作将探索稀疏注意力或潜在丢弃等方法以降低开销。

参考文献

[1] CamCloneMaster: Enabling Reference-based Camera Control for Video Generation

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

AI文本转语音进入“Next Level”!独角兽ElevenLabs发布Eleven v3:狠狠拿捏情感控制

可多人丝滑聊天,支持70多种语言 一水 发自 凹非寺 量子位 | 公众号 QbitAI AI文本转语音已经进化到这种程度了吗?(⊙ˍ⊙) 莎士比亚戏剧腔、体育赛事激情解说、沉浸式有声书等诸多玩法简直轻松拿捏,而且听起来确实人机傻傻分不清楚~ ...