2025年4月1日星期二

CVPR 2025 I AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Chi-Pin Huang 等

解读:AI生成未来

文章链接:https://arxiv.org/pdf/2503.21781 
项目链接:https://jasper0314-huang.github.io/videomage-customization

亮点直击

  • 提出了 VideoMage,一个统一框架,首次实现了针对多个主体身份及其交互运动的视频概念定制。
  • 引入了一种新颖的外观无关运动学习方法,通过改进负分类器自由引导,解耦潜在的运动模式与外观之间的关系。
  • 开发了一种时空协作组合方案,以组合获得的多主体和运动 LoRA,从而生成所需运动模式下连贯的多主体交互。

总结速览

解决的问题

定制化的文本到视频生成旨在制作高质量的视频,包含用户指定的主体身份或运动模式。然而,现有的方法主要集中在个性化单一概念上,即主体身份或运动模式,这限制了它们在多个主体及其所需运动模式下的有效性。

提出的方案

为了解决这一挑战,提出了一个统一框架 VideoMage,用于对多个主体及其交互运动进行视频定制。

应用的技术

  • VideoMage 采用主体和运动 LoRA,从用户提供的图像和视频中捕捉个性化内容。
  • 引入了一种新颖的外观无关运动学习方法,通过改进负分类器自由引导,解耦潜在的运动模式与外观之间的关系。
  • 开发了一种时空组合方案,以组合获得的多主体和运动 LoRA,从而生成所需运动模式下连贯的多主体交互。

达到的效果

大量实验表明,VideoMage 的表现优于现有方法,能够生成连贯的、用户控制的视频,并保持一致的主体身份和交互。

方法

问题表述  首先定义设置和符号。给定  个主体,每个主体由 3-5 张图像表示,记作 (为简便起见,省略个别图像索引),一个参考交互运动视频 ,以及用户提供的文本提示 ,本文的目标是生成一个基于  的视频,其中这  个主体根据运动模式进行交互。

为了解决上述问题,提出了 VideoMage,这是一个统一框架,用于定制多个主体和交互运动以进行文本到视频生成。在快速回顾视频扩散模型后,详细说明了如何利用 LoRA 模块分别从输入图像和参考视频中学习视觉和运动信息。本文提出了一种独特的时空协作组合方案,以整合学习到的主体/运动 LoRA 进行视频生成。

初步:视频扩散模型

视频扩散模型(VDMs)[3, 16, 18, 19, 35] 旨在通过逐渐去噪从高斯分布中抽样的一系列噪声来生成视频。具体来说,扩散模型  学习在每个时间步  预测添加的噪声 ,条件是输入 ,在文本到视频生成中, 是一个文本提示。训练目标简化为重构损失:

其中噪声  从  中采样,时间步 ,且  是时间  的噪声输入,其中  是控制扩散过程的超参数 [17]。为了降低计算成本,大多数 VDMs将输入视频数据  编码为潜在表示(例如,通过 VAE得到)。为简便起见,本文中继续使用视频数据  作为模型的输入。

主体和运动定制

视觉主体的学习 如下图 2(a) 顶部所示,为了捕捉视频生成中的主体外观,本文学习一个特殊的标记(例如,""),并使用主体 LoRA () 对预训练的视频扩散模型进行微调。

为了避免干扰时间动态,主体 LoRA 仅应用于 UNet 的空间层。目标定义为:

其中  是主体图像, 表示应用了主体 LoRA 的预训练模型参数, 是包含特殊标记的提示(例如,"A")。

然而,仅使用图像数据进行微调可能导致视频扩散模型失去生成运动信息的能力。遵循 [47],本文利用辅助视频数据集 (例如,Panda70M [9])来正则化微调,同时保留预训练的运动先验。更准确地说,给定从  中采样的视频-说明对 ,正则化损失定义为:

因此,整体目标定义为:

其中  是控制正则化损失权重的超参数。优化这个目标可以捕捉主体外观,同时保留运动先验。通过本文的训练目标,本文能够允许用户提供的主体身份进行定制,而不会影响 VDM 的能力。然而,调优后的 VDM 在精确控制来自参考视频的运动模式方面仍然具有挑战性,限制了用户的灵活性和控制能力。

学习与外观无关的运动。 为了从参考视频  中学习所需的运动模式,一种简单的策略是微调一个运动 LoRA,并将其注入到 UNet 的时间层中(即上图 2(a) 底部的 )。然而,直接应用公式 (1) 中的标准扩散损失会导致外观泄漏问题,其中运动 LoRA 无意中捕捉了参考视频中主体的外观。这种主体外观与运动的纠缠妨碍了将学习到的运动模式应用于新主体的能力。

为了解决这个问题,本文提出了一种新颖的与外观无关的目标,如下图 3 所示,能够有效地从参考视频中隔离运动模式。受到 [12, 22] 中概念消除方法的启发,本文推进了基于视觉主体外观的负分类器自由引导,专注于在运动学习过程中消除外观信息。这将确保运动 LoRA 专注于运动动态。

为了实现这一点,本文首先通过在从参考视频中采样的单帧上应用文本反演 [11] 来学习参考视频中主体的特殊标记(例如,上图 3 中的"人"和"马")。这在最小化运动影响的同时捕捉主体外观,有效地将外观与运动解耦。利用上述特殊标记,本文使用与外观无关的目标训练一个运动 LoRA,该目标采用负引导来抑制外观信息,使运动 LoRA 能够独立于主体外观学习运动模式。

更具体地说,训练目标定义为:

注意, 是负引导的无外观噪声, 是控制引导强度的超参数, 和  分别描述运动和静态主体的外观(例如,"骑马的人"和"静态的人和马的视频")。通过优化公式 (5),运动 LoRA 学习到与主体外观无关的运动模式。这种解耦对于组合多个具有定制运动的主体至关重要,正如本文稍后将讨论的那样。

空间-时间协作合成

通过获得多个主体 LoRA 和互动运动 LoRA,本文的目标是生成这些主体使用所需运动模式进行互动的视频。然而,结合具有不同属性的 LoRA(即视觉外观与空间-时间运动)并不是一项简单的任务。

在本文的工作中,本文提出了一种空间-时间协作合成的测试时间优化方案,使上述 LoRA 之间能够协作生成具有所需外观和运动属性的视频。本文现在讨论所提出的方案。

多主体 LoRA 的组合 本文首先讨论如何融合描述不同视觉主体信息的 LoRA。本文采用基于梯度的融合方法 [13],将每个主体 LoRA 中的独特身份提炼为一个单一的融合 LoRA。也就是说,给定多个 LoRA,记作 ,其中  是主体的数量,每个 LoRA 对应于一个特定的主体,本文的目标是学习一个能够生成包含多个主体的视频的融合 LoRA 

为了实现这一点,本文旨在强制融合 LoRA  生成与每个特定主体 LoRA 一致的视频。更具体地说,本文通过匹配融合 LoRA 和特定主体 LoRA 之间的预测噪声来优化 。多主体融合目标  被公式化如下:

这里, 是由  生成的视频, 是第  个主体的相应提示。此外,为了鼓励不同主体身份的正确排列,本文进一步引入空间注意力正则化 ,以明确引导模型的注意力聚焦于正确的主体区域。具体而言,如下图 4(a) 所示,本文通过 Grounded-SAM2 [30, 31] 随机采样并分割两个主体,然后将分割后的主体组合成一种 CutMix 风格 [15, 50] 的视频。

本文正式定义  为:

其中  是第  个采样主体的空间交叉注意力图, 是相应的真实分割 mask。因此,推导多主体 LoRA 的整体目标定义为:

其中  控制注意力损失的权重。注意,本文只需要一次合并多个主体。一旦获得融合的 LoRA ,本文就能够生成具有任意运动模式的视频,如下所述。

空间-时间协作采样 (SCS).  为了进一步将基于运动的 LoRA  与上述融合的视觉主体 LoRA  整合,本文提出了一种新颖的空间-时间协作采样 (SCS) 技术,以有效控制和引导定制主体之间的交互。在 SCS 中,本文独立地从主体分支和运动分支采样并整合噪声。为了鼓励在早期时间步的对齐,本文引入了一种协作引导机制,其中来自两个分支的空间和时间注意力图相互精炼彼此的输入潜变量。这种相互对齐使得两个分支能够有效对齐,从而实现定制主体及其交互的更连贯整合。如上图 4(b) 所示,给定一个带噪声的视频输入 ,本文将其复制为  和 ,分别用于主体和运动分支。令  和  分别表示应用了融合主体 LoRA 和运动 LoRA 的模型,本文生成主体噪声 () 和运动噪声 () 如下:

其中  是包含主体特殊token的输入提示(例如,"一个 <玩具> 正在骑一只 <狗>"), 是通过用其相应的超类替换特殊token构建的(例如,"一个玩具正在骑一只狗")。

然而,由于主体分支(仅具有主体 LoRA)生成不正确的运动,而运动分支(仅具有运动 LoRA)产生不准确的空间排列,直接组合  和  可能导致任一模态的信息不完整。因此,本文鼓励  和  之间的对齐,以生成连贯的噪声输出。为了实现这种对齐,如图 4(b) 所示,本文考虑空间交叉注意力图(MSCA),捕捉主体的空间排列,以及时间自注意力图(MTSA),捕捉运动动态,如之前的研究所示 [13, 27, 43]。

具体而言,本文通过将主体分支的时间自注意力图与运动分支的时间自注意力图对齐来强制运动的正确性。类似地,本文通过将运动分支的空间交叉注意力图与主体分支的空间交叉注意力图对齐,确保准确的空间排列。协作引导的损失计算如下:

其中下标  和  表示这些图是来自主体和运动分支,分别。类似于 [1, 5],本文按照如下方式更新  和 

其中  是梯度更新的步长。该指导应用于前  个去噪步骤,其中  是一个超参数。最后,预测的噪声通过  计算,其中本文为了简化设置 

实验

实验设置

数据集。 为了评估多主体和运动任务的视频定制方法,本文从 WebVid [2] 收集了 6 个运动视频,展示了人类与动物之间的各种互动。对于每个运动,本文提供了来自 [26, 33] 的 3 对主体,包括动物、机器人、玩具和毛绒玩具等多种不同物种,每个设置有 4 个不同的背景提示。
评估指标。 遵循之前的工作 [43, 44, 51],本文使用以下指标评估性能:1)CLIP-T,测量生成帧与文本提示之间的余弦相似度,使用 CLIP [29];2)CLIP-I,通过比较生成帧和目标图像的 CLIP 图像嵌入来评估主体身份;3)DINO-I,类似于 CLIP-I,但使用 DINO [4] 的嵌入;4)时间一致性 [10],通过计算连续帧之间的相似度来测量逐帧一致性,使用 CLIP。此外,本文进行人类评估以进行定性评估。
比较。 本文将本文的 VideoMage 与最先进的视频定制方法进行比较,包括通过应用适配器和 LoRA 分别对单一主体进行运动定制的 DreamVideo [44] 和 MotionDirector [51]。为了公平比较,本文首先对多个主体模块的输出进行平均,并将其与运动模块结合以进行多主体和运动定制。
实现细节。 对于 VideoMage,主体和运动的 LoRA 都训练了 300 次迭代,秩为 4。本文将 LoRA 的学习率设为 ,文本嵌入的学习率设为 。超参数  和  分别设为 0.25、0.6 和 0.5。对于 SCS, 从  开始,并在去噪结束时减半,遵循 [5]。对于所有实验,本文采用 ZeroScope [39] 作为视频扩散模型。遵循 [44],本文使用 50 步 DDIM [37],指导比例为 9.0,以 8 fps 的速度生成 24 帧的视频,分辨率为 

主要结果

定性结果。 在下图 5 中,本文展示了定制视频生成的示例,结合了用户提供的各种主体图像和特定的运动参考视频。正如本文所观察到的,DreamVideo 和 MotionDirector 都遭遇了显著的外观泄漏和属性混合问题,难以正确安排多个主体以遵循参考运动模式。例如,在右下角,运动视频中黑狗的外观无意中转移到了 MotionDirector 的输出中,而在左下角的 DreamVideo 输出中,的颜色属性与错误混合,导致不理想的视觉细节。此外,这两种方法未能建立主体之间的预期互动,未能捕捉到它们之间的微妙动态。相比之下,本文的 VideoMage 有效地解决了这些挑战,保留了主体身份,防止了外观泄漏,并成功实现了生成视频中主体之间的预期互动。

定量结果。 本文对收集的多主体和运动数据集进行了定量评估。通过 72 种主体、运动和背景的组合,本文为每种组合生成了 10 个视频,并使用四个指标进行评估。如下表 1 所示,本文的 VideoMage 生成的视频更好地保留了主体的身份,相较于最先进的方法 MotionDirector,在 CLIP-I 和 DINO-I 上分别提高了 5.7% 和 10%。此外,VideoMage 在 CLIP-T 性能上达到了最高,并且在时间一致性方面与最先进的方法相当,展示了其生成与文本提示紧密对齐的连贯视频的能力。

用户研究。 为了进一步评估本文方法的有效性,本文进行了一项人类偏好研究,将本文的方法与 DreamVideo [44] 和 MotionDirector [51] 进行比较。在这项研究中,参与者获得参考主体图像和运动视频,以及分别由本文的 VideoMage 和比较方法生成的两个定制视频。参与者被要求根据四个标准选择他们偏好的视频:文本对齐(视频与提示的匹配程度)、主体保真度(主体与参考图像的匹配程度,且没有错误的属性混合)、运动保真度(运动与参考视频的反映程度)、视频质量(平滑度和无闪烁)。共生成了 360 个视频,参与评估的参与者有 25 位。如下图 6 所示,在所有标准中,参与者更倾向于选择本文的 VideoMage。

消融研究

在下图 7 中,本文展示了一个定性消融研究,以分析本文提出的 VideoMage 中不同组件的贡献。在 w/o Lmot 设置中,本文使用标准扩散损失(即 )来学习运动模式,而不是无外观目标 。因此,本文观察到严重的外观泄漏,其中参考运动视频中的人的外观无意中转移到了生成的输出中。在 w/o Lattn 设置中,本文在多主体融合过程中排除了注意力正则化,这导致主体之间的属性绑定问题(例如,无意中看起来像的组合)。最后,在 w/o SCS 设置中,本文直接将  和  结合在视频扩散模型中进行推理,这使得很难正确安排主体以实现所需的互动运动。此外,本文在表 2 中进一步评估了本文提出的每个目标/模块的影响。本文采用四个指标来评估标题-视频相似度(CLIP-T)、定制主体保真度(CLIP-I, DINO-I)和逐帧一致性(T. Cons.)。通过上述消融研究,本文成功验证了本文设计的有效性。

结论

本文提出了一个统一框架 VideoMage,以实现用户提供的主体身份和所需运动模式之间的文本到视频扩散模型的视频定制。在 VideoMage 中,本文采用多主体和无外观运动学习来推导定制的 LoRA,同时提出了一种时空协作组合方案,以相互对齐主体和运动组件,从而合成具有足够视觉和时间保真度的视频。本文对 VideoMage 进行了广泛的定量和定性评估,验证了其相较于以前视频定制方法的优越可控性。

参考文献

[1] VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

没有评论:

发表评论

一文看懂!大语言模型与AI智能体的前沿进展

点击下方卡片,关注"AI生成未来"如您有工作需要分享,欢迎联系:aigc_to_future近年来,大语言   点击下方 卡片 ,关注" AI生成未来 " 如您有工作需要分享,欢迎联系: aigc_to_future 近年来,大语言模型...