AI I024: 视频合成的DiT革命来了！北大&腾讯揭秘「生成式剪辑」，背景秒锁定、元素随心动！

点击下方卡片，关注"AI生成未来"

👇扫码免费加入AI知识星球，如您有工作需要分享，欢迎联系：aigc_to_future

作者：Shuzhou Yang等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2509.02460
项目链接：https://gencompositor.github.io/

亮点直击
提出了一个实用的视频编辑任务及解决方案——生成式视频合成，它能够以生成方式自动将动态素材注入目标视频中，利用了扩散模型。
针对视频合成的独特特性设计了新颖的技术，包括修订的位置嵌入、全自注意力 DiT 融合块以及轻量级的背景保护分支。
为了训练该模型，构建了一个数据策划流程，并开发了一些实用的训练操作，例如掩码膨胀和亮度增强，以提高泛化能力。
所提出的方法优于现有的潜在解决方案，能够基于用户给定的指令实现轻松的生成式视频合成，并可用于自动视频特效创建。

总结速览

解决的问题

传统视频合成流程效率低下：传统影视后期合成需要动画师、摄像师和特效艺术家的大量人力协作，导致制作周期长、人力成本高。
现有技术方案的不足：

可控视频生成（基于图像/文本）：无法提供像素级的精确控制（如精确的运动轨迹），且不支持以外部的视频作为条件输入。
视频 harmonization（逐帧粘贴）：无法自适应地指定添加元素的位置、大小、运动轨迹等属性，并且严重依赖精确的分割蒙版，这在实践中往往难以获得。

提出的方案

提出了一个名为 GenCompositor 的自动化生成式视频合成方案，核心包括：

新任务定义：首次提出"生成式视频合成"（Generative Video Compositing）任务，旨在通过生成模型，根据用户控制将前景视频的动态元素（身份、运动）自适应地注入到背景视频中。
新颖的模型架构：设计了一个基于 Diffusion Transformer (DiT) 的定制化 pipeline。
高质量数据集：为此新任务策划了首个大规模高质量数据集 VideoComp，包含 6.1 万组视频，提供完整的动态元素和高质量目标视频。

应用的技术

主干网络：采用 Diffusion Transformer (DiT) 作为基础框架。
背景保护分支：一个轻量级的、基于 DiT 的背景保护分支，通过掩码令牌注入 (masked token injection) 技术，确保编辑前后背景内容的一致性。
前景注入模块：提出了 DiT 融合块 (DiT fusion block)，使用全自注意力机制 (full self-attention) 来融合背景和前景令牌，优于常见的交叉注意力注入方法。
位置编码：提出了 扩展旋转位置编码 (Extended Rotary Position Embedding, ERoPE) ，解决了前景与背景布局不对齐时直接使用 RoPE 会产生泄漏伪影的问题，实现了高质量的、用户指定的条件生成。
训练增强技术：

前景增强 (Foreground Augmentation) ：对前景视频进行亮度增强，提升模型对不同光照条件前景的泛化能力。
蒙版膨胀 (Mask Inflation)：在训练时向模型提供不精确的蒙版，使模型能够学习生成新增物体与背景环境之间更真实的交互（如阴影、遮挡）。

达到的效果

高保真度 (High Fidelity) ：生成的视频结果视觉上逼真、美观。
高一致性 (High Consistency) ：

背景一致性：有效保持了编辑前后背景视频的时空一致性。
前景一致性：成功继承了源前景视频的身份和运动信息。

灵活的用户控制 (Flexible User Control) ：允许用户通过指定轨迹等方式，自定义添加元素的大小、运动轨迹等属性。
真实的交互 (Realistic Interaction) ：模型能够预测并生成新增动态元素与背景环境之间逼真的相互作用（如爆炸效果改变背景物体、生成跟随的阴影等）。
性能优势：实验证明，该方法在保真度和一致性方面均优于现有的其他可能解决方案。

方法

本节首先介绍我们的输入转换，展示如何将用户给定的指令转换和增强为模型输入。然后，解释提出的合成流程，包括背景保护分支、DiT融合块和扩展旋转位置嵌入（ERoPE）。

输入转换

在推理过程中，本文的输入包括一个背景视频、一个居中的前景视频，以及用户给定的缩放因子和轨迹曲线，这些参数控制合成结果中添加的动态元素的大小和位置。然而，对于训练而言，运动曲线过于稀疏，难以被网络感知。此外，给定一个包含前景对象的源视频，很难获得一个不包含前景对象的真实背景视频作为输入。因此，我们提议将输入转换为可训练的形式。

如下图2左侧所示，我们的合成从两个输入视频（背景和前景）开始。给定一个待编辑的背景视频，用户在其第一帧上拖动一条轨迹，表示添加元素的运动。或者，用户可以点击一个点（如下图1(a)所示），本文的方法将基于视频光流自动跟踪该点在后续帧中的轨迹。在此基础上，剩下的问题是确定新添加元素的大小。对于前景输入，通过Grounded SAM2获取其对应的二值掩码视频，然后根据用户给定的缩放因子调整其区域大小。最后，根据指定的轨迹曲线调整这个重新缩放后的掩码视频的位置。通过这种方式，自适应地重新缩放和重新定位前景掩码以生成一个掩码视频。

为了与现实环境逼真地融合，使用高斯滤波器来膨胀掩码视频，即掩码部分实际上覆盖了对象边界之外的区域，这为添加的元素带来了一个缓冲区域，并迫使生成模型对其进行预测以实现融合。同时，精确的前景掩码通常是难以获得的。掩码膨胀允许在不完美的前景掩码下生成合理的结果。最后，可以通过简单地用掩码视频对源视频中的对象进行掩码来获得掩码视频用于训练。

通过将背景视频和轨迹的用户输入转换为掩码视频和掩码视频作为模型输入，我们消除了对配对训练数据（背景和合成视频）的需求，并使得能够使用源视频和掩码进行训练，其中掩码视频可以通过SAM2等现有工具提取。我们数据构建流程的详细信息在补充材料的第7节中展示。

背景保护分支

作为一项视频编辑任务，本文的主要目标是保护背景内容，并且只编辑的所需区域。我们提出了一个背景保护分支（BPBranch）来确保合成结果与之间的一致性。考虑到编辑结果的布局与的布局是像素对齐的。直接将的隐空间表示与模型隐空间表示相加已经能够忠实地注入背景内容，这一点已被先前类似ControlNet的方法所证明。

直观上，仅使用掩码视频已经能够注入背景。如前面图2所示，在掩码视频中，旨在插入元素的区域被标记为黑色。然而，一些背景视频天然包含黑色内容，这些不是所需的掩码，并且可能会混淆网络。因此，我们将掩码视频与相应的掩码视频拼接作为输入。这引导该分支专注于背景保护。更重要的是，由于掩码视频和掩码视频是像素对齐的，对两者应用相同的旋转位置嵌入（RoPE），如前面图1所示。这严格对齐了两者的位置，并实现了精确的掩码引导。

随后，将这些注入到前景生成主流中以进行视频合成。由于BPBranch被设计为仅注入背景，其主要目的是将掩码视频特征与主流模型的隐空间表示对齐。我们没有深入分析掩码特征，而是简单地设计了一个轻量级的控制分支，该分支由两个普通的DiT块组成，以与主流的隐空间表示对齐。同时，由于我们只想使用其输出的背景区域，应用了一种掩码令牌注入方法来防止BPBranch对生成的前景内容产生干扰，其公式为：

其中是主流模型的隐空间表示，是BPBranch的输出，是二值掩码视频。该过程在上图3的上半部分进行了详细可视化。

前景生成主流

在前景生成中，本文的目标是在合成结果中忠实地保留来自其他源的前景元素的身份和动态信息。先前，交叉注意力通常用于注入条件，例如文本提示或相机位姿。然而，我们发现尽管交叉注意力有利于处理语义条件，但它不能有效地为本文的任务利用低级条件信息。为了忠实地继承前景条件，我们提议将前景的令牌与待去噪的令牌进行拼接，如前面图2所示，然后计算其自注意力，通过DiT融合块充分融合这两部分信息。

如下图3所示，给定噪声隐空间表示和前景条件的令牌，DiT融合块以token方式（token-wise）将它们拼接，而不是传统的通道方式（channel-wise）拼接。这是因为前景条件的布局特征与生成结果的布局特征并非像素对齐。在通道维度上粗略地拼接它们的特征会导致严重的内容干扰，从而导致训练崩溃。DiT融合块随后通过计算拼接后令牌（包含前景条件和掩码背景）的自注意力来预测噪声隐空间表示中的噪声。本文的生成结果是上图3中红色框出的处理后的隐空间表示。因此，仅将BPBranch的token与处理后的噪声token融合，并将它们传递到下一个块。最后，仅解码与输入噪声令牌对应的部分以获得合成视频，如前图2右侧所示。

同时，新添加的内容在视觉上应与背景协调。其某些属性，例如光照，需要在生成过程中进行适当调整。为了使本文的模型能够自适应地学习这种调整，本文为训练开发了一种亮度增强策略。在每次迭代中，本文对前景视频使用伽马校正，伽马参数从0.4到1.9的范围内随机选择。这改变了前景条件的亮度，使其与源视频产生偏移。因此，基于我们充分融合前景元素与模型隐空间表示的DiT融合块，前景生成主流自动学习了前景协调的能力。需要注意的是，亮度增强仅用于训练过程。

扩展旋转位置嵌入

布局一致或像素对齐的条件可以通过DiT使用与输入隐空间表示相同的RoPE来很好地利用。然而，对于像素未对齐的条件，此操作可能导致内容干扰。如下图5所示，除了输入背景视频外，本文的模型还接收指示添加对象位置和大小的掩码视频，以及与背景视频或生成结果像素未对齐的前景视频。我们首先使用相同的RoPE（"w/ RoPE"）拼接这些令牌，这会在合成结果中导致明显的伪影（红色框出）。我们发现伪影的形状和位置与前景视频一致，使用相同的RoPE将使模型在前景和背景视频的相同位置进行融合，导致内容干扰。另一种可选方式是交叉注意力，它提取抽象语义以支持布局未对齐的控制信号。如此高级的特征无法忠实地继承前景视频的详细外观和动作特征，因此不适用于视频合成。

为此，本文开发了一种新的嵌入策略，专门针对前景素材与背景视频之间未对齐的特性，称为ERoPE。ERoPE以更忠实的方式融合未对齐的视频，且无需额外的训练参数。如下图4B所示，扩展了RoPE范围，并在高度维度上为两个未对齐视频的每个嵌入分配一个唯一的位置标签，严格交错两个视频的特征位置。如下图5所示，此策略有效提高了合成性能并消除了由未对齐内容干扰引起的伪影。我们提出的ERoPE可以利用任意布局未对齐的视频条件而无需额外的训练参数，此处我们将其用于视频合成。

实验

鉴于目前没有与我们类似的生成式视频合成工作，我们将GenCompositor与两个相关任务进行比较，即视频协调和轨迹控制视频生成。首先在第介绍实现细节，再展示比较结果。为了验证本文关键组件的有效性，又进行了消融研究。

实现细节

GenCompositor是一个具有6B Transformer的DiT模型，由提出的DiT融合块和背景保护分支组成。我们重用CogVideoX的预训练VAE模块在潜在空间中生成视频。我们在8个H20 GPU上从头开始训练我们的新架构。在推理过程中，GenCompositor大约需要65秒在34GB VRAM内生成一个480×720分辨率、49帧的视频。

与视频协调方法的比较

考虑到视频协调领域中开源方法的数量有限，我们将本文的方法与两个最近可用的方法进行比较：Harmonizer和VideoTripletTransformer 。由于这些方法无法控制运动轨迹，我们只比较协调前景元素的能力。我们还手动将来自其他源的前景素材粘贴到背景视频中进行比较。如下图6左侧所示，由于前景视频分割掩码的不完美，手动粘贴和Harmonizer在添加元素的边缘出现明显的锯齿状伪影。此外，在这些协调方法中，新添加的爆炸效果的颜色风格与背景视频不协调。相比之下，本文的方法有效解决了由不准确掩码引起的这些锯齿状伪影，并产生更协调的结果。在下图6的其他示例中，我们手动调整前景元素的照明并测试视频协调能力。本文的方法始终优于其他方法，证明了其优越性。

为了进行定量比较，本文使用著名的HY-YouTube数据集，其中包含前景视频、分割掩码和源视频。使用四个著名指标PSNR、SSIM、CLIP和LPIPS在下表1中衡量性能。GenCompositor在所有指标上均优于其他协调方法，显示其在视频协调方面优于专门方法。

与可控生成的比较

本文的方法支持轨迹控制生成，用户可以指定新添加元素的运动轨迹和大小。考虑到我们添加的元素是动态视频，且没有方法使用与我们相同的条件，我们与SOTA轨迹控制视频生成和编辑方法Tora和Revideo进行比较。视觉结果如下图7所示，其中我们展示了背景视频、前景视频、包含红色轨迹曲线的Tora生成结果、Revideo编辑结果和我们的结果。请注意，Tora仍然需要额外的文本提示作为条件，而Revideo必须编辑第一帧作为图像条件，但GenCompositor不需要这些先验。尽管Tora和GenCompositor都可以生成遵循轨迹的结果，但Tora无法保持添加元素的ID一致性，并且无法严格遵循用户指定的轨迹。相比之下，GenCompositor可以严格遵循轨迹生成合成视频，并且元素的ID和运动从前景视频中忠实地继承。我们相信这些优势来自不同的任务设置。与Tora等从图像直接生成视频相比，我们按照轨迹将前景视频与背景合成。这本质上更有利于继承前景元素的ID和详细运动。同时，Revideo也旨在拖动第一帧中添加的元素以沿着给定轨迹在后续帧中移动，但其有限性能导致结果不稳健，元素可能在其预测帧中消失。

为了进行定量评估，本文利用一个常见基准VBench，从4个维度分析生成质量：1）主体一致性：视频中主体的一致性。2）背景一致性：视频背景的一致性。3）运动平滑度：生成视频的运动质量。4）美学质量：视频的主观视觉质量。我们认为这四个指标与本文的任务最相关，并分别使用Tora、Revideo和本文的方法生成40组视频。如下表2所示，本文的方法在所有四个指标上取得了最佳平均分数。此外，我们在补充材料的第10节进行了用户研究，以比较不同方法的直观质量。

消融研究

为了分析每个提出组件的有效性，我们进行了四种设置的消融研究。具体来说，我们尝试了GenCompositor的两种潜在设计：一种移除了背景保护分支（w/o BP-Branch），另一种使用交叉注意力注入前景元素而不使用提出的DiT融合块（w/o fusion block）。本文删除了两种设计：一种不对二值掩码进行膨胀（w/o mask inflation），另一种直接输入原始前景视频进行训练，不使用亮度增强（w/o augmentation）。

视觉比较如下图8所示，其中我们在第一行提供了输入前景元素和膨胀后的掩码。以下三行显示了不同设置的结果。一个有趣的观察是，"手动粘贴"、"w/o augmentation"和"w/o mask inflation"的结果都在前景元素的边缘表现出明显的锯齿状伪影。我们认为，对于"w/o augmentation"，由于网络强大的学习能力，它完全继承并过拟合了前景视频的内容，未进行任何调整。对于"w/o mask inflation"，由于我们向模型提供了像素对齐的掩码，它只能在这个有限区域内处理前景元素，无法调整周围像素以与背景融合，从而在边缘留下伪影。另外两种设置解决了边界伪影问题，但存在其他局限性。"w/o fusion block"无法忠实地注入前景元素的ID和详细运动，但成功预测了火焰，这在语义上与前景条件一致，表明交叉注意力擅长注入语义信息，但在本文的任务中不适用。尽管"w/o BPBranch"也产生了逼真的背景，但这种对背景视频和添加前景元素的端到端学习增加了训练难度，限制了其性能。在其结果中，前景元素与主视频在感知上不一致。

为了进行定量评估，本文使用四种消融设置以及"完整模型"，分别实现视频协调和轨迹控制视频生成。如下表3所示，"完整模型"在所有指标上均优于所有消融设置。我们认为这客观地证明了本文方法中每个组件的重要性。

结论

本文介绍了一种新颖的视频编辑任务——生成式视频合成，允许使用动态视觉元素进行交互式视频编辑。具体来说，开发了第一种生成方法GenCompositor，旨在解决该任务的三个主要挑战：保持编辑前后的内容一致性、注入视频元素以及促进用户控制。它包含三个主要贡献。首先，利用轻量级背景保护分支将背景视频的令牌注入主流。其次，前景生成主流包含新颖的DiT融合块，以有效融合外部视频条件与背景隐空间表示。最后，本文修订了一种新颖的位置嵌入ERoPE，以强制模型自适应地将外部元素添加到结果中所需位置和所需尺度。请注意，ERoPE指出了一种新的有效方法，可以在没有任何额外计算成本的情况下，利用布局未对齐的视频条件进行生成模型。本文还提出了第一个配对数据集VideoComp。综合实验证明了我们提出方法的有效性和实用性。

参考文献

[1] GenCompositor: Generative Video Compositing with Diffusion Transformer

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

欢迎扫码免费加入

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年10月31日星期五

视频合成的DiT革命来了！北大&腾讯揭秘「生成式剪辑」，背景秒锁定、元素随心动！