AI I024: 视频去物“魔法橡皮擦”来了！MiniMax-Remover：新SOTA方法告别CFG，6步搞定

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Bojia Zi等

解读：AI生成未来

论文链接：https://arxiv.org/pdf/2505.24873
项目链接：https://minimax-remover.github.io/

亮点直击
提出了一种轻量且高效的基于 DiT 的视频目标移除架构。MiniMax-Remover。受到"文本提示并不适合目标移除任务"这一观察的启发，用可学习的对比tokens（contrastive tokens）替代了文本条件，用于控制移除过程。这些 tokens被直接集成到自注意力流中，能够移除预训练视频生成模型中的所有交叉注意力层。在第一阶段中，本文模型参数更少，并且不再依赖模糊的文本指令。
在第二阶段，在第一阶段模型生成的1万条人工筛选的视频移除结果上进行了蒸馏训练，并采用了 min-max 优化策略。
在多个基准测试上进行了大量实验，表明本文方法在推理速度和视觉保真度方面都表现优越。

如下图4和下表1所示，本文模型在仅使用6个采样步骤的情况下即可生成高质量的移除结果，并且无需依赖无分类器引导（CFG）。

总结速览

解决的问题

视频目标移除中的核心挑战：

模型容易生成幻觉物体（hallucinated objects）
存在视觉伪影（visual artifacts）

现有方法的局限性：

依赖计算成本高的采样过程
严重依赖无分类器引导（Classifier-Free Guidance, CFG）
推理速度慢，效率低

提出的方案

提出 MiniMax-Remover：一种两阶段的视频目标移除方法，包括：

第一阶段：设计一个轻量化的视频扩散模型，移除文本条件输入和交叉注意力机制，减少模型复杂度。
第二阶段：基于第一阶段生成并人工筛选的高质量结果进行蒸馏训练，引入 minimax 优化策略 提升鲁棒性与效果。

应用的技术

架构简化：

移除文本输入和 cross-attention 层
使用可学习的对比 tokens （contrastive tokens）替代文本条件，直接嵌入自注意力流中

蒸馏训练：

在1万条人工筛选的成功视频移除结果上进行蒸馏，提升模型泛化能力

Minimax 优化策略：

内层最大化：寻找能诱发模型失败的"坏噪声"
外层最小化：训练模型即使在恶劣输入下也能生成高质量结果

达到的效果

高质量视频目标移除：

仅使用 6 个采样步即可生成高保真移除结果
无需依赖 CFG，减少计算资源消耗

推理效率显著提升：

模型更轻量，处理速度更快，适合实际部署

广泛实验验证优越性：

在多个基准测试中表现出色，如上图4和上表1所示
在视觉质量和推理速度上均优于现有方法

方法论

总体框架

阶段 1：训练一个轻量级的视频目标移除模型。 本文方法遵循标准的视频修复流程，但在此基础上做出了两个简单而有效的改进。首先，本文通过移除无关组件设计了一个轻量级架构。与许多现有方法，如[56, 53, 46, 24]不同，本文不使用文本提示或光流等额外输入，因此可以移除所有的交叉注意力层。其次，本文引入了两个对比条件 tokens 来引导修复过程：一个是正向 tokens ，用于鼓励模型在被遮挡区域内填充内容；另一个是负向 tokens ，用于抑制模型在这些区域生成不需要的物体。需要注意的是，与以往工作，如[53, 54, 23] 不同，本文仅使用目标 mask ，不依赖其他附加条件。

阶段 2：通过人工引导的 minimax 优化增强模型的鲁棒性与效率。 首先使用阶段 1 的模型生成修复后的视频样本，然后请人工标注者挑选出成功的结果。在这个经过筛选的子集上，本文应用 minimax 优化训练策略，以增强模型的鲁棒性和生成质量。此外，蒸馏后的移除器在不使用 CFG 的情况下，仅需 6 步即可完成推理，从而实现快速推理。最终改进后的模型被称为 MiniMax-Remover。

阶段 1：用于视频目标移除的简单架构

本文方法基于预训练的视频生成模型 Wan2.1-1.3B，该模型是一个基于 DiT 架构的 Flow Matching 模型。

模型架构

输入层。 本文首先将三种类型的 latent 进行拼接：噪声 latent 、 mask latent 和 mask 本身的 latent 。它们的定义如下：

其中，表示输入视频，是扩散时间步，是 VAE 编码器。每个 latent 有 16 个通道，拼接后输入为 48 个通道。为了适配这个输入，本文修改了预训练的 patch embedding 层，使其接受 48 个通道而非原来的 16 个通道。具体而言，前 16 个通道保留预训练权重，其余 32 个通道进行零初始化。

移除预训练 DiT 块中的交叉注意力。 在预训练的 Wan2.1-1.3B 模型中，时间信息通过 shift table 注入，该机制基于偏置来编码时间步信息。此外，模型使用交叉注意力模块来引入文本条件。然而，对于视频目标移除任务而言，文本输入通常是多余或模糊的。因此，在本文模型中，本文移除了 DiT 块中的文本交叉注意力层，但保留了 shift table 以保留时间信息。

通过自注意力注入对比条件tokens。 为实现条件修复，本文引入了两个可学习的条件tokens，分别表示为（正向tokens）和（负向tokens），作为文本嵌入的替代。本文将这些tokens称为对比条件tokens。

从 DiT 中移除交叉注意力带来了一个挑战：如何在不依赖文本提示的情况下有效注入条件信息。一个直接的方法是重用 shift table 来同时编码时间步和条件信息。然而，本文实验表明，这种方式会导致条件修复效果不佳。为了实现更有效的条件控制，本文选择将对比条件 tokens 通过自注意力模块注入到 DiT 块中。

具体而言，本文使用一个可学习的嵌入层将条件 tokens 映射到高维特征空间，然后将该特征拆分为 6 个 token，以增强在注意力计算过程中的控制能力。这些条件 token 被拼接到原始的 key 和 value 中，从而在不大幅修改架构的前提下实现有效的条件控制。

为了更清晰地说明，考虑一个示例：在原始的自注意力模块中，设，，，在注入条件 token 后，变为：。注入对比条件 tokens 后的 DiT 模块如下图 2(b) 所示。

用于目标移除的对比条件控制

本文使用正向条件 tokens 引导移除网络学习目标移除，并使用负向条件 tokens 鼓励模型在其引导下生成目标物体。具体而言，在应用无分类器引导（classifier-free guidance）时，作为正向条件，作为负向条件，引导模型避免重新生成目标物体，从而防止不希望出现的物体在 mask 区域内重新出现。为了训练这种行为，本文采用了两种互补的策略：

第一，训练模型移除物体。 本文从其他视频中随机选择 mask ，并将其应用于当前原始视频。原始视频作为真实标签，模型以正向提示为条件进行训练。由于这些 mask 通常与当前视频中的真实物体不匹配，模型学习使用周围的信息填充被遮挡区域，而不是尝试生成一个符合 mask 形状的物体。这有助于模型专注于修复背景，而不是生成新物体。

第二，训练模型生成物体。 本文使用准确的 mask ，这些 mask 紧密覆盖同一视频中的真实物体，并配合负向提示. 这教会模型将 mask 的形状与应生成的物体联系起来。在推理阶段，本文可以使用作为负向信号，以防止模型在这些区域重建物体。

给定 latent 特征、 mask latent 、 mask 本身的 latent 和时间步，网络的预测为：

使用引导权重的无分类器引导（CFG），最终预测计算如下：

正向 token 引导移除网络学习目标移除，而负向 token 则鼓励模型生成目标内容。本文需要指出，在第一阶段训练中本文使用了 CFG 以促进条件学习。然而，在第二阶段中 CFG 被移除，以提高推理效率。

第一阶段的局限性

尽管在简洁性和速度方面有所提升，当前模型仍面临三个局限性。(1) CFG 会使推理时间加倍，并且需要手动调整引导尺度，而该尺度在不同视频中可能有所不同。(2) 每帧采样 50 个扩散步骤仍然耗时较长。(3) 在目标移除区域内偶尔会出现伪影或不希望出现的目标重建，表明对比信号尚未完全发挥作用。为了解决这些问题，本文引入第二阶段方法，旨在提升鲁棒性、质量和效率。

MiniMax-Remover：基于人类反馈蒸馏更强的视频目标移除器

尽管本文视频目标移除器经过对比调控训练，但它仍然会产生明显伪影，甚至偶尔重建本应被移除的目标。进一步观察表明，这些失败案例与特定的输入噪声模式密切相关。这一发现促使本文设定目标：识别这些"坏噪声"，并训练目标移除模型对其具备鲁棒性。

minmax 优化也使本文能够摆脱对 CFG 的依赖。在第二阶段中，本文移除了 CFG 以提高采样效率。具体而言，在训练过程中，本文省略了正向和负向条件 token。本文选择将对此设计的更多分析放在附录中。

此外，使用 50 步进行推理仍然耗时。为了解决这一问题，本文在第一阶段中使用 Rectified Flow 方法对模型进行蒸馏，以加速采样过程。具体地，本文从第一阶段模型生成的 17K 视频对中手动筛选了 10K 对作为训练数据。这不仅减少了采样步骤数量，而且借助 min-max 优化，还鼓励模型生成更优的目标移除结果。因此，本文模型公式由变为。本文将第二阶段的训练公式化为一个 minmax 优化问题。

因此，内部最大化旨在寻找能最大化预测误差的坏噪声，从而有效地找到具有挑战性的输入噪声。外部最小化则更新模型参数以增强其对抗此类对抗性噪声的鲁棒性。这种 minmax 优化策略鼓励模型即使在困难或具有误导性的输入噪声下也能保持稳定。

搜索"坏"噪声

方程 8 中的一个关键挑战是如何有效识别一个"坏"的噪声样本。本文并不是直接在成功的目标移除案例中通过最大化方程 8 中的损失来实现这一点，而是通过最小化相对于一个"坏"目标的损失来实现：具体而言，是原始视频，该视频未能实现目标移除的目标。这引出了如下重新表述的目标函数：

其中，表示停止梯度操作，表示原始视频的潜在编码。需要注意的是，在公式 9 中本文省略了期望，因为本文将扩散时间步固定为，从而使。

从一个随机噪声开始，本文通过反向传播计算损失函数对的梯度。该梯度表示如下：

在获得关于噪声的梯度之后，本文可以如下构造一个新的对抗性（"坏的"）噪声样本：

其中，是新采样的噪声，是公式 10 中获得的梯度的符号，是一个随机采样的标量。本文仅使用梯度的符号来抑制梯度幅值的影响，从而确保更稳定的更新。最终得到的噪声编码了与目标相关的信息，倾向于重建原始内容，因此可作为具有挑战性的对抗性噪声。同时，公式 11 中的构造保留了标准高斯噪声的近似分布特性，使得与扩散过程兼容。

针对"坏"噪声的鲁棒性优化

在第二阶段，本文通过在对抗性噪声样本上微调模型，以增强其鲁棒性。本文最小化以下目标函数：

是一个成功修复视频的潜在表示。在公式 12 中，本文采样一个时间步，并根据先前生成的和构造一个带噪的潜在输入。在实践中，本文在混合数据上进行训练。具体而言，三分之一的训练样本来自本文精心挑选的 10K 数据集及其对应的对抗噪声，其余三分之二则是带有随机生成目标 mask 的标准 WebVid-10M 视频。这种混合策略确保模型在干净和具有挑战性的输入上都能保持有效，从而最终提升其泛化能力和对失败案例的鲁棒性。本文将第二阶段训练后的模型称为 MiniMax-Remover。

MiniMax-Remover 的优势

MiniMax-Remover 拥有几个关键优势：

低训练开销。 它仅需一次反向传播来搜索"坏"噪声，并使用简化的架构训练移除器，从而减少了内存消耗。
快速推理速度。 MiniMax-Remover 仅使用 6 步采样且不依赖 CFG，相比以往方法显著加快了推理速度。
高质量。 由于模型经过训练能抵御"坏"噪声，它很少在 mask 区域生成意外物体或视觉伪影，从而带来更高的质量。

实验

训练数据集。 在第一阶段，本文使用 Grounded-SAM2和 CogVLM2提供的字幕在无水印的 WebVid-10M 数据集上生成 mask 。随机选取约 250 万对视频- mask 对用于训练。在第二阶段，本文从 Pexels收集了 1.7 万个视频，并应用与第一阶段相同的标注流程。这些视频随后使用第一阶段的模型进行处理，并手动挑选出 1 万个视频用于第二阶段训练。

训练细节。 第一阶段本文以 Wan2.1-1.3B初始化模型。新添加的层（如嵌入层）采用随机初始化。Patch 嵌入器的前 16 个通道从 Wan2.1 拷贝，其余 32 个通道则为零初始化。训练使用批大小为 128，输入帧长度为 81，分辨率在到之间随机采样。本文将前个 mask 帧设为 0，以支持任意长度的修复，通过滑动窗口实现，随机比例为 0.1。本文使用 AdamW 优化器，学习率为，权重衰减为，训练共进行 1 万步。在第二阶段，本文复用第一阶段的模型，但不包括嵌入层，因为不再需要外部条件。三分之一的训练迭代使用最小-最大优化，其余则使用来自 WebVid [1] 的无关 mask 进行标准训练。超参数与第一阶段相同。所有实验在 8 张 A800 GPU（每张 80GB）上进行，总耗时约两天。

推理细节。 推理使用 RTX 4090 GPU 进行。在输入分辨率为 480p、帧长度为 81 的设置下，每个视频推理大约耗时 24 秒，峰值 GPU 显存消耗约为 14GB（DiT 占用 8GB，VAE 解码占用 6GB），使用 6 步采样。

基线方法。 本文将方法与 Propainter、VideoComposer 、COCOCO、FloED、DiffuEraser、VideoPainter和 VACE进行比较。本文将评估帧长度设为 32。为了使用相同的帧长度进行评估，本文扩展了 VideoComposer和 FloED的输入帧长度。其余的视频修复方法则使用其代码库中的默认帧长度。帧分辨率使用各自的默认设置。

评估指标。 本文使用 SSIM 和 PSNR 评估背景保留效果。TC 用于评估时间一致性，遵循 COCOCO 和 AVID，使用 CLIP-ViT-h-b14提取特征。GPT-O3用作客观指标。本文在 DAVIS 数据集和 200 个随机选取的 Pexels 视频上评估这些指标，以展示在不同数据集上的泛化能力。需要注意的是，这 200 个 Pexels 视频不包含在本文训练数据集中，其 mask 由 GroundedSAM2 提取。在用户研究中，参与者会看到一个多选问卷，要求识别哪个视频最有效地移除了原始视频中的目标对象，同时不引入模糊、视觉伪影或 mask 区域中的幻觉内容。

定量比较

如下表 2 所示，本文方法在所有 90 个 DAVIS 视频上均优于以往的基线方法，达到了 SSIM 为和 PSNR 为。值得注意的是，即使仅使用 6 步采样，本文方法也能生成高质量视频，并有效保留背景细节。此外，本文方法在时间一致性方面表现优越，显著优于如 VACE等生成模型，甚至超越了传统修复方法 Propainter。这些结果表明，本文模型始终能够产生视觉上令人满意且高质量的视频目标移除效果。在 200 个 Pexels 视频上的表现也呈现出类似趋势，本文方法在 SSIM、PSNR 和时间一致性得分上均为最高。此外，减少采样步数并不会显著降低移除性能。

定性结果

为了评估视觉质量和目标移除成功率，本文使用强大的推理大语言模型 GPT-O3，通过评估提示对其进行查询。质量评分范围为 1（最差）到 10（最佳）。根据 GPT-O3 的评估，本文方法获得了的较高分数，而之前最好的方法为，表明本文方法移除结果更清晰、视觉效果更好。关于移除成功率，本文提示 GPT-O3 判断目标对象是否被有效移除。本文方法在 DAVIS 数据集上达到了惊人的成功率，远高于之前最佳的。在 Pexels 数据集上，本文方法同样优于之前的最先进方法，成功率为，而之前最佳为。此外，本文方法获得更高的评分，而之前最佳方法为。在用户偏好方面也呈现出类似趋势，本文方法在两个数据集上均获得最佳得分，分别为对比和对比。

消融实验

为了理解本文方法中各个组件和修改的影响，本文进行了逐步的消融实验。所有实验均使用 50 步采样。

第一阶段。 本文首先考察文本编码器和基于提示的条件的作用。在 Ab-1 和 Ab-2 的比较中（见下表 3），本文用可学习的对比 token 替换了文本编码器和提示。结果显示性能没有显著下降，说明在使用合适的可学习 token 时，文本编码器对于移除任务是冗余的。

接下来比较 Ab-2 和 Ab-3，本文在从 DiT 中移除交叉注意力模块后观察到轻微的性能下降。然而，当本文在自注意力层中引入可学习的对比条件 token（Ab-4）时，结果不仅恢复了，还超过了 Ab-1。这表明本文简化的 DiT 架构是有效的。

第二阶段。 本文比较了使用和不使用人工标注数据训练的模型。结果（Ab-1 对比 Ab-2）显示，仅使用人工标注数据并不能显著提升性能，这可能是由于数据集规模（1 万个视频）和多样性有限，限制了泛化能力。

此外，本文比较了训练中使用的不同噪声类型（Ab-2 到 Ab-3）。本文发现将"坏噪声"（人为退化的输入）加入训练能显著提升性能。

结论

MiniMax Remover，一个用于视频中目标移除的两阶段框架。在第一阶段，本文通过移除交叉注意力并用对比条件 token 替换提示嵌入，对预训练的 DiT 进行了简化。在第二阶段，本文应用最小-最大优化：最大步骤寻找导致失败案例的挑战性噪声输入，而最小步骤训练模型从这些对抗输入中成功重建目标。通过这种两阶段训练，本文方法实现了更干净且视觉效果更佳的移除结果。由于无需分类器自由引导（CFG）且仅使用 6 步采样，推理速度显著加快。大量实验表明，本文模型在多个基准上均实现了出色的移除性能。

参考文献

[1] MiniMax-Remover: Taming Bad Noise Helps Video Object Removal

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年6月17日星期二

视频去物“魔法橡皮擦”来了！MiniMax-Remover：新SOTA方法告别CFG，6步搞定