AI I024: 视频生成实时拖拽一切！南洋理工DragStream实现拖一下就能改大片，告别从头渲染！

AI生成未来知识星球免费开放！

点击下方卡片，关注"AI生成未来"

👇扫码免费加入AI知识星球，如您有工作需要分享，欢迎联系：aigc_to_future

作者：Junbao Zhou等

解读：AI生成未来

论文链接：https://arxiv.org/pdf/2510.03550

REVEL 任务示例上图所示的流式视频处理结果包括编辑和动画，并带有对象平移（"Trans"）、变形（"Defor"）和旋转（"Rot"）等拖动效果，均由我们的 DragStream 方法生成。

亮点直击
流式拖拽导向交互视频操作（REVEL），这是一项新任务，使用户能够在视频生成过程中随时拖动任何对象，从而通过拖拽式操作实现对视频生成模型（VDMs）输出的流式细粒度控制
无训练范式下解决 REVEL 有两个关键挑战：i) 拖拽引起的扰动导致潜在分布严重漂移并中止拖拽过程；ii) 流式拖拽受到上下文帧的干扰，导致视觉上不自然的结果
DragStream，结合了空间-频率选择性优化机制和自适应分布自校正策略，有效抑制上下文干扰并减轻潜在code中的分布漂移
大量实验证明本方法在解决 REVEL 中的有效性，实现高质量的流式拖拽操作，保持无训练特性，并提供与现有自回归 VDMs 的即插即用集成

总结速览

解决的问题

自回归视频扩散模型的输出难以实现流式、细粒度的控制，导致难以确保其始终符合用户的期望。
拖拽操作引起的扰动会导致潜在空间的分布漂移，影响生成过程的稳定性。
流式拖拽容易受到上下文帧的干扰，导致视觉效果不自然。

提出的方案

提出了一项新任务——流式拖拽导向交互视频操作（REVEL），允许用户通过细粒度的交互式拖拽随时修改生成的视频。
开发了一种无训练的方法——DragStream，结合空间-频率选择性优化（SFSO）机制和自适应分布自校正（ADSR）策略。

应用的技术

空间-频率选择性优化（SFSO）机制：通过选择性传播视觉线索，减轻上下文信息的干扰。
自适应分布自校正（ADSR）策略：利用相邻帧的统计数据，限制潜在嵌入的漂移。

达到的效果

DragStream 在解决 REVEL 任务中表现出色，实现了高质量的流式拖拽操作。
保持无训练特性，提供了与现有自回归视频扩散模型的即插即用集成。
实验结果展示了该方法在流式拖拽操作中的有效性，成功抑制了上下文干扰和潜在分布漂移。

流式拖拽导向交互视频操作

首先在定义 1 中给出流式拖拽导向交互视频操作（REVEL）任务的定义。

定义 1（REVEL） 设表示由自回归 VDMs 生成的第帧视频。REVEL 旨在使用户能够利用拖拽式操作修改视频帧，对于，并确保后续相邻帧与一致，从而实现对 VDMs 输出的流式、细粒度控制，使生成的视频始终符合用户的要求。

本文认为当前基于拖拽的视频操作存在一个主要限制，即缺乏拖拽式操作的统一定义。现有的基于拖拽的视频编辑方法侧重于在生成的视频中拖拽对象，目标是产生平移、变形和旋转的效果。然而，这些方法通常无法允许用户通过拖拽来动画化视频帧。相比之下，轨迹引导的视频生成模型旨在通过沿轨迹移动对象来生成视频片段，其运动由 VDMs 渲染；然而，它们不足以灵活地允许用户具体确定拖拽操作的类型，例如变形对象形状、平移对象或围绕中心点旋转。由于这两种设置都是不完整的，本文在命题 1 中提出统一拖拽式视频操作。

命题 1（统一拖拽式视频操作） 本文将拖拽式视频操作统一为使用户能够通过拖拽式操作对视频帧进行编辑和动画化，同时支持用户指定的平移、变形和 2D/3D 旋转效果。

在这里，编辑指的是直接修改生成的视频帧的内容，而动画则表示根据用户给定的拖拽指令从现有帧生成视频片段。

备注 2. 在此，阐明本文的 REVEL 任务与之前的基于拖拽的视频编辑和生成工作的区别。DragVideo 是最近一种典型的基于拖拽的视频编辑方法。与本文的 REVEL 不同，它仅支持基于拖拽的编辑，不允许用户动画化视频帧。此外，DragVideo 不支持 2D 对象旋转操作。SG-I2V 和 Tora 是两个典型的轨迹引导视频生成方法。它们都仅专注于通过沿轨迹移动对象来动画化图像，使用 VDM 渲染的运动，而不允许用户灵活地实现更细粒度的拖拽效果，例如编辑对象形状或围绕中心点以特定角度旋转对象。最重要的是，这些方法都无法以流式方式实现拖拽导向的视频编辑和动画。

建议从无训练的角度解决 REVEL，并识别出存在的两个关键挑战，分别总结为挑战 1 和挑战 2。

挑战 1（潜在分布漂移） 拖拽操作引起的扰动容易在自回归 VDMs 的潜在空间中积累，导致潜在代码的严重分布漂移，从而中断拖拽过程。

在下图 2 (a) 中展示了挑战 1。图中显示，一旦应用拖拽操作，潜在嵌入的均值和方差显著变化，而最大值和最小值显示出明显的波动。这种不稳定性驱使潜在嵌入（"w/o ADSR+drag"）偏离原始分布（"Ref: w/o Drag"），从而扰乱拖拽过程。本文发现潜在分布漂移可能导致对象属性的不良变化，例如颜色和类别，如图 2 (a) 的第二行所示。使用本文的 ADSR 策略（"w/ ADSR+Drag"）可以有效抑制分布漂移。

挑战 2（上下文干扰） 流式拖拽容易受到上下文帧的干扰，误导 VDMs 生成视觉上不自然的内容，从而显著降低视频质量。

在上图 2 (b) 中展示了挑战 2。上图 2 (b) 的结果清楚地表明，来自前一帧的视觉线索可能严重误导后续的生成，例如，手柄点周围的特征错误地引导模型在兔子上生成重复的耳朵和在汽车上生成伪影（"w/o SFSO"），这显然降低了生成视频的质量。本文将在下文中介绍如何使用本文的 SFSO 策略来克服上下文干扰。

方法论

DRAGSTREAM: 在无训练范式中随时随地拖拽任何内容

总体流程

首先介绍 DragStream 的总体流程。假设用户在流式生成过程中观察到视频帧，并打算通过给出指令来操作，其中表示手柄区域，而表示相应的拖拽指令。本文用表示在拖拽过程中生成的视频帧，其中如果；否则，，因为在动画过程中会生成新帧。

以手柄区域为例来说明本文的方法。如下图 3 所示，本文首先将去噪到，并通过连接 DiT 去噪器的多层特征来提取特征，其中是上下文帧的缓存键和值。然后，本文根据用户给定的拖拽指令估计在特征中拖拽后的手柄区域的位置。

这里，表示将手柄区域绕中心点旋转一个角度，而表示将平移一个偏移量。是一个二进制掩码，指示在提取特征中的目标位置，而是从到的坐标映射。最后，潜在代码被迭代优化。在每次迭代中，的特征也被提取并分离作为参考特征，。此外，本文根据坐标映射干预性地调整参考特征，，从而扰动原始潜在代码并将手柄区域特征转换到目标位置。新帧的潜在代码可以通过在的目标位置重建原始手柄区域的特征来更新。

其中，

这里，表示重建损失，而代表一个约束项，确保的非可编辑区域的一致性。表示在进行迭代潜在区域优化之前的初始特征。本文的 ADSR 和 SFSO 策略在上述迭代潜在区域优化过程中被采用，以克服挑战 1 和挑战 2，分别在下文中详细介绍。

备注 2： 如果，则，这表示一个跨帧优化范式，即使用扰动特征来指导新帧的的去噪过程。如果，则，这可以视为自引导优化，即使用的分离特征来指导的重新去噪。

自适应分布自校正

本文提出了一种简单而有效的策略，自适应分布自校正（ADSR），以解决由累积扰动引起的潜在分布漂移问题——挑战 1，如命题 2 所述。

命题 2（自适应分布自校正） 假设用户对帧应用拖动式操作。记录的前邻潜在嵌入的统计量和，其中和是均值和标准差。本文建议在每次优化迭代后使用和来校正的分布：

其中，表示潜在优化的一个迭代，和分别表示和的均值和标准差。如上图 2(a) 所示，本文的 ADSR 可以有效抑制潜在嵌入的分布漂移，同时显著提高视频质量，并在拖动过程中防止对象属性的意外变化。这与下图 7 中的发现一致，表明 ADSR 在评估指标 ObjMC、DAI、FVD 和 FID 上持续提高模型性能。

空间-频率选择性优化

本文设计了一种空间-频率选择性优化（SFSO）机制来克服挑战 2。它充分利用上下文帧的信息，同时通过在迭代潜在区域优化过程中在频率和空间域中进行信息选择来减轻其干扰。

高频信息虽然捕捉到更精细的视觉信息，但由于携带更多噪声扰动，往往会误导 VDMs 产生不自然的结果（Fan et al. (2019); Li et al. (2020)）。相比之下，低频信息虽然更稳健，但缺乏足够的细粒度视觉细节。本文认为，在拖动导向的优化过程中，关键是利用高频和低频信息的优势，同时缓解其固有的局限性。因此，本文在命题 3 中提出了一种可切换频域选择（SFS）策略。

命题 3（可切换频域选择） 设表示用于构建参考特征的 DiT 去噪器的层，表示层的输入特征。SFS 应用于层的自注意力，以在潜在区域优化过程的每次迭代中构建具有可切换频率成分的参考特征：

这里，和表示缓存的键和值，表示 Butterworth 滤波器，截止频率随机选自，而和分别表示二维傅里叶变换和二维逆傅里叶变换。

通过使用 SFS 策略，在每次迭代中，不同频率的信息可以通过重建损失传播到的潜在嵌入中，从而充分利用上下文帧的信息，同时防止高频信息在拖动过程中占主导地位并在生成的帧中引入伪影。

在命题 4 中，本文还设计了一种基于关键性的空间域选择（CSS）策略，以防止在可编辑区域内对背景进行过度优化，这有助于进一步减少不自然的内容。

命题 4（基于关键性的空间域选择） 本文在空间域中选择性地反向传播梯度，避免拖动过程不当影响背景：

其中，是一个高斯滤波图，其值随着到手柄区域中心点距离的增加而衰减。

W 和 H 分别是手柄区域最小外接矩形的宽度和高度，是一个超参数，用于缩放高斯分布的扩散范围，设为 1。使用 SFS 和 CSS 可以进一步提高视频质量，这在主文和附录中的实验中得到了证明。

实验

由于 REVEL 是一项新任务，目前没有现有的方法专门针对它进行设计。本文调整了两种无需训练的方法，SG-I2V 和 DragVideo，以适应 REVEL 任务进行比较。有关本文的实验设置的详细信息，包括实现细节、评估指标和对比基线，请参阅附录的 C 节。

主要结果

可视化结果。 本文方法实现的可视化结果如下图 4 所示。与 SG-I2V 和 DragVideo 相比，本文的 DragStream 明显产生了更自然和更高质量的流式拖动风格视频操作结果。例如，它更好地保留了物体的外观和结构，同时表现出更少的视觉失真、伪影和拖动失败。这些结果验证了本文的方法在解决 REVEL 任务中的有效性。

定量性能。 下图 5 中的定量结果表明，本文的 DragStream 始终优于 SG-I2V 和 DragVideo。一方面，最低的 FID 和 FVD 分数表明本文的 DragStream 实现了比 SG-I2V 和 DragVideo 更高的视频质量。另一方面，获得最佳的 ObjMC 和 DAI 分数表明本文的方法实现了更精确的物体拖动，与上图 4 中显示的结果一致。

消融研究

在下图 6 中，本文进行了消融研究以调查每个组件的影响。结果表明，完整的方法实现了最佳性能。舍弃 SFSO（"w/ ADSR"）导致显著的性能下降，而进一步移除 ADSR（"w/o ADSR, SFSO"）则导致更大的下降。这些结果表明了 ADSR 策略和 SFSO 机制的重要性。同样，使用完整的 SFSO 优于单独使用 CSS 或 SFS。本文还在上图 7 中分析了截止频率的影响。可以看到，小的和大的截止频率都导致性能下降。相比之下，本文的可切换频率选择策略实现了最佳性能，因为它充分利用了上下文信息，同时通过防止高频分量主导拖动过程来减轻其干扰。

结论

本文提出了流式拖动导向交互视频操作（REVEL），这是一项新任务，旨在允许用户对自回归 VDM 的输出实现流式拖动风格的控制。为了解决 REVEL，本文提出了一种无需训练的方法，DragStream，该方法采用自适应分布自校正（ADSR）策略并设计了空间频率选择优化（SFSO）机制。ADSR 通过利用相邻帧的统计数据，有效地限制了潜在嵌入的漂移，而 SFSO 通过在空间和频率域内选择性地传播视觉线索，充分利用上下文信息，同时减轻其干扰。这两种策略使本文的方法在 REVEL 上实现了卓越的性能，并能够无缝集成到现有的自回归 VDM 中。希望这项工作能够激发出更多优秀的解决方案来解决流式拖动风格视频操作问题。

参考文献

[1] Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

欢迎扫码免费加入

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年10月19日星期日

视频生成实时拖拽一切！南洋理工DragStream实现拖一下就能改大片，告别从头渲染！