本篇文章来自公众号读者投稿,
由中山大学智能工程学院完成的论文 MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion 已被国际计算机视觉顶级学术会议ICCV-2025收录,论文第一作者为2023级硕士研究生马义坤,通讯作者为其导师金枝教授。
相关链接
论文:https://arxiv.org/abs/2503.17695
代码:https://github.com/Mr-Ma-yikun/MotionDiff
介绍
生成式模型在内容生成领域展现出卓越能力,能够产出高质量的多样化成果。然而,这类模型的输出本质上具有不确定性,要实现精准可控的编辑操作,尤其是针对空间运动的编辑任务,面临着极大的挑战。
尽管当前已有部分基于物理先验的方法尝试攻克运动编辑难题,但这些方法大多局限于处理单视角图像中的简单运动形式,例如平移和拖拽等基础动作。面对复杂的旋转、拉伸等运动场景时,它们往往显得力不从心,难以确保生成结果在多视角下保持一致性。更为关键的是,这些方法通常需要耗费大量的计算资源进行重新训练,才能适应不同的编辑需求,这无疑增加了实际应用中的成本与复杂度。
为突破上述局限,我们创新性地提出了 MotionDiff——一种无需训练的零样本扩散方法,专为复杂的多视角运动编辑任务设计。该方法巧妙地利用光流信息作为引导,实现了对物体运动的精准操控。在实际操作中,用户只需通过交互界面轻松选择感兴趣的目标物体,并为其添加相应的运动先验信息。随后,MotionDiff 进入多视角光流估计阶段(Multi-view Flow Estimation Stage, MFES),该阶段能够智能估算出目标物体在各个视角下的光流数据,为后续的运动编辑提供精准依据。紧接着,在多视角运动扩散阶段(Multi-view Motion Diffusion Stage, MMDS)中,MotionDiff 会进一步解耦运动表示,确保不同视角下的运动信息相互独立又协调统一,最终生成高质量且多视角一致的运动效果。
大量严谨的实验结果表明,MotionDiff 在生成效果上显著优于其他基于物理的生成式运动编辑方法,尤其在处理复杂运动和多视角一致性方面表现出色。此外,得益于其无需重新训练的特性,用户能够轻松地将 MotionDiff 集成到各类下游任务中,极大地拓展了其应用范围与实用价值。
Abstract
本文提出了一种无需训练的零样本交互式运动编辑算法,称为MotionDiff。对于用户,只需要对一张单视角图像施加光流,其后算法便能生成多视角一致的运动编辑结果,并且能够保真纹理细节。
本文的贡献与创新点如下:
提出了一种无需训练的零样本、光流引导的扩散框架,能够实现多种复杂的多视角运动编辑操作,如平移、缩放、旋转和拉伸。 在多视角光流估计阶段MFES中开发了一个用户友好的交互式框架,并结合所提出的 点运动学模型PKM,从静态场景中推导出多视角光流。 在多视角运动扩散阶段MMDS中设计了一种解耦运动表示方法,为其他相关任务(如AR/ VR,人机交互等)提供了便利。
Method
Network Architecture
MotionDiff 通过两个推理阶段实现运动编辑。首先,如图1,给定一个静态场景,用户可以交互式地选择需要编辑的物体并添加运动先验;随后,所提出的 PKM在MFES内估算多视角光流。接下来,MMDS(图2)利用这些光流来引导扩散模型进行运动编辑,并对运动表示进行解耦,以获得多视角一致的编辑结果。
多视角光流估计阶段MFES。与拖拽不同,光流具有表示像素级运动的能力。然而,直接从一个没有运动属性的静态场景中获取光流是非常具有挑战性的。因此,我们提出了 MFES,使用户能够交互式地获取多视角光流。如图1所示,具体而言,给定一个静态场景,包括多视角图像和重建的三维点云,我们首先使用 Mask Clustering对三维点进行分割,并通过用户交互式查询选择感兴趣的物体。在获取到感兴趣的物体之后,我们的核心思路是估算其运动后的三维点云。通过这种方式,我们可以通过将两种点云投影到二维空间来获得对应的多视角光流。
然而,运动后的点云是难以获取的,因此,我们提出了点运动学模型PKM,用于估计适用于不同运动模式的点云,包括平移、缩放、旋转和拉伸。如图3所示。通过PKM,我们可以从三维点云中估计出多视角光流:
多视角运动扩散阶段MMDS. 利用扩散模型进行运动编辑通常需要重新训练,这对计算资源和数据都有很高的要求。因此,在MMDS(如图2所示)中,我们提出了一种无需训练的零样本扩散模型,利用从MFES获得的多视角光流来指导Stable Diffusion完成运动编辑任务。我们将运动过程解耦为静态背景、运动对象和遮挡区域的组合,如图4所示。
具体而言,在整个扩散流程的每一步推进中,我们采用 DDIM Inversion 技术来精准捕获非移动区域的潜在变量。这一操作犹如为静态背景结构加上了一层"保护罩",能够有效防止其在运动编辑过程中被意外篡改,确保背景的完整性和稳定性。
与此同时,我们在扩散过程的每一个步骤中都精心设计了流导向策略(Flow Guidance Strategy, FGS)。该策略如同一位精准的"导航员",能够为稳定扩散模型(SD)提供明确的方向指引,使其在运动编辑过程中能够沿着预设的轨迹前行,从而实现精准且可控的运动变换。
当扩散过程推进到第 T 步时,我们适时引入处理后的潜在空间融合(Latent Space Fusion, LSF)策略。这一策略就像是一位技艺精湛的"修复师",能够在运动编辑的过程中,巧妙地保留并融合生成运动对象的纹理细节,让运动效果更加逼真自然,仿佛对象本身就具有真实的运动质感。
为了进一步保证生成结果中遮挡区域在多视图下的一致性,我们创新性地引入了背景网格约束(Background Grid Constrain, BGC)。这一约束机制如同一个无形的"框架",能够确保在不同视角下,遮挡区域的生成效果相互协调、统一,避免了因视角变化而出现的视觉不一致问题。
最后,我们运用变分自编码器(VAE)对预测的噪声潜在变量进行解码操作。这一过程就像是将抽象的"数字密码"转化为直观的视觉图像,最终生成具有多视角一致性的高质量运动编辑结果。
值得一提的是,我们提出的这种方法巧妙地绕开了昂贵的重训练过程,大大降低了计算成本和时间消耗。同时,它还具备强大的通用性,能够高效且有效地支持多种不同类型的运动编辑任务,为运动编辑领域的发展提供了新的思路和解决方案。
Experiments
Main Results
表2给出了MotionDiff和其它生成式运动编辑模型的对比,论文设计了专门用于运动编辑的评价指标。从表中可以发现,我们的方法作为一种无需训练的范式,具有较好的指标评估性能。此外,为了更全面的展示方法的性能进行了定性的评估:
如图 5 清晰呈现,我们精心展示了平移、缩放、旋转以及拉伸这几种运动类型的可视化对比结果。在展示布局上,每一行依次呈现不同方法所达成的编辑效果,让读者能够直观对比不同方法在同一运动类型下的表现差异;而每一列则对应来自同一场景的不同视角,全面展示各方法在多视角下的编辑情况。为了更精准、细致地呈现运动结果,我们对图中框选区域进行了放大处理,以便读者能清晰洞察每一个细节。
从展示结果来看,DiffEditor 在处理简单运动时具备一定的能力,像平移和缩放这类基础运动,它能够给出相对可接受的结果。然而,当面对更为复杂的运动场景时,其局限性便凸显出来。例如,在处理旋转运动时,黑板的显示效果不尽如人意,出现了明显的失真或不合理的情况。
再看 Motion Guidance 方法,由于缺乏行之有效的纹理监督策略,在保持运动物体外观方面存在明显短板。以平移运动为例,红色枕头的纹理细节在编辑过程中大量丢失,使得最终呈现的效果缺乏真实感和细腻度。
MagicFixup 在单视角运动编辑中表现可圈可点,能够取得令人较为满意的效果。但由于其在多视角一致性约束方面存在不足,当扩展到多视角运动编辑时,表现就受到了较大限制,无法保证不同视角下运动编辑结果的一致性和协调性。
与之形成鲜明对比的是,MotionDiff 在执行多样化运动任务时,不仅能够出色地完成各种运动编辑,还能在多视角环境下有效保持一致性,展现出显著的优势。无论是简单的平移、缩放,还是复杂的旋转、拉伸,MotionDiff 都能确保不同视角下的编辑结果高度一致,为多视角运动编辑提供了可靠的解决方案。
若您希望获取更多详细的实验结果和深入的实验细节,欢迎阅读我们的论文原文以及补充材料,其中将为您呈现更全面、更深入的研究内容。
Ablation Studies
为了验证我们所提策略的有效性,我们设计了如下消融实验:
如上图所示,分别对本文所提的策略,例如FGS,LSF等进行消融。缺失FGS无法得到合理的运动,缺失LSF无法保证运动纹理等。其余消融结果均无法取得满意的编辑效果。只有将他们组合起来才能得到高质量的编辑。这进一步证实了所提策略的有效性。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论