2025年8月20日星期三

AI图像编辑站上新高度!Follow-Your-Shape精控大规模形变,稳准狠!

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Zeqian Long等

解读:AI生成未来

图片

文章链接:https://arxiv.org/pdf/2508.08134 
项目链接:https://follow-your-shape.github.io/

图片
图片
图片
图片
图片
图片
图片

亮点直击

  • 一种新颖且无需训练的编辑框架 Follow-Your-Shape,利用轨迹差异图(Trajectory Divergence Map, 实现精确的大尺度形状变换,同时保留背景内容。
  • 一种基于轨迹的分阶段注入策略,通过在整个去噪过程中自适应调整引导机制,提升编辑稳定性。
  • 一个新的基准测试集 ReShapeBench,专为系统性评估形状感知图像编辑方法而设计。

总结速览

解决的问题

  1. 大尺度形状变换的精准编辑:现有基于扩散和流模型的图像编辑方法在复杂、大尺度形状变换(如物体结构修改)时效果不佳,难以实现预期形状改变或容易误改非目标区域。
  2. 背景保留不足:编辑过程中可能破坏背景内容,导致整体图像质量下降。
  3. 区域控制策略的局限性:现有方法依赖外部二值掩码(过于刚性)或交叉注意力图(噪声大、不稳定),缺乏动态定位可编辑区域的能力。

提出的方案

  1. Follow-Your-Shape框架:无需训练和掩码,通过分析模型在源目标条件间的行为差异,动态定位可编辑区域。
    • 核心创新:轨迹差异图(Trajectory Divergence Map, TDM),通过对比去噪路径中源和目标提示的token速度差,精准定位需编辑的区域。
    • 时序控制:提出分阶段KV注入机制(Scheduled KV Injection),早期无条件注入以稳定潜在结构,后期TDM引导编辑以确保精准性和稳定性。

应用的技术

  1. TDM生成:基于扩散模型的token-wise速度场差异计算,动态识别可编辑区域。
  2. KV注入优化:结合无条件注入(早期阶段)和TDM引导注入(后期阶段),平衡编辑自由度与背景保留。
  3. 新评测基准ReShapeBench:包含120张图像和针对性提示对,专门评估大尺度形状编辑任务。

达到的效果

  1. 编辑精准性:成功实现大尺度形状替换(如物体结构修改),同时严格保留非目标内容。
  2. 指标领先
    • 背景保留:PSNR 35.79,LPIPS 8.23。
    • 文本对齐:CLIP-Sim 33.71。
    • 美学质量:LAION美学评分6.57(最优)。
  3. 鲁棒性:分阶段注入策略解决了早期TDM不稳定的问题,生成结果更忠实、视觉质量更高。

方法

本文的目标是实现精确的物体形状感知编辑,同时严格保留背景。受现有区域控制策略的局限性和对更自适应机制的需求启发,本文提出了轨迹差异图(Trajectory Divergence Map, ,用于量化反转轨迹和编辑轨迹之间的token级语义偏差,如下图2所示。Follow-Your-Shape的整体流程如图3所示。

图片

动机

有效的图像编辑需要在引入新内容和保留原始结构之间取得精确平衡。如上图2所示,传统的结构保留编辑方法通常会产生不稳定的去噪轨迹,这些轨迹显著偏离稳定的重建路径,导致严重的结构退化和不希望的伪影。此外,先前用于定位编辑的方法存在明显缺陷:

  • 二值分割掩码:依赖外部工具,引入额外开销并受掩码质量影响。其刚性边界阻碍大尺度形状变化,并常产生伪影。
  • 交叉注意力掩码:从模型注意力中推断,这些图通常噪声大且不一致,尤其在显著形状变换时不可靠。
  • 无条件特征注入:通过全局注入源特征保留结构,但缺乏选择性会抑制有意编辑,导致可编辑性与一致性冲突。

为解决这些限制,从动态系统视角提出新方法。我们认为源和目标概念之间的语义差异可通过其去噪轨迹的差异度量。基于此,本文实现了一种精确且无需掩码的方法(如下图3所示),以稳定编辑轨迹并执行目标明确的形状感知修改,无需依赖外部掩码或刚性启发式规则。

图片

Follow-Your-Shape

本文的目标是通过选择性保留背景和非目标区域实现形状感知编辑。通过结合分阶段键值(KV)注入与结构引导的编辑流程实现,其中编辑由轨迹差异图(定位。

轨迹差异图

本文的方法基于潜在空间中流轨迹的视角,将流匹配框架的概念扩展到推理场景。如图2(上)所示,标准重建遵循由源提示引导的稳定去噪轨迹。在编辑任务中,目标提示的条件改变了速度场,导致去噪轨迹偏离初始路径。这种偏离的幅度在空间上定位了两提示间的语义差异:需修改区域表现出显著差异,而背景区域轨迹几乎一致。

形式化地,设为源图像反转的潜在序列,为编辑(去噪)过程中的对应序列。我们将时间步的token级轨迹差异图定义为两提示下预测速度向量的范数差:

图片

其中速度场在各自轨迹潜在变量处计算。为增强可解释性并准备时间聚合的映射,我们在每个时间步对所有空间token应用最小-最大归一化:

图片

如图2底部所示,该方法生成归一化的,将局部编辑强度量化为范围内的值。

分阶段KV注入与掩码生成

由于早期高噪声阶段的不稳定性,在所有时间步直接应用引导的注入是次优的。为此,本文提出分阶段注入策略,将个去噪步骤划分为三个不同阶段,根据潜在变量状态调整引导机制。

阶段1:初始轨迹稳定
在前个时间步,我们对所有空间token执行源反转路径的无条件注入。该操作强制全局重建目标(等价于设置编辑掩码),在潜在表示仍受噪声主导时稳定轨迹并防止语义漂移。

阶段2:引导注入
当潜在结构稳定后(之前的时间步),启用引导注入。为生成时间一致且空间连贯的编辑掩码,首先对公式(2)的归一化每步在编辑窗口内聚合,通过每个token的softmax加权时间融合实现:

图片

生成的映射通过与高斯核的卷积进一步细化,最终生成编辑掩码

图片

平滑后的注意力图通过阈值进行二值化,生成最终掩码。该二值掩码实现了键值()特征的选择性融合:

  • 对于掩码激活区域(),使用当前去噪步骤计算的目标特征();
  • 对于非激活区域(),注入反转过程中存储的源特征()。

该特征混合操作公式化为:

图片

对键特征执行类似操作,如算法1所示。

图片

阶段3:结构与语义一致性
本研究框架通过以下方式确保编辑一致性:

  1. 通过ControlNet提供显式结构引导
  2. 通过引导的特征注入实现语义保留(扩展了RF-Edit原理)

为强化几何约束,ControlNet将结构信息作为条件,通过向去噪模型的每个块注入残差流来实现。对于给定块的潜在表示,输出计算如下:

图片

其中控制引导强度。同时,本研究特征注入机制基于RF-Edit的背景保留方法,将标准自注意力替换为引导的变体。修改后的注意力输出使用公式(5)混合的键值对计算:

图片

通过使用软掩码  调节注入过程,我们实现了细粒度控制:在保留TDM识别的非目标区域的同时,允许对编辑区域进行显著的形状修改。ControlNet的几何约束与本研究TDM引导的语义保留之间的协同作用,实现了精确且高保真的编辑。

实验

实验设置

本文使用开源的图像生成模型FLUX.1-[dev]作为基础,并在PyTorch框架下使用NVIDIA A100 GPU(40GB显存)进行所有实验。超参数设置如下:时间步为28,引导尺度为2.0,为2。还应用了多ControlNet条件,使用深度图和Canny边缘图,注入时间设置为归一化去噪区间[0.1, 0.7],强度分别为2.5和3.5。

ReShapeBench构建

局限性

尽管已有多个基准测试用于评估图像编辑方法,但它们对本研究用例存在一定局限性。例如,PIE-Bench是一个包含700张图像的著名提示驱动编辑基准测试,但其存在两个关键缺陷:首先,其简洁的提示缺乏对细粒度、形状感知编辑所需的细节;其次,其广泛的范围(涵盖对象替换、风格化和背景变化)使其对形状变换能力的评估不够聚焦。为解决这些问题,我们提出了ReShapeBench。

图像收集

ReShapeBench包含120张新收集的图像,分为两个主要子集和一个评估集。第一个子集包含70张来自网络资源的图像,每张图像均以单一突出对象为主,边界清晰,适合精确的形状编辑。第二个子集包含50张多对象图像,用于测试模型在无掩码情况下的目标编辑能力。最后,通过从前两个子集中精选部分图像并加入PIE-Bench的高质量示例,构建了一个包含50张图像的通用评估集,用于评估模型在多样化形状编辑场景中的泛化能力。所有图像均标准化为512×512分辨率。

精细化文本提示

为解决现有基准测试中提示过于简单的问题,ReShapeBench中的每张图像均配有详细的源提示和目标提示。两种提示均遵循统一的四句结构:第一句为总体概述,第二句描述前景对象,第三句描述背景,第四句描述整体场景。在创建编辑提示时,仅修改相关属性(如对象身份或特征)。这些提示通过人工精心设计,用于指定显著的形状变换(如轮廓或比例变化),从而导致与源对象的空间对齐度较低。这种细节水平实现了精确的无掩码对象识别。所有提示最初由Qwen-2.5-VL生成,随后经过人工验证以确保准确性和上下文一致性。更多细节详见补充材料。

与基线方法的比较

定性比较

本文将Follow-Your-Shape与两类图像编辑方法进行比较:基于扩散的方法和基于流的方法。基于扩散的基线方法包括PnPInversion、MasaCtrl和Dit4Edit,它们通过在整个扩散过程中调制注意力机制和条件来执行编辑。基于流的基线方法包括RF-Edit、FlowEdit、KV-Edit和FluxKontext,这些方法均基于Rectified Flow框架实现可控生成。其中,FluxKontext是一种新提出的模型,利用上下文令牌拼接技术,具备强大的上下文编辑能力。

下图4展示了定性结果,表明本文的方法在形状感知编辑能力和背景保留方面优于这些基线方法。基于扩散的方法通常在结构编辑下难以保留背景(例如MasaCtrl和Dit4Edit对"狮子形状的拉顿"的处理),有时无法完成大幅度的形状变换(例如PnPInversion对"汽车腾空"的处理)。而基于流的方法虽然能生成更高质量的图像并更好地保留背景,但仍存在细节抖动(例如Flux-Kontext对"汽车腾空"的处理、KV-Edit对"狮子形状的拉顿"的处理)、重影伪影(例如KV-Edit对"蜻蜓"的处理)以及在挑战性案例中无法完成大规模形状变换的问题(例如所有基线方法对"帽子"的处理)。相比之下,Follow-Your-Shape能够出色地完成大规模形状变换,同时忠实保留非目标区域。

图片

定量比较

按照相同的分类,在ReShapeBench上进行了定量比较,以评估本文的方法相对于基于扩散和基于流的基线方法的有效性。为确保公平性,我们使用相同的源提示和目标提示,并在所有方法中应用相同的去噪时间步数。具体而言,由于遵循RF-Solver的实现并使用其二阶求解器,对于未采用二阶方案的方法,将其时间步数加倍以确保相同的NFE(函数评估次数)。如下表1所示,选择PNSR和LPIPS来评估背景一致性,使用LAION审美预测器计算的美学分数评估图像质量,并使用CLIP评估文本对齐性。结果表明,本文的模型在所有指标上均优于基线模型。所提出的区域控制编辑策略在形状感知编辑任务中表现更好,而设计的编辑掩码能够很好地保留背景。

图片

消融研究

消融研究以评估编辑框架中的两个关键组件:初始轨迹稳定步骤以及ControlNet条件化的时机和强度。

初始轨迹稳定的有效性

为了评估初始轨迹稳定的作用,将稳定步数从0变化到4。如下图5所示,较小的会导致明显的漂移和与源图像的结构偏差,而较大的会过度限制预期的形状变换。为确保定量比较的受控性,我们禁用了ControlNet模块以隔离的影响。下表2显示,随着的增加,背景保留效果改善,但CLIP相似性持续下降,这表明轨迹稳定会降低编辑灵活性。将设置为2能够在保留布局结构和允许灵活编辑之间取得最佳平衡。

图片
图片

ControlNet条件化时机和强度的有效性

为了探索ControlNet条件化时机的影响,在归一化去噪范围[0, 1]内调整注入区间。下图6(a)显示,在相对早期阶段注入条件效果最佳,因为此时潜在特征噪声较少且更容易接受结构引导。我们还调整了Canny和深度引导的条件强度。如图6(b)所示,中等强度(例如(2.5, 3.5))能够在结构保留和可编辑性之间取得最佳平衡,而过弱或过强的信号会导致约束不足或过度约束的输出。

图片

结论

本文提出了Follow-Your-Shape框架,通过一种新颖的基于轨迹的区域控制机制实现大规模对象形状变换。本文的方法利用轨迹分歧图(TDM)动态定位修改区域,结合计划注入策略,实现了精确的无掩码编辑,同时保持背景完整性。为系统评估这一任务,开发了ReShapeBench,这是一个专为复杂形状感知编辑设计的新基准测试。据我们所知,Follow-Your-Shape是首个系统解决提示驱动形状编辑的工作。大量定性和定量实验验证了其在所提基准测试上的领先性能。本研究工作为可控生成开辟了新的研究方向。

参考文献

[1] Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

跨境电商神器,一分钟出片!这个AI数字人工具让视频创作“卷”出新高度!

视频这件事,在AI加持下,真的可以从"重成本"变为"轻操作"。 在短视频创作越来越"卷"、内容更新越来越频繁的时代,一款能让你"5分钟无剪辑,自动配音口型同步,还能说70种语言"的工具,是不是听着...