如您有工作需要分享,欢迎联系:aigc_to_future
作者:Yiming Gong等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2508.06033
Git链接:https://github.com/Supercomputing-System-AI-Lab/InstantEdit
亮点直击
少步高效编辑:首次在RectifiedFlow框架下实现8步高质量图像编辑,速度接近实时交互需求。 创新反转与生成技术:提出PerRFI和ILI,解决少步扩散模型的反转不准确和生成不一致问题。 解耦与结构控制:通过DPG和ControlNet的联合应用,实现编辑区域的精准定位与全局结构保持,显著提升可控性。
总结速览
解决的问题
计算成本高:传统文本引导图像编辑方法(如基于扩散模型)需要大量计算步骤,难以实现实时交互。 少步数下的挑战:现有少步扩散模型(如1-8步)在图像编辑中存在反转轨迹不准确、编辑性不足的问题,导致生成质量下降或编辑效果不理想。 细节与编辑性的平衡:在快速编辑中难以同时保持原始图像的关键内容细节和文本指令的精准遵循。
提出的方案
InstantEdit框架:基于RectifiedFlow的少步(8步)文本引导图像编辑方法,通过改进反转和生成过程实现高效编辑。 PerRFI(分段校正流反转):专为RectifiedFlow设计的反转策略,利用线性轨迹降低少步反转误差。 反转隐空间注入(ILI):在生成阶段复用反转阶段的隐空间信息,提升生成的一致性和细节保留。 解耦提示引导(DPG):通过正交分解平衡目标提示和源提示的条件,增强编辑可控性。 结构引导:集成Canny-conditioned ControlNet,通过边缘结构约束抑制伪影并保持布局一致性。
应用的技术
RectifiedFlow框架:利用其线性采样轨迹特性,减少反转和生成的累积误差。 隐空间操作:通过ILI在生成阶段注入反转隐空间变量,优化内容一致性。 条件控制技术:结合DPG的注意力掩码机制和ControlNet的结构引导,实现精准编辑。
达到的效果
高效性:仅需8步(NFE)即可完成编辑,速度显著快于传统方法。 高质量:在PIE数据集上,编辑结果在定性和定量评估中优于现有少步方法,部分结果媲美多步方法。 平衡性:通过DPG和ControlNet,在编辑性与细节保留间取得更好平衡,生成结果更符合文本指令且结构自然。
方法
问题定义
本文的模型输入包括一张真实图像、源文本提示条件以及目标文本条件。用户可以直接指定这些条件,或通过现有图像描述模型(例如BLIP)从输入图像中自动生成。输出是一张根据指示修改后的编辑图像。基于扩散模型的文本条件图像编辑通常包含两个关键步骤:图像反转和重新生成。
图像反转
图像反转有时表现为通过训练额外的编码器将输入图像映射到可编辑隐空间的形式,如[33]中的操作。与构建额外编码器不同,DDIM反转从开始,并连续执行以下步骤计算下一步的反转隐空间变量:
可以在右侧找到对的递归引用,常见的做法是假设。然而,这一假设有一个隐含条件:我们需要增加总步数以使每个采样步骤接近线性。如果关注编辑算法的运行速度,这可能不切实际。因此,在少步场景下,基于DDIM的反转容易导致较大的反转误差,如下图3所示。
另一种方法是DDPM噪声反转方法,通过在最后一步迭代地向隐空间变量添加噪声来替代反转过程。尽管简单,但无法保证推导出的隐空间变量落在最优编辑轨迹上,并且我们通过实验发现,这种方法显示出有限的编辑能力。
分段校正流反转(PerRFI)。受RectifiedFlow方法在拉直去噪轨迹方面最新成功的启发,提出使用最近发布的RectifiedFlow模型——PeRFlow来反转图像。PeRFlow将采样过程划分为多个时间窗口,并通过ReFlow操作在每个窗口内拉直轨迹,实现分段线性流。借用公式4的上下文,其中使用速度函数执行去噪过程,反转过程仅由以下公式驱动:
其中,表示在条件下时间步的反转隐空间变量。由于PeRFlow的噪声轨迹是直线,这种反转具有相对较小的近似误差。因此,与DDIM反转相比,它在重建和编辑中展现出更好的图像质量,如下图4所示。需要注意的是,我们的反转方法并不局限于PeRFlow,可以轻松应用于其他RectifiedFlow方法。
重新生成
仅靠PerRFI无法产生最令人满意的结果。为了进一步减小反转误差的影响,同时实现更好的可编辑性,我们在两个方向上创新了重新生成流程:采样策略和引导方法,我们将其命名为反转隐空间注入(ILI) 和 解耦提示引导(DPG)。
反转隐空间注入(ILI)。最简单的重新生成可以通过公式4中描述的从初始反转隐空间变量(不必为1)一直到干净图像空间的去噪过程来执行,但将文本条件从替换为:
此过程除了外未利用任何中间反转隐空间变量,因此我们将其命名为无隐空间注入(NLI)。这种方法最终生成的结果可能与输入图像差异显著,因为在反转步骤中可能累积误差,导致偏离理想轨迹。
另一方面,DDPM噪声反转将预定的DDPM噪声注入潜在图像,并将其用作无条件中间隐空间变量,因此我们称这种方法为噪声隐空间注入(NSLI)。然而,预定的非确定性DDPM噪声会导致图像隐空间变量偏离其常规ODE轨迹,引入不连贯的修改,使其难以与目标提示精确对齐。
为解决上述问题,我们提出了重新生成流程——反转隐空间注入(ILI)。在进行反转时,我们将存储PerRFI生成的所有中间反转隐空间变量,并重新利用它们来校准每个重新生成步骤:
其中,表示给定条件下的一步去噪隐空间变量。其直觉是,较早时间步(接近干净图像)的反转隐空间变量在反转过程中积累的误差较少,即比更准确。每次计算一步去噪时,我们通过锚定存储的隐空间变量来防止误差累积。
解耦提示引导(DPG)。需要注意的是,公式8的后半部分可以进一步展开为:
其中第一项跨提示项捕捉了新提示和原始提示下生成轨迹预测的差异。第二项是相同提示下新轨迹与原始轨迹预测的差异。TurboEdit发现,缩放跨提示项能有效引导至目标提示,将其称为伪引导(PG)。
在对TurboEdit进行实验后,我们观察到缩放跨提示项可能导致生成图像出现不期望的变化(见下图7)。我们推测这一问题主要源于伪引导的使用。值得注意的是,跨提示公式中的受影响,而该潜在状态强烈依赖于目标提示。因此,在目标提示主导的隐空间中,源提示难以提供准确的引导。
为解决这一问题,本文提出增强目标提示与源提示引导信号之间的解耦,以减轻源提示不准确引导的影响。首先,我们将生成设置下的伪引导重新表述为:
其中为缩放因子。为了获得更好的解耦效果,对目标信号中与源信号正交的分量进行缩放,并将该方法称为解耦提示引导(DPG):
其中定义为:
其中表示点积运算;表示向量的范数;为缩放因子。直观上,这种方法使重新生成过程能够过滤源提示不准确引导带来的干扰,在保持PG调度高编辑性的同时改善背景保留效果。
还可以选择基于原始提示和目标提示的注意力掩码机制来进一步解耦目标提示和源提示的影响。通过比较源提示和目标提示的差异,可以识别出需要编辑的单词。在时间步,我们通过以下公式获取掩码:
其中是通过平均交叉注意力图(遵循[4]的设置)得到的二值掩码,阈值参数为。值高于阈值的部分将被赋值为1,否则为0,从而屏蔽我们不希望编辑的区域。带掩码的DPG最终公式为:
ControlNet引导编辑
为更好地保留背景并最小化结构信息损失,我们开发了一种即插即用方法,将主干网络替换为Canny边缘条件ControlNet。Canny边缘可以快速提取,仅带来边际计算开销。通过插入边缘信息,我们发现图像反转精度得到提升,从而减少结构信息损失。该方法的另一优势是用户可通过调整ControlNet条件缩放因子(现有ControlNet流程普遍支持)灵活控制结构刚性。
实验
评估方法
实现 本文基于Diffusers构建的模型流程实现InstantEdit,使用从Stable Diffusion 1.5(SD1.5)蒸馏的PeRFlow作为主干。需注意,一致性指标(结构、一致性)与可编辑性指标(对齐度)存在权衡关系。本方法中控制该权衡的关键参数为ControlNet条件缩放因子和DPG缩放因子,具体超参数选择过程详见补充材料。
基准测试 采用PIE Bench基准,涵盖9类编辑任务:物体替换、添加物体、删除物体、内容修改、姿态调整、颜色变更、材质替换、背景更改及风格迁移。
评估指标 遵循Ju等的设置:
结构保留:使用结构距离量化结构变化程度(忽略外观信息)。 一致性:在编辑掩码外的区域计算均方误差(MSE)、峰值信噪比(PSNR)、结构相似性指数(SSIM)和感知图像块相似度(LPIPS),评估未编辑区域的整体一致性。 图像-提示对齐:通过CLIPScore计算目标提示与1)整图;2)掩码标注编辑区域的相似度,反映模型编辑能力。 效率:记录单图处理的墙钟时间及函数评估次数(NFE,即单图编辑时模型前向传播总次数)。另包含采样步数(Step),因部分文献[4,9]采用此表述。
主要结果
将InstantEdit与以下少步编辑基线方法进行比较:
ReNoise InfEdit TurboEdit
同时包含多步编辑方法:
编辑友好型DDPM反转(EF); 近端引导(ProxG); Prompt-to-Prompt+空文本反转(P2P) ; 直接反转(DI)。
此外,测试了InfEdit在默认12步设置下的表现,并同步运行12步的InstantEdit以展示多步场景性能。
定量结果 如表1所示,尽管因反转过程耗时较长,本方法较InfEdit和TurboEdit略有时间开销,但在少步和多步场景下几乎所有指标均超越其他基线。观察到:当生成步数增加时,InstantEdit和InfEdit的一致性与结构分数显著提升,而对齐指标保持少步设置水平。
定性结果 图5展示了InstantEdit与其他方法的编辑效果对比。虽然所有方法均展现一定编辑能力,但InstantEdit在编辑提示对齐和原图编辑区域一致性上表现更优。例如,对于狗的图片,InstantEdit在保留背景区域信息的同时生成最佳编辑结果,而TurboEdit和InfEdit未能生成合理的狗,ReNoise则丢失了椅子结构。
用户研究 针对15张PIE Bench随机样本,邀请37名用户从TurboEdit、InfEdit、ReNoise和InstantEdit中基于以下标准选择最佳结果:
可编辑性 一致性 视觉质量
共收集545份有效反馈(表2)。总体而言,InstantEdit和TurboEdit更受青睐,其中InstantEdit被选频率最高。需注意,用户研究与定量结果存在部分不一致:InfEdit虽定量指标优于TurboEdit,但用户偏好较低。经检验发现,InfEdit易产生微小伪影和畸变(这些在指标计算中被忽略,但易被人类感知)。详见补充材料中的样本与分析。
消融实验
本文通过以下方式研究InstantEdit各组件对编辑结果的贡献:
横向对比:分别比较PerRFI、ILI和DPG的替代方法; 内部对比:分析Canny-conditioned ControlNet的影响(ControlNet缩放因子和注意力掩码阈值的超参数消融详见补充材料)。
PerRFI vs. DDIM反转
比较PerRFI与基于SDXL-Turbo的DDIM反转的图像重建性能(下表3定量结果,图4定性对比)。为确保公平,其他技术保持一致。需注意,本实验的CLIPScore评估生成图像与原始提示(非编辑用目标提示)的对齐度。
ILI vs. NSLI
将本文的再生方法ILI与主流替代方案NSLI对比。NSLI使用DDPM噪声反转的加噪隐空间变量,而ILI利用PerRFI的中间反转隐空间变量。通过将ILI无缝替换为NSLI(下表4"再生"部分及下图6),结果显示本文的方法在一致性指标(尤其是提示-图像对齐)上表现更优。
DPG vs. PG
伪引导(PG):缩放跨提示分量; 解耦提示引导(DPG):缩放目标与源引导信号的正交分量,通过解耦过滤源提示的不准确信号,并可结合注意力掩码机制增强解耦效果。
将PG嵌入本文的流程替代DPG后(下图7及上表4"引导"部分),定性与定量结果均表明DPG在保持编辑性的同时实现了更好的结构一致性。下图8展示了注意力掩码的定性效果(其他基线的扩展分析见补充材料)。
Canny-conditioned ControlNet
从最终配置中移除ControlNet,分析其对一致性-可编辑性权衡的影响(上表4"ControlNet"部分)。添加ControlNet后,两者平衡性显著改善。下图9可视化显示:ControlNet能有效防止反转与生成过程中的结构信息丢失,避免非预期的结构畸变。
结论
InstantEdit,一种基于RectifiedFlow模型的快速精准文本引导图像编辑方法。通过改进少步扩散过程中的反转精度,并结合反转隐空间注入(ILI) 和 解耦提示引导(DPG) 等新技术,显著提升了图像一致性与模型可编辑性。进一步采用Canny-conditioned ControlNet更好地保留编辑图像的结构信息。InstantEdit在保持高速编辑的同时,实现了优于现有方法的图像编辑质量。
然而,InstantEdit仍存在以下局限性:
受反转方法影响,相比InfEdit和TurboEdit仍存在较小时间开销; 目前仅支持适度编辑,对于大幅结构变更(如姿态调整)仍面临挑战(但仅依赖文本引导完成此类任务本身极具难度)。现有工作如MasaCtrl和InfEdit需复杂注意力操控和多步编辑才能实现轻微结构调整,而另一类方法需额外引导信号(如拖拽点/区域)。
未来计划结合这些方向,实现更灵活高效的文本引导图像编辑。
参考文献
[1] InstantEdit: Text-Guided Few-Step Image Editing with Piecewise Rectified Flow
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论