如您有工作需要分享,欢迎联系:aigc_to_future
作者:Jinqi Luo等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2504.02828
项目链接:https://peterljq.github.io/project/colan
Git链接:https://github.com/peterljq/Concept-Lancet
亮点直击
提出CoLan框架 一个零样本即插即用的框架,用于在基于扩散的图像编辑中解释和操作稀疏概念表示。该框架可以精确控制概念移植的幅度,实现高质量的图像编辑。 构建CoLan-150K概念词典 收集了包含多样化视觉概念的CoLan-150K数据集,并计算对应的概念向量词典(文本嵌入或评分空间),为后续概念分解与编辑提供基础。 基于概念分解的编辑方法 在推理阶段,将源图像的隐空间向量分解为视觉概念的线性组合,并利用视觉语言模型(VLM)优化过完备词典的效率问题。通过替换、添加或删除概念向量,实现灵活的图像编辑。 SOTA性能与即插即用优势 CoLan在多种扩散基图像编辑任务上实现了最先进的性能!
总结速览
解决的问题
现有的图像编辑方法在设计编辑方向时面临挑战:高估编辑强度会损害视觉一致性,而低估则无法完成编辑任务。每个源图像可能需要不同的编辑强度,而通过反复试验寻找合适的强度代价高昂。
提出的方案
本文提出了Concept Lancet (CoLan),一个用于扩散基础图像编辑的零样本即插即用框架。CoLan通过在推理时将源输入在隐空间中分解为视觉概念的稀疏线性组合,以指导编辑任务(替换/添加/删除),并执行定制的概念移植过程来施加相应的编辑方向。
应用的技术
概念表示数据集:收集了一个名为CoLan-150K的概念表示数据集,包含多种视觉概念的描述,并计算出一个概念向量词典到隐空间。 隐空间分解:在推理时,将源隐空间向量分解为视觉概念的线性组合,以指导编辑。 视觉语言模型(VLM):使用VLM将图像提示对解析为代表性视觉概念列表,以提高词典优化效率。 骨干网络合成:使用骨干网络合成编辑后的图像,灵活地处理替换、添加或删除概念的任务。
达到的效果
配备CoLan的图像编辑方法在多种基于扩散的图像编辑基准上表现优越,达到了最先进的编辑效果和一致性保持。该方法的即插即用设计提供了骨干网络和隐空间选择上的灵活性。
Concept Lancet
在上述背景下,提出一种基于扩散的图像编辑中准确表示操控的方法。高层次的想法是,我们将不再随意设定编辑的量,而是估计源图像中存在的概念是什么以及有多少,以指导编辑。这是通过在隐空间中收集概念向量字典,并将源隐空间向量分解为字典原子的线性组合来实现,以允许概念移植程序,我们将在下文中分别讨论这些程序。
概念字典合成
这里的主要目标是收集一组多样化的概念(以及隐空间中的相应概念向量),这些概念既在视觉上有意义又与图像编辑相关,使得源隐空间向量的分解能够捕获重要的视觉元素并允许潜在的修改以进行有效编辑。这自然归结为两个步骤:为刺激合成策划视觉概念和从刺激中提取概念向量。我们在下面描述我们的方法,并与文献中的替代方案进行比较。
策划视觉概念 构建特定领域的概念被广泛采用来评估和控制生成基础模型 [23, 24, 26, 29, 63, 64]。为了对给定概念的丰富语义进行建模,一种新兴的工作收集文本概念刺激(即一组示例、描述和场景)用于下游LLM或扩散编辑任务 [33, 40, 57, 72]。在将这些概念应用于图像编辑时有三个问题:
许多用于编辑LLM的概念 [33, 72],例如"诚实"或"困难",并不适合扩散模型中的图像编辑。现有的概念刺激通常是专门为LLM激活读取而设计的格式(例如,以第二人称代词开头)。 这些概念主要集中在单词描述符(例如"爱"、"友谊"),而不是有助于建模视觉空间的多词短语(例如"戴着太阳镜"或"由木头制成")。 现有的用于图像编辑的概念集合开放源代码的概念向量数量有限(例如,[40]中的少于20个,[32, 41]中的少于50个)。
为了解决这些问题,我们策划了一套与图像编辑任务相关的全面视觉概念。具体来说,对于每个编辑任务,包括源图像、源提示和编辑提示,我们使用VLM [37]解析图像提示元组并生成相关视觉概念列表。此步骤确保我们的概念既有视觉基础又与编辑相关。
然后,我们指导一个LLM [38]进行上下文内刺激合成演示,以生成每个概念的多样刺激,以捕获概念出现的各种上下文。说明在附录中展示。经过所有编辑任务的概念收集后,我们获得了5,078个概念和总计152,971个概念刺激,我们称之为CoLan-150K。下图4展示了我们数据集中概念刺激的样本。与现有的基于扩散的编辑概念表示集合相比,CoLan-150K代表了显著的扩展,为每个概念提供了更丰富和多样化的表示。通过对概念的各种观察进行采样,大量的刺激帮助准确估计出在上下文变化中具有鲁棒性的表示。
概念向量提取 给定每个概念的刺激,我们现在需要在隐空间中提取一个代表方向。设为一个概念(例如"戴着太阳镜"),为其对应的刺激。我们首先使用扩散模型的文本编码器将每个刺激映射到隐空间。为了从刺激嵌入集合中读取一个鲁棒的概念向量,我们从表示读取(RepRead)中的先前艺术中汲取灵感,并提出两个选项:算术平均(Avg)[33, 40, 52, 72]或主成分分析(PCA)[30, 33, 72]在嵌入向量集合上。Avg直接返回所有刺激嵌入的平均值,而PCA返回嵌入的第一主成分作为概念向量:
对于每个给定的源图像,特定的概念向量集合 将形成概念字典,该字典将在推理过程中用于分解分析(§3.2)。图4展示了概念及其相关刺激的样本。在实验中,我们使用平均值(Avg)作为表示读取阶段,因为它在计算上更为高效。
通过稀疏分解进行概念移植
现在已经获得了一个概念字典,接着描述如何沿字典分解图像的隐空间code并移植概念。
选择任务特定的概念 虽然我们的概念字典提供了视觉概念的全面集合,但并非所有概念都与特定的编辑任务相关。为了避免虚假的分解并提高方法的效率,VLM 解析源图像-提示对,并识别相关的任务相关概念,正如我们在 上文中所做的那样。然后将相应的概念向量组装成字典矩阵 ,其中 是隐空间的维度, 是字典中的概念数量。有关在特定隐空间(例如,CLIP 文本嵌入空间)中构建字典的更多细节,请参见附录。
概念分析 给定一个源隐空间向量 (来自文本编码器或评分函数),通过稀疏编码沿着 中的方向对其进行分解。也就是说,我们解决以下优化问题:
其中概念系数的解 和 是一个控制解稀疏性的正则化参数。在实践中,我们使用Elastic Net [66]实现稀疏求解器。这样的分解产生
其中 包含了每个概念向量用于组合的已解决系数,而 是未被 中的概念解释的残差。
概念移植 为了执行表示操作,通过用目标概念的列替换源概念向量的列来构建修改后的字典 。然后编辑后的隐空间表示被获得为 。这种移植方案保留了从源表示估计的组合系数,同时替换了相关的概念向量。它在保持源图像中其余概念的整体结构的同时强加了所需的概念。我们注意到这种概念替换方案可以推广到概念插入和移除。实际上,概念移除可以被视为将目标概念设为空概念;我们使用与上文中描述的相同程序来提取空概念的方向,刺激为空句子。另一方面,概念插入的情况更加微妙,因为没有明确的源概念可替换。因此,我们指示VLM理解源图像和目标提示,以建议一个适当的源概念作为目标概念的对应物。例如,如果任务是将概念[生锈的]添加到正常自行车的图像中,VLM将识别概念[正常]以进行概念字典和后续替换。
实验结果
定量评估
使用PIE-Bench对CoLan与当前方法进行标准化定量评估。其编辑任务基于广泛的图像来源集合(例如,TEdBench,TI2I基准),包括多种场景类型和编辑类别。
基线 比较两类基于概念转移方法的编辑骨干: (1) 注意力图的机械交换,包括P2P和MasaCtrl,以及(2)表示操作,使我们能够在InfEdit的扩散评分空间(S)和InfEdit及P2P-Zero的文本嵌入空间(E)中插入CoLan。我们涵盖多种逆转方法,如DDIM,直接逆转(DI),和虚拟逆转(VI)。进一步的实施细节可以在附录中找到。
指标 两个主要标准是一致性保留和编辑效果。一致性保留是一组指标,旨在评估在图像编辑过程中保留的语义信息量。我们报告结构距离(StruDist),PSNR,LPIPS,和SSIM。另一方面,编辑效果衡量编辑部分的正确性,它通过两个指标进行评估:目标图像指标计算编辑文本和编辑图像之间的CLIP相似度,而目标概念指标计算编辑文本和目标图像的编辑遮罩区域之间的CLIP相似度。
结果 下表1报告了我们的结果。所有配备CoLan的骨干都提高了编辑效果,这表明CoLan准确地编辑图像以达到所需的目标概念。此外,我们观察到配备CoLan的骨干在一致性保留方面表现更好。例如,在P2P-Zero骨干上,CoLan能够实现近50%更低的StruDist和LPIPS,以及约10%更高的PSNR和SSIM。虽然DI与P2P实现了最佳的StruDist,CoLan在StruDist上排名非常接近第二,并在所有其他一致性指标上总体上实现了更好的性能。我们认为StruDist计算两个图像的DINO-V2特征图之间的平均差异。因此,这个单一指标在很大程度上依赖于特定的变压器,全面检查四个指标是更公平的一致性评估方式。值得注意的是,InfEdit在评分空间中配备CoLan在多个指标上表现最为突出。
此外,下表2显示了使用InfEdit和P2P-Zero骨干的CLIP空间进行CoLan稀疏分解的平均时间。观察到,由于VLM帮助使字典简洁,分解仅占总编辑时间的一小部分。这表明CoLan在相对于扩散模型推理的总计算成本方面是高效且廉价的。此外,下表3比较了不同字典大小下CoLan的编辑性能。如预期,观察到较大的CoLan字典在捕捉源图像中现有概念的存在方面表现更好,从而导致更强的编辑性能。总体而言,定量实验表明,CoLan的概念移植过程受益于存在于CLIP空间和扩散评分空间中的适当准确且稀疏的概念表示,以获得更好的图像编辑性能。
定性观察
本节提供编辑图像的定性结果。比较了使用给定骨干编辑的图像与补充了CoLan的图像之间的视觉质量。
视觉比较
每个目标图像可以分为两个部分:i) 感兴趣区域,对应于源概念,应该进行编辑以表达目标概念;ii) 背景,其内容在编辑过程中应保持不变。在这里,定性分析使用CoLan进行图像编辑时的这两个方面。
理想情况下,提供的编辑应准确反映在感兴趣区域。观察到仅使用骨干进行编辑通常会导致过度或不足的编辑。例如,在从[spaceship]修改为[eagle]的任务中(如图7,说明:"穿着裙子站在[spaceship]前面的女人"),仅使用InfEdit骨干得到的编辑图像中,感兴趣区域仅类似于模糊的鸟,而插入CoLan后明显可见鹰。此外,在下图5中,例子说明为"一只[meerkat]幼崽包裹在蓝色毛巾中。"在源图像中,蓝色毛巾包裹着狐獴。仅使用P2P-Zero骨干,输出图像中缺少毛巾,而插入CoLan后的输出图像中,蓝色毛巾几乎与源图像中的位置相同。
如所见,对于感兴趣区域和背景,编辑后的图像质量更高,当骨干方法与CoLan一起运行时。我们推测这是可能的,因为CoLan通过稀疏分解尊重概念向量的几何形状。通过识别正确的系数,我们的概念移植是精确的,并且不会显著影响非目标语义。
表示分解
方法的关键步骤之一是将隐空间表示(来自编辑骨干)线性分解为字典原子的稀疏组合。我们后续编辑任务的成功取决于找到一组合适的概念系数,这些系数能够准确反映源图像中的语义。这里我们验证CoLan确实找到了并分析了对给定图像可见贡献的代表性概念。
下图6和图8展示了CoLan在CLIP空间和分数空间中解决的概念系数的幅度直方图。在分数空间中的分解(图8),以左侧说明为"站在树枝上的彩色鸟"为例。CoLan找到了图像中的前三个概念,包括"鸟"、"喙"和"详细羽毛",这些都是与提供的图像中的鸟相关的概念。类似地,取图6中的第二个图像说明为"坐在栅栏上的橙色猫"。直方图中的顶级概念是关键语义,包括"猫"、"栅栏"和"橙色"。总体而言,在这两个空间中,CoLan能够找到描述性概念并解决系数以准确反映语义的组成。
CoLan-150K中的表示分析
本节研究从CoLan-150K数据集中不同概念刺激获得的概念向量。我们在下文中评估概念向量的基础和编辑图像中概念的变异性。
概念基础
当提取的概念向量在编辑骨干中有效地施加对应的视觉语义时,该向量就是有基础的。例如,如果我们使用表示读取[33, 40, 57, 72]将刺激转换为[green]概念向量,那么在图像编辑骨干中添加此向量时,希望看到颜色"绿色"。
通过以下方式验证我们的概念向量是有基础的。对于给定的概念[x],从CoLan-150K中提取其概念向量。然后通过在每个源图像的骨干中添加概念向量生成编辑后的图像。最后,评估CLIP(源图像, "x")和CLIP(编辑图像, "x")之间的差异。如果给定的概念向量确实是有基础的,希望看到该指标的增加。在表4中,我们对三个概念方向[watercolor]、[dog]、[wearing hat]进行采样,并将P2P-Zero与CoLan一起应用于PIE-Bench中的每个源图像。我们进一步根据四种图像类型:人工、自然、室内和室外划分结果。在所有图像类型和我们给定的概念中,我们观察到CLIP相似性显著增加,这意味着编辑后的图像确实朝向所需的概念方向,并且概念向量是有基础的。更多概念和可视化的结果可以在附录中找到。
比较编辑强度
如我们在上文中所述,适当的图像编辑需要根据给定源图像中概念的存在来准确估计编辑强度。沿着所需编辑方向[7, 10, 41, 47]可视化源图像的渐进变化,为估计编辑强度提供了见解。在这里,比较了来自CoLan-150K数据集的概念向量与系数网格的编辑效果。下图9和图10分别在两个场景中进行实验:概念移除和概念添加。
以图10的顶行为例。任务是将目标概念[绿色]添加到苹果的源图像中。CoLan解决了概念系数。与一系列编辑后的图像相比,我们观察到当时,编辑后的图像逐渐出现过度编辑和损坏,而当时,目标概念仍未充分编辑。更具体地说,观察到在时绿色颜色不可见,而在时可见。最终,在时顶部出现棕色斑块,而在时苹果变形为损坏的物体。同样,对于图9第二行的概念移除,我们的方法CoLan解决了概念系数。观察到当莲花的时,结果图像出现过度编辑,而当时未充分编辑。总而言之,结果表明,适当选择强度对于高质量图像编辑至关重要,而CoLan输出的解决方案在编辑有效性同时保留视觉一致性。
结论
本文提出了Concept Lancet (CoLan),一个用于扩散式图像编辑中原则性表示操作的零样本即插即用框架。通过利用一个大规模的概念表示精心策划的数据集 (CoLan-150K),为编辑任务提取了一个上下文词典,并在隐空间中执行稀疏分解以准确估计概念移植的幅度。与CoLan结合的图像编辑骨架在编辑任务中实现了最先进的性能,同时更好地保持了视觉一致性。通过多个视角的广泛定量和定性评估,展示了CoLan在解释和改善图像编辑过程中的强大能力。
参考文献
[1] Concept Lancet: Image Editing with Compositional Representation Transplant
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论