AI I024: 超越SOTA！华科×vivo发布PixelHacker：扩散模型+类别引导技术革新图像修复

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Ziyang Xu等

解读：AI生成未来

论文链接：https://arxiv.org/pdf/2504.20438
项目链接：https://hustvl.github.io/PixelHacker/

亮点直击
引入了一种简单而有效的图像修复范式——隐空间类别引导（LCG）。LCG首先基于"前景"和"背景"标签构建图像-mask对。训练中，LCG使用两个固定大小的embedding来编码隐空间前景和背景特征，这些特征通过线性注意力间歇性地注入到去噪过程中，从而生成具有结构和语义一致性的修复模型。
提出PixelHacker，一个基于扩散的图像修复模型，使用LCG在1400万图像-mask对上训练，在开源基准上微调,在结构和语义一致性方面表现出色，优于多种现有的SOTA方法。
PixelHacker在多个基准测试（Places2、CelebA-HQ和FFHQ）中持续优于现有SOTA方法。

总结速览

解决的问题

图像修复领域的最新方法在处理复杂结构（如纹理、形状、空间关系）和语义（如颜色一致性、对象修复和逻辑正确性）时存在困难，导致出现伪影和不当生成。

提出的方案

设计了一种简单而有效的修复范式，称为隐空间类别引导（LCG），并进一步提出了一个基于扩散的模型，名为PixelHacker。

应用的技术

构建包含1400万图像-mask对的大型数据集，标注前景和背景（分别可能有116和21个类别）。
使用两个固定大小的embedding分别编码隐空间的前景和背景表示。
通过线性注意力机制间歇性地将这些特征注入去噪过程。
在数据集上进行预训练，并在开源基准上微调模型。

达到的效果

PixelHacker在多个基准测试（Places2、CelebA-HQ和FFHQ）中表现出色，全面优于现有最先进的方法，在结构和语义一致性方面展示了显著优势。

方法

整体流程

PixelHacker的整体流程如下图2所示。首先，按照[21]的方法，PixelHacker将一个带噪声的图像、干净的mask和干净的被掩盖图像作为输入，进行拼接后输入到VAE的编码器中，将特征从像素空间转换到隐空间空间。接下来，LCG基于"前景"和"背景"标签（分别可能有116和21个类别）构建图像-mask对。然后使用两个固定大小的embedding分别编码隐空间的前景和背景特征。随后，在隐空间空间中，在下采样和上采样过程中应用线性注意力。通过将embedding注入线性注意力，实现了间歇性的结构和语义一致性交互。最后，将隐空间空间中的编码特征通过VAE的解码器以重建修复后的图像。

隐空间类别引导的构建

先前的研究表明，使用随机画笔mask训练的修复范式可以取得显著的性能[18, 21, 34]。然而，这种策略未能利用包含丰富语义信息的分割mask。另一方面，尽管我们在构建数据集时列举了116种前景类别和21种背景类别，类别数量的固定不可避免地限制了模型对新类别的泛化和扩展能力[6]。

为了结合随机mask和分割mask的优势，同时避免显式依赖于前景和背景mask中的精确类别标签，我们设计并构建了隐空间类别引导（LCG），仅将两个广泛类别——"前景"和"背景"——注入到条件扩散模型中。具体而言，我们将mask分为四种类型，如下图3所示，并将它们分配到前景或背景embedding中。

对象语义mask被分配到前景embedding中，如上图3(a)所示，其中长椅被掩盖。目标是使模型能够利用上下文背景信息重建与被掩盖区域语义一致的前景对象。场景语义mask被分配到背景embedding中，以增强模型重建背景语义的能力。与之前的工作类似[19, 21, 28, 30, 40]，也引入了随机画笔mask。然而，仅将其分配到背景embedding中，引导模型关注周围环境的结构信息。最后，为防止模型通过过于严格地绑定前景对象而对对象语义mask过拟合并忽视embedding条件，将随机对象mask分配到背景embedding中作为正则化约束。总体而言，对于前景mask ，直接采用对象语义mask，即。对于背景mask，从场景语义mask 开始，并进一步以概率和分别结合随机画笔mask 和随机对象mask ，如下所示：

通过这种mask分配策略，本文的模型在"前景"embedding条件下学习捕捉前景对象分布，在"背景"embedding条件下学习背景语义和上下文结构。在训练过程中，我们不显式提供类别标签作为文本提示来指导生成。相反，模型通过可学习的embedding权重学习前景语义、背景语义和上下文结构，最终使得两种类别的分布能够注入到一个单一的模型中。尽管采用了不同的训练范式，本文的方法仍然兼容其他LDM推理方案[21]。通过应用无分类器引导（CFG）[9]，我们可以有效地合并两种类别的学习embedding以生成一致的输出。

结构与语义一致性交互

如上图2所示，在去噪过程中执行LCGembedding与隐空间特征之间的多次交互。单次交互的详细过程如下图4所示，其中和分别代表输入和输出特征。术语、、、、和都参与计算门控线性注意力（GLA）[32]，其中表示标记的索引。首先使用GLA对归一化的进行自注意力计算以获得自解码特征。然后，按照标准的transformer块架构[8]，应用残差连接、归一化、交叉注意力和MLP以生成最终的输出特征。在这里，通过交叉注意力引入LCGembedding，使得自解码特征与embedding进行交叉解码。在流程中的多次交互中，自解码和交叉解码交替进行，一旦通过交叉解码首次引入embedding，所有后续解码步骤都结合LCG引导。

这里，详细说明使用GLA计算自解码特征的过程。将变量的线性投影权重和偏差分别记为和。首先，我们根据（其中是序列长度，是特征维度）计算查询（Q）、键（K）和值（V），如下所示：

这里，表示和的维度，而表示的维度。后续计算是逐标记进行的，是标记的索引。我们使用二维遗忘门矩阵来调节隐藏状态的更新，从而实现上下文交互。门矩阵计算如下：

其中，表示Sigmoid函数，是偏置项，是温度项。使用来更新隐藏状态，我们得到如下：

其中，表示元素级乘法，表示Swish激活函数 [20]，表示LayerNorm。在计算所有之后，我们得到最终的自解码特征。

实验

数据集和评估

本文的LCG训练数据集的构建。定义了116个前景类别和21个背景类别，并采用自动标注框架 [24]，通过整合AlphaCLIP和SAM ，在多个数据集中获取前景和背景的细粒度分割mask。具体来说，利用了以下数据集：COCONutLarge（36万张图像）、Object365V2 （202万张图像）、GoogleLandmarkV2（413万张图像），以及我们策划和收集的一个自然场景数据集（749万张图像）。总之，本文的数据集包含1400万张图像。按照前文描述的mask策略，构建了一个与LCG范式对齐的大规模训练数据集，包括430万对"前景"图像-mask对和970万对"背景"图像-mask对。

微调和评估。 最近的SOTA修复方法 [14, 22, 25, 40] 通常在一个或多个公共基准上进行评估，包括Places2 、CelebA-HQ和FFHQ。为了确保全面的比较，在Places2、CelebA-HQ和FFHQ上对PixelHacker进行微调，同时严格遵循以往工作的评估协议。对于Places2（一个自然场景数据集），遵循多种评估设置：（1）[40] 和[21] 采样1万张测试图像，将其中心裁剪至512×512分辨率，并在40-50%的mask区域下评估性能。（2） [14] 使用3.65万张验证图像，将其裁剪至512×512，并定义两种mask配置（小和大mask）进行评估。（3）[22] 将Places2验证集调整为256×256和512×512，应用高度随机化的mask策略进行评估。为了确保公平对比，严格遵循这些评估协议。对于CelebA-HQ（一个人脸数据集），遵循[14] 的方法，在512×512分辨率下进行评估。对于FFHQ（一个人脸数据集），采样1万张图像作为评估集，并遵循[25] 的mask策略，在256×256分辨率下进行比较。

实现细节

在我们1400万张图像的数据集上进行训练时，使用12块NVIDIA L40S GPU，批量大小为528，分辨率为512×512。和的概率均设置为0.5，模型训练20万次迭代。对于Places2的微调，我们使用Places2的180万训练集，并在12块NVIDIA L40S GPU上以批量大小528微调模型12万次迭代。对于CelebA-HQ的微调，我们遵循[14] 的训练集划分，并在8块NVIDIA L40S GPU上以批量大小352微调模型9万次迭代。对于FFHQ的微调，使用6万张图像作为训练集，1万张图像作为评估集。模型在12块NVIDIA L40S GPU上以批量大小528微调6万次迭代。在所有实验中，使用预训练的SDXL-VAE并冻结其参数。输入分辨率为512×512，学习率设置为，采用AdamW优化器，其betas为(0.9, 0.999)。

在Places2上的比较

严格遵循Places2上的三个评估设置，并与各种SOTA方法进行公平比较。下表1、下表2和下表3中的结果分别对应于前文中描述的评估设置（1）、（2）和（3）。特别地，LDM 指的是一个没有文本提示的微调隐空间扩散模型。SD表示SDv1.5-Inpainting，一个微调的Stable Diffusion模型，使用随机mask和图像标题进行修复任务。SDXL 代表SDXL-Inpainting，一个从SDXL-Base微调的隐空间文本到图像扩散模型，以实现mask引导的修复。

首先，如上表1所示，我们在Places2测试集上使用512分辨率和40-50%mask区域进行定量比较。MI-GAN [22] 和SDXL [19] 的结果是使用官方推理代码获得的，而其他模型的结果取自 [40]。本文的PixelHacker实现了最佳性能，FID为8.59，LPIPS为0.2026，超过了强大的SD和SDXL。值得注意的是，即使没有微调，PixelHacker的零样本版本也实现了最佳的LPIPS和第二好的FID，仅次于SDXL。这强烈证明了我们范式的显著潜力。

接下来，如上表2所示，我们在Places2验证集上进行定量比较，遵循[14]的大mask和小mask设置，使用512分辨率。本文的PixelHacker仅用1.8M张Places2图像进行微调，获得了最佳FID和U-IDS、第二好的LPIPS和第三好的P-IDS。值得注意的是：LaMa-Big获得最佳LPIPS，使用了4.5M张Places2图像进行训练。CoModGAN超过了PixelHacker的P-IDS，使用了完整的8M张Places2数据集进行训练。这两个模型使用的Places2训练图像显著多于PixelHacker，突出了我们范式的数据效率。

最后，如上表3所示，遵循[22]，在256和512分辨率下对Places2验证集进行定量比较。本文的PixelHacker在512分辨率下实现了SOTA性能，在256分辨率下获得了第二好的结果。值得注意的是，PixelHacker仅在512分辨率下进行训练和微调，SH-GAN 在256和512分辨率下进行训练，ZITS在256到512的多个分辨率之间进行了广泛的训练。尽管如此，PixelHacker仍然取得了竞争性结果，展示了其强大的泛化能力。

在Places2上展示了定性比较结果，如下图5所示。即使在覆盖几乎整个图像的mask下，PixelHacker生成的结果仍然表现出显著的结构和语义一致性。与LaMa和MI-GAN不同，它们产生了伪影和模糊的生成（例如，第一行），PixelHacker没有出现这些问题。在中等大小的mask下，即使在语义丰富和结构复杂的场景中，PixelHacker也始终保持结构一致性（例如，第二行和第三行）。

在CelebA-HQ和FFHQ上的比较

CelebA-HQ。 如下表4所示，遵循[14]，在CelebA-HQ上使用512分辨率进行定量比较。PixelHacker始终实现SOTA性能，展示了从自然场景到面部图像领域的强大泛化能力，采用本文的LCG范式。进一步提供了定性比较，如下图6所示。PixelHacker生成了清晰且结构良好的面部特征，没有明显的失真，保持了强大的语义一致性。此外，PixelHacker没有引入突兀或不相关的纹理，表明了优越的结构一致性。

FFHQ。 下表5展示了PixelHacker在FFHQ上的SOTA定量结果，尽管仅在512分辨率下进行训练，仍展示了其在较低分辨率下的显著泛化能力。下图7提供了定性比较，说明了PixelHacker比其他方法产生了更现实的结果，同时展现了对复杂场景层次结构和挑战性光照条件的强适应能力。

消融研究

LCG中各种mask的消融。 评估了前文中提出的mask构建策略的影响，如下表6所示。对于每个设置，我们公平地使用在本文的14M数据集上训练了90K次迭代的权重初始化模型，然后继续训练12K次迭代，最后在Places2验证集的3K图像子集上进行评估。结果表明，使用、、和能够获得最佳性能。

embedding维度的消融。 为了研究增加embedding维度（E.Dim）是否能显著提升性能，比较了20、64、256和1024的各种E.Dim值，如下表7所示。对于每个配置，公平地使用在本文的14M数据集上训练了200K次迭代的权重初始化模型，然后继续训练36K次迭代，在定制的10K图像上进行评估。结果表明，扩大E.Dim并不能显著提升性能。这表明较小的E.Dim足以表示隐空间的"前景"和"背景"特征。基于这些发现，我们采用E.Dim = 20作为默认设置。

引导尺度的消融。 与其他隐空间扩散模型类似，采用无分类器引导推理 [9]。在此，为了评估引导尺度对生成质量的影响，比较了从1.0（无引导）到4.0的多个尺度，如下表8所示。对于每个配置，使用在CelebA-HQ上微调21K次迭代的权重初始化模型，并在前文中使用的CelebA-HQ验证集上进行评估。结果证实2.0是最佳选择，我们采用其作为默认设置。

结论

本工作介绍了隐空间类别引导（LCG），一种简单但有效的修复范式，通过隐空间的前景和背景特征引导模型实现结构和语义一致性。然后，提出了PixelHacker，一种基于扩散的修复模型，使用LCG在1400万图像-mask对上进行训练，并在开源基准上进行微调。广泛的实验表明，PixelHacker在多个基准上始终实现了SOTA性能。

参考文献

[1] PixelHacker: Image Inpainting with Structural and Semantic Consistency

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年5月11日星期日

超越SOTA！华科×vivo发布PixelHacker：扩散模型+类别引导技术革新图像修复