AI I024: 南理工提出IMAGGarment - 1！细粒度高保真服装合成新方法！

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

转载自：数源AI

如有侵权，联系删稿

论文名：IMAGGarment-1:Fine-Grained Garment Generation for Controllable Fashion Design

论文链接：https://arxiv.org/pdf/2504.13176

开源代码：https://github.com/muzishen/IMAGGarment-1

导读

细粒度服装生成 (FGG) 的目标是在精确控制服装轮廓、配色方案、标志内容和空间布局的情况下合成高质量的服装。随着个性化时尚和数字服装市场的快速增长，细粒度可控性在时尚设计、品牌定制和个性化电子商务应用中变得越来越重要。

简介

本文提出了IMAGGarment - 1，这是一个细粒度服装生成 (FGG) 框架，能够在精确控制轮廓、颜色和标志位置的情况下进行高保真的服装合成。与现有的仅限于单条件输入的方法不同，IMAGGarment - 1解决了个性化时尚设计和数字服装应用中多条件可控性的挑战。具体来说，IMAGGarment - 1采用两阶段训练策略，分别对全局外观和局部细节进行建模，同时通过端到端推理实现统一且可控的生成。在第一阶段，我们提出了一个全局外观模型，该模型使用混合注意力模块和颜色适配器联合编码轮廓和颜色。在第二阶段，我们提出了一个带有自适应外观感知模块的局部增强模型，用于注入用户定义的标志和空间约束，实现精确放置和视觉一致性。为了支持这项任务，我们发布了GarmentBench，这是一个大规模数据集，包含超过个服装样本，并配有多层次的设计条件，包括草图、颜色参考、标志位置和文本提示。大量实验表明，我们的方法优于现有的基线方法，在结构稳定性、颜色保真度和局部可控性方面表现出色。

方法与模型

任务定义。给定一个服装轮廓、调色板、用户定义的标志、位置以及可选的文本描述，细粒度服装生成（FGG）旨在合成高保真的服装图像，同时对全局结构和局部视觉属性进行精确控制。关键挑战在于联合建模多条件输入，保持不同设计因素之间的语义和视觉一致性，并支持对标志和颜色区域等细粒度元素的可控放置。

图2：IMAGGarment - 1推理流程的可视化。全局外观模型根据文本提示、轮廓和颜色生成粗糙的潜在表示。然后，局部增强模型注入用户定义的标志和空间位置约束，生成细粒度的服装。

1. 总体框架

为了应对上述挑战，我们提出了IMAGGarment - 1，这是一个专为细粒度服装生成量身定制的条件扩散框架。我们的框架由两个组件组成：全局外观模型（阶段I）和局部增强模型（阶段II），它们在多条件引导下明确分离并联合控制全局外观和局部细节，从而能够准确合成服装轮廓、颜色和标志位置。如图2所示，全局外观模型首先根据文本提示、服装轮廓和调色板生成一个粗糙服装图像的潜在表示。随后，局部增强模型通过整合用户定义的标志和空间约束来细化这个潜在表示，生成具有细粒度可控性的最终高保真服装图像。具体而言，全局外观模型（3.2节）利用我们提出的混合注意力模块和颜色适配器，从文本描述、轮廓和颜色中有效捕捉全局外观特征，同时减轻这些条件之间的纠缠。局部增强模型（3.3节）引入了一个自适应外观感知模块（模块），该模块将标志内容和空间位置约束注入潜在空间，实现标志的精确放置。最后，3.4节总结了IMAGGarment - 1中使用的训练和推理策略。

2. 阶段I：全局外观模型

动机。现有的服装生成方法通常依赖单条件输入（如草图或文本），导致特征纠缠且可控性有限。为了解决这个问题，我们提出了一个全局外观模型，该模型明确分离轮廓、颜色和文本，实现精确的多条件控制。

图3：我们的IMAGGarment - 1框架概述。IMAGGarment - 1是一个用于细粒度服装生成的两阶段条件扩散框架。全局外观模型首先使用带有混合注意力的并行UNet和颜色适配器，从输入的文本提示、轮廓和调色板合成一个粗略的潜在表示。然后，局部增强模型通过所提出的模块注入用户定义的标志和位置约束，对这个潜在表示进行细化，从而实现标志的精确放置和高保真度的服装生成。

架构。如图3左侧所示，我们的全局外观模型包括两个共享的冻结VAE编码器、一个冻结的VAE解码器、一个可训练的轮廓UNet、一个冻结的文本编码器、一个可训练的颜色适配器以及一个采用我们提出的混合注意力机制的去噪UNet。具体来说，我们首先使用冻结的VAE编码器将输入的参考轮廓投影到潜在空间。随后，我们使用一个可训练的轮廓UNet（结构上与去噪UNet相同，但没有交叉注意力）来提取细粒度的轮廓特征，然后通过我们提出的混合注意力模块将这些特征集成到冻结的去噪UNet中。同时，从冻结的CLIP文本编码器获得的文本特征和由我们提出的颜色适配器提取的颜色特征通过交叉注意力进一步融合到去噪UNet中。经过多次去噪迭代后，模型生成与参考轮廓精确对齐并忠实反映用户指定颜色的粗糙服装图像。

混合注意力。为了在不损害原始去噪UNet生成能力的前提下，将参考轮廓特征有效融入去噪UNet，我们提出了一个混合注意力模块。如图3所示，我们将去噪UNet中的所有自注意力层扩展为所提出的混合注意力，该模块引入了两个额外的可学习投影层，以使轮廓特征与潜在特征对齐。形式上，混合注意力定义如下：

其中是一个控制轮廓调节强度的超参数。投影计算如下：

其中是线性投影层的固定参数，而分别是从和初始化的投影层新引入的可学习参数。我们的混合注意力促进了轮廓特征无缝融入去噪UNet，从而确保生成的服装与参考轮廓保持精确的空间对齐。

颜色适配器。精确的颜色控制对于生成具有细粒度视觉细节的服装至关重要，能显著提高视觉质量和真实感。然而，由于基础模型的文本提示无法可靠地生成预期颜色，生成的颜色与预期颜色之间往往会出现差异。为了解决这个问题，我们提出了一个专门的颜色适配器，将颜色明确视为一个独立的可控因素。具体来说，给定一个参考彩色图像，我们使用固定的CLIP图像编码器结合一个可训练的线性层来提取颜色特征。随后，这些颜色特征通过交叉注意力机制与从固定的CLIP文本编码器获得的文本特征一起融入去噪UNet：

其中，以及，。这里，表示去噪UNet中原始交叉注意力层的固定参数，而是新引入的可训练投影层。超参数调节适配器的影响，确保生成的颜色与用户指定的颜色精确对齐。

3. 第二阶段：局部增强模型

动机。现有方法通常忽略了详细的标志集成，或者将其视为一个单独的任务，导致空间对齐不佳和视觉不一致。为了解决这一局限性，我们提出了一个配备自适应外观感知模块的局部增强模型，将用户定义的标志和空间约束明确注入潜在空间。这种设计能够对局部服装细节进行精确、一致的控制，显著提高视觉保真度。

架构。如图3右侧所示，局部增强模型包括一个固定的VAE编码器和解码器、一个去噪UNet以及一个自适应外观感知模块模块）。模块通过沿空间或通道维度连接局部条件（如标志和空间约束）来融合它们，从而实现对细粒度视觉元素的精确控制。给定一件服装、一个标志和放置掩码，该模型在保持标志视觉保真度的同时，自适应地调整标志的大小和位置。为了减少冗余并专注于局部细节细化，由于全局外观模型已经对文本信息进行了编码，我们只优化去噪UNet的自注意力层，并舍弃所有交叉注意力层。

模块。为了将细粒度的标志细节精确地融入指定的服装区域，我们引入了自适应外观感知的模块。通过在特定维度上融合基于图像的条件，我们的模块能够实现精确且一致的标志融合。具体而言，给定一件粗糙的服装图像、一个标志图像和一个二进制放置掩码，我们首先使用一个冻结的变分自编码器（VAE）编码器对它们进行编码，以获得它们相应的潜在特征：和。掩码通过最近邻插值进行调整大小，以匹配潜在分辨率，得到。然后，我们将空间对齐的条件输入构建为：

其中表示逐元素相乘，Concat 表示沿宽度维度进行空间拼接。为了与对齐，调整大小后的掩码进行零填充以获得。接下来，我们将服装和标志特征拼接起来，形成一个干净的潜在表示：

并注入与扩散过程一致的噪声：

其中表示通过拼接服装和标志特征获得的干净潜在特征，是扩散时间步对应的含噪潜在特征，是噪声调度系数的累积乘积，是从中采样的高斯噪声。最后，通过沿通道维度拼接含噪潜在特征、填充后的掩码和对齐的条件输入来获得完整的模型输入：

这种按通道拼接的方式使模型能够联合推理外观、空间约束和引导信号，同时保持与用于空间感知标志合成的 UNet 架构的兼容性。

4. 训练与推理

训练。训练过程分为两个阶段，每个阶段针对一组特定的目标采用不同的优化策略。两个阶段都采用均方误差（MSE）损失来监督去噪过程。

阶段一。全局外观模型被训练用于在文本引导下合成与目标轮廓和颜色相符的服装。为了保留预训练去噪 UNet 的生成能力，我们冻结除轮廓 UNet 和混合注意力模块中的交叉注意力投影之外的所有参数。给定轮廓特征、文本嵌入和颜色特征，我们采用具有和损失的解耦训练策略：

其中是添加的噪声，是全局外观模型在时间步的预测结果。

阶段二。局部增强模型通过在用户定义的位置注入标志来细化粗糙的潜在特征。为了减少开销，我们仅微调标志 UNet 的自注意力层。给定标志特征、空间掩码和服装潜在特征，训练目标为：

其中表示来自局部增强模型的预测。推理。IMAGGarment - 1 通过在共享潜在空间中运行的两阶段管道支持端到端推理。全局外观模型首先根据输入的文本提示、轮廓、颜色和掩码生成粗粒度服装图像的潜在表示。这一过程由无分类器引导（CFG）[18]指导：

这里，是 CFG 缩放因子，表示时间步时的噪声潜在表示。然后，粗粒度潜在表示由局部增强模型进行细化，该模型通过模块融入用户定义的标志和空间约束。我们应用条件 CFG：

实验与结果

1. 数据集和指标

数据集构建。如图 4 (a) 所示，我们构建并发布了 GarmentBench，这是一个用于细粒度服装生成的大规模数据集，包含文本、草图、颜色、标志和位置掩码等多模态设计条件。它作为一个可控且可扩展的基准，用于推动个性化时尚生成。构建过程如下：

(1) 图像收集和预处理。我们从互联网上收集了超过张高质量的服装图像，涵盖上衣、下装和连衣裙等广泛类别。为了消除背景干扰并专注于服装区域，我们使用 YOLOv8 [20] 进行服装检测，并进行紧密裁剪，以获得干净的以服装为中心的图像，用于进一步处理。

(b) GarmentBench 数据集的样本

图 4：(a) GarmentBench 的数据构建管道。(b) 具有多模态注释的示例样本：轮廓、标志、文本、标志位置和颜色。

(2) 文本、草图和颜色提取。对于每张图像，我们自动生成三个辅助条件来模拟现实世界的设计指导：由多模态大语言模型 Qwen - VL - Chat [1] 生成的文本描述，涵盖颜色、轮廓和风格等关键属性；使用 Informative - Drawings [2] 获得的结构草图，提供形状和布局先验；以及从通过 ResNet50 [14] 识别的单色服装中提取并使用 K - means [30] 进行聚类的调色板。

(3) 标志提取和位置注释。为了支持标志插入和空间控制，我们进一步提取标志和印花等局部设计元素。我们使用 YOLOv8 检测视觉上不同的区域（例如动漫角色、动物图案），然后进行手动验证以确保标签质量。我们还注释空间位置并生成二进制掩码，作为精确的空间约束。总的来说，GarmentBench 包含 189,966 个具有丰富细粒度注释的服装 - 条件对。

如图 4 (b) 所示，我们展示了 GarmentBench 数据集的代表性样本，其中包括与文本描述、结构轮廓、颜色参考、标志和空间位置掩码等多模态条件配对的细粒度服装图像。此外，我们从 Fashion - ControlNet - Dataset - V3 中随机采样图像，并应用与 GarmentBench 相同的预处理管道，构建一个包含 1,267 个图像 - 条件对的测试集，用于评估和比较分析。

评估指标。我们采用五个指标来全面评估视觉质量、条件一致性和细粒度可控性。弗雷歇初始距离（FID）[16]衡量生成图像和真实图像之间的分布相似性，反映整体真实感。学习感知图像块相似度（LPIPS）[46]反映人类感知的视觉相似性，有效捕捉结构和纹理一致性。颜色结构相似度（CSS）[43]评估颜色分布的一致性，衡量颜色可控性。标志位置准确性（LLA）[11]量化生成的标志位置与目标标志位置之间的空间偏差，反映空间精度。最后，CLIPScore [15]衡量生成图像与输入文本提示之间的语义对齐。这些指标全面评估细粒度服装生成中的质量、可控性和语义对齐。计算细节见补充材料。

2. 实现细节

在我们的实验中，轮廓U-Net和去噪U-Net均使用预训练的Stable Diffusion v1.5模型进行初始化。局部增强模型基于Stable Diffusion v 的图像修复变体，仅对自注意力层进行微调以降低计算成本。我们采用OpenCLIP ViT- 作为CLIP图像编码器。所有输入图像均调整为分辨率。我们使用AdamW优化器 [28]，恒定学习率为。全局外观模型和局部增强模型分别训练和步，批量大小为20。在推理过程中，我们采用DDIM采样器 [37]，采样步数为50。除非另有说明，公式1和公式3中的轮廓权重和颜色权重分别设置为0.6和1.0。公式10和公式11中的无分类器引导（CFG）尺度设置为默认值7.0。

3. 基线对比

由于缺乏针对多条件控制的细粒度服装生成的先前工作，我们将我们的方法与四个具有代表性的基线进行比较：BLIP-Diffusion [23]、Any-Door [7]、ControlNet [45] 和IP-Adapter [42]。对于主题驱动的生成方法，BLIP-Diffusion [23] 利用可学习的Q-Former在潜在空间中对齐文本和视觉嵌入，最初是为从文本-图像对中进行主题保留生成而设计的。AnyDoor [7] 结合身份和细节编码器来重建个性化内容，我们将其应用于服装外观和标志输入的条件。对于基于插件的基线，我们通过复制和修改ControlNet [45] 和IP-Adapter [42] 的条件分支来扩展它们，以支持多条件输入，如轮廓、颜色和标志。改编后的版本分别称为ControlNet-Garment和IP-Adapter-Garment。为确保与任务相关，所有方法都在我们的Gar-mentBench数据集上进行微调，以支持特定标志的条件。所有方法都在相同的训练协议、输入分辨率和硬件设置下进行训练和评估。相应的定量和定性结果分别在表1和图5中展示，下面将进行详细分析。

定量结果。如表1所示，IMAGGarment-1在Gar-mentBench数据集的所有五项指标上均取得了最佳性能，证明了其在可控细粒度服装生成方面的优越性。与依赖全局特征进行个性化重建的主题驱动方法（BLIP-Diffusion [23]、AnyDoor [7]）相比，IMAGGarment-1在FID、LPIPS和CSS方面有显著改进。这些提升凸显了我们的混合注意力和颜色适配器模块在实现连贯的多条件融合方面的有效性，从而产生更逼真、感知上一致且颜色忠实的输出。与简单堆叠独立条件分支的基于插件的方法（ControlNet-Garment [45]、IP-Adapter-Garment [42]）相比，IMAGGarment-1产生了显著更高的LLA和CLIPScore，反映出更精确的标志放置和更强的语义-文本对齐。我们提出的模块推动了这些改进，该模块将空间先验和标志特征自适应地注入潜在空间以实现精确的局部控制。总体而言，这些结果表明仅全局条件或简单的插件堆叠不足以实现细粒度控制。相比之下，IMAGGarment-1为多条件服装合成提供了一种有效的解决方案，能够精确协调全局结构和局部细节。

定性结果。图 5 展示了在已见和未见服装上的定性比较。值得注意的是，已见测试集指的是我们的 GarmentBench 数据集指定的测试分割。为了评估泛化能力，我们通过随机重组输入条件（例如，轮廓、颜色、标志）来构建一个未见测试集，以模拟现实世界的时尚设计场景。在已见服装上，主题驱动方法（BLIP-Diffusion [23]、AnyDoor [7]）可以重建整体外观，但缺乏空间控制。BLIP-Diffusion 保留了标志的特征，但由于仅使用文本条件，无法精确放置标志，而 AnyDoor 会引入标志变形和风格化伪影。基于插件的基线方法（ControlNet-Garment [45]、IP-Adapter-Garment [42]）独立处理各种条件，导致协调性较差。ControlNet-Garment 存在跨条件干扰问题，而 IP-Adapter-Garment 尽管保留了结构，但经常放错标志位置。相比之下，IMAGGarment-1 能够对轮廓、颜色和标志放置进行精确控制。在未见服装上，所有基线方法的性能都显著下降。主题驱动方法无法泛化到新的布局，AnyDoor 会使外观变形，而 BLIP-Diffusion 在标志定位方面存在困难。基于插件的方法也表现不佳：ControlNet-Garment 产生不匹配的输出，而 IP-Adapter-Garment 无法解读未见的空间语义。IMAGGarment-1 保持稳健，在所有条件下都能保持一致。这种泛化能力源于我们的模块，该模块在潜在空间中有效地整合了空间和视觉线索。这些结果验证了我们的方法在已见和未见场景中的可控性和灵活性。

4. 消融实验与模型分析

架构设计的消融实验。为了验证我们框架中每个组件的有效性，我们在 IMAGGarment-1 架构内设计了一系列消融变体：B0 使用原始的 Stable Diffusion v1.5，不包含我们提出的任何模块，作为基线。B1 移除了局部增强模型（第二阶段），评估省略标志注入和空间控制的影响。B2 移除了全局外观模型（第一阶段），评估在没有结构化轮廓和颜色条件下模型的性能。B3 从全局外观模型中移除了颜色适配器，分离颜色引导在生成过程中的作用。B4 在去噪 UNet 中用原始的自注意力替换了我们的混合注意力，测试与轮廓特征进行空间融合的重要性。Full 表示集成了所有提出模块的完整 IMAGGarment-1 框架。

图 5：在已见和未见的 GarmentBench 样本上的定性结果。已见集使用原始测试对，而未见集涉及随机混合的条件。IMAGGarment-1 提供了最一致的输出，在两种场景下都能实现对轮廓、颜色和标志的精确控制。

表2展示了我们提出的IMAGGarment - 1中每个组件的量化影响。在B1中，去除了局部增强阶段，模型难以精确放置标志，导致局部布局准确性（LLA）和CLIP分数下降。尽管整体服装结构得以保留，但缺乏空间控制使得标志无法准确融合。在B2中，没有全局外观阶段，模型无法保持轮廓和颜色的一致性，导致弗雷歇 inception 距离（FID）、学习感知图像块相似度（LPIPS）和颜色相似度分数（CSS）显著变差。这表明仅靠局部注入不足以处理全局服装布局。B3禁用了颜色适配器，导致CSS显著下降，凸显了其在忠实颜色传递和控制方面的作用。B4将我们的混合注意力机制替换为标准的自注意力机制，削弱了轮廓引导的融合，导致LPIPS和FID均下降，表明逼真度和结构连贯性降低。完整的IMAGGarment - 1在所有指标上都取得了最佳性能，验证了每个模块在处理多条件服装生成方面的互补设计的有效性。

图6：服装基准测试（GarmentBench）的定性消融实验结果。

图6展示了定性比较结果。B1无法在空间上对齐标志，而B2生成的服装变形，缺乏颜色和轮廓引导。尽管B3能保持标志的放置，但会导致颜色不匹配，B4生成的服装布局连贯性较差。相比之下，完整模型成功合成了具有准确轮廓、精确标志放置和真实颜色再现的服装，证明了我们的双阶段设计、颜色适配器和混合注意力融合的优势。

可控性分析。为了评估所提出的IMAGGarment - 1的可控性，我们通过一次改变一个条件（轮廓、调色板或标志位置），同时保持其他条件固定，进行了条件操纵实验。如图7所示，每两行一组突出显示了模型对特定条件的响应。当改变轮廓时（顶部组），生成的服装精确符合目标形状，证明了混合注意力模块保持结构对齐的能力。当改变调色板时（中间组），模型始终能再现所需的颜色分布，验证了颜色适配器在实现忠实颜色生成方面的有效性。最后，调整标志位置（底部组）可实现准确的空间重新定位，凸显了模块注入空间先验以实现精确局部控制的能力。这些结果表明，IMAGGarment - 1能够对服装属性进行细粒度、解耦的控制，支持实际且灵活的生成，适用于现实世界的时尚设计应用。

图7：可控性可视化。每组在保持其他输入条件固定的情况下改变一个输入条件。顶部：轮廓变化导致一致的结构适应。中间：调色板变化导致准确的颜色传递。底部：标志掩码调整实现精确的空间放置。

超参数分析。我们研究了公式1和公式3中两个关键超参数的影响：轮廓引导权重和颜色调节权重。如图8所示，改变直接影响模型遵循参考轮廓的能力。当过低时，生成的结构会变得模糊或偏离目标形状；当过高时，可能会抑制颜色和文本引导。我们通过经验设置以实现平衡的结构对齐。同样，颜色权重控制调色板的影响。随着的增加，颜色一致性稳步提高，产生视觉保真性能。局限性。虽然IMAGGarment - 1在时尚服装生成（FGG）中取得了良好的性能，但仍存在一些局限性。首先，基础扩散模型的能力仍然限制了生成结果的视觉质量和颜色保真度。结合更强大的预训练骨干网络，如Stable Diffusion 3 [10]或Flux [22]，可以进一步提高生成质量。其次，当前框架仅限于单视图、平面服装图像。然而，时尚设计的实际应用通常需要动态可视化和3D一致性。解决这个问题需要高质量的多视图或时间对齐的数据集，我们计划在未来的工作中探索这些数据集，以实现更具表现力和真实感的服装生成。正如尼尔·阿姆斯特朗曾经说过的："这是个人的一小步，却是人类的一大步。"我们希望这项工作标志着迈向个性化时尚生成未来的一小步，但却是有意义的一步。

图8：轮廓权重和颜色权重的超参数分析。在一定程度上，增加可以改善结构对齐，而增加可以提高颜色保真度。

结论

我们提出了IMAGGarment - 1，这是一个统一的条件扩散框架，用于细粒度的服装生成，可对服装的轮廓、颜色和标志位置进行精确控制。通过引入混合注意力、颜色适配器和模块，我们的框架能够明确地将全局结构（轮廓和颜色）与局部属性（标志内容和空间位置）解耦，从而实现精确的空间控制和高质量的合成。为了支持这一任务，我们构建了GarmentBench，这是一个大规模的基准数据集，包含超过个标注有多级设计条件的样本。在已见和未见服装上进行的全面实验表明，IMAGGarment - 1在结构保真度、颜色一致性和标志可控性方面达到了当前最优水平。

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年4月21日星期一

南理工提出IMAGGarment - 1！细粒度高保真服装合成新方法！

导读

简介