最新论文解读系列
论文名:UniCombine: Unified Multi-Conditional Combination with Diffusion Transformer
论文链接:https://arxiv.org/pdf/2503.09277
开源代码:https://github.com/Xuan-World/UniCombine
导读
随着基于扩散的文本到图像生成技术的进步,一系列单条件可控生成框架,如ControlNet 、T2I-Adapter、IP-Adapter和InstantID,已将控制信号的范围从文本提示扩展到图像条件。这使用户能够控制生成图像的更多方面,如布局、风格、特征等。这些传统方法是专门为潜在扩散模型(LDM)的UNet骨干网络设计的,并配备了专用的控制网络。此外,一些近期的方法,如Omini-Control,将控制信号集成到扩散变压器(DiT)架构中,与LDM中的UNet相比,表现出更优越的性能。
简介
随着扩散模型在图像生成领域的快速发展,对更强大、更灵活的可控框架的需求日益增长。尽管现有方法可以在文本提示之外引导生成,但在有效组合多个条件输入的同时保持与所有输入的一致性这一挑战仍未解决。为解决这一问题,我们引入了UniCombine,这是一个基于扩散变压器(DiT)的多条件可控生成框架,能够处理任何条件组合,包括但不限于文本提示、空间图和主体图像。具体而言,我们引入了一种新颖的条件MMDiT注意力机制,并融入了一个可训练的LoRA模块,以构建无训练和基于训练的两个版本。此外,我们提出了一个新的流程来构建SubjectSpatial200K,这是第一个专为多条件生成任务设计的数据集,涵盖了主体驱动和空间对齐条件。在多条件生成方面的大量实验结果证明了我们方法具有出色的通用性和强大的能力,达到了最先进的性能。
方法与模型
1. 预备知识
在这项工作中,我们主要探索采用整流流(Rectified Flow,RF)[27, 28]训练策略和MMDiT(多模态扩散变压器)[7]骨干架构的最新生成模型,如FLUX [22]和SD3 [7]。对于源噪声分布和目标图像分布,RF将它们之间的线性插值定义为,其中。训练目标是学习一个与时间相关的向量场,它描述了常微分方程(ODE)的轨迹。具体来说,对进行优化以逼近恒定速度,从而得到如式(1)所示的损失函数。
在本文中,我们提出了分支的概念,以区分基于MMDiT的模型中不同模态输入嵌入的处理流程。如图2(a)所示,与单分支架构[36]不同,在单分支架构中,文本提示通过交叉注意力注入去噪分支,而MMDiT使用两个独立的变压器来构建文本分支和去噪分支。在此基础上,OminiControl [44]在去噪分支的权重上加入了一个条件低秩自适应(Condition-LoRA)模块,以处理输入的条件嵌入,从而形成其条件分支,如图2(b)所示。值得注意的是,OminiControl [44]可以被视为我们提出的UniCombine框架在单条件设置下的一个特例。它提供了预训练的Condition-LoRA模块,以满足我们多条件设置的需求。在单条件设置下,文本分支嵌入、去噪分支嵌入和条件分支嵌入被拼接成一个统一的序列,在MMDiT注意力机制中进行处理。
图2. 我们提出的UniCombine概述。(a) 整体框架。我们将基于多模态扩散变换器(MMDiT)的扩散模型视为由文本分支和去噪分支组成。在此基础上,我们的UniCombine引入了多个条件分支来处理输入条件。(b) 我们的UniCombine的单条件设置。它等同于OminiControl [44] ,这是我们提出的UniCombine框架在单条件设置下的一个特殊情况。(c) 我们的UniCombine的多条件设置。我们的低秩自适应切换(LoRA Switching)模块根据条件类型在去噪分支的权重上自适应地激活预训练的条件低秩自适应(Condition-LoRA)模块。提出的条件化多模态扩散变换器注意力(Conditional MMDiT Attention)机制用于取代原始的多模态扩散变换器注意力(MMDiT Attention)机制,以处理统一的多条件输入序列。是否加载可选的去噪低秩自适应(Denoising-LoRA)模块是免训练版本和基于训练版本的区别。
2. UniCombine
在基于MMDiT的文本到图像生成模型FLUX [22]的基础上,我们提出了UniCombine,这是一个由各种条件分支组成的多条件可控生成框架。每个条件分支负责处理一个条件嵌入,从而形成如式所示的统一嵌入序列。
鉴于我们的UniCom - Combine的单条件设置等同于OminiControl [44],本节我们仅关注多条件设置。首先,我们引入一个LoRA切换模块来有效管理多个条件分支。其次,我们引入一种新颖的条件MMDiT注意力机制,以在多条件设置下处理统一序列。第三,我们对我们的免训练策略进行深入分析,该策略利用预训练的条件LoRA模块权重来进行免训练的多条件可控生成。最后,我们提出一种可行的基于训练的策略,该策略利用可训练的去噪LoRA模块,在特定任务的多条件数据集上进行训练后进一步提升性能。
LoRA切换模块。在使用多个输入条件进行去噪之前,应将在单条件设置下预训练的条件LoRA模块加载到去噪分支的权重上,如所示。然后,LoRA切换模块根据输入条件的类型确定应激活其中哪一个,形成一个独热门控机制,如图2 (c)所示。随后,使用激活了不同条件LoRA模块的不同条件分支来处理不同的条件嵌入,从而为不同条件引入的额外参数数量最少。与图2 (b)中的单条件设置不同,单条件设置仅需加载LoRA模块,而图2 (c)中的LoRA切换模块能够在多个LoRA模块中进行自适应选择,为每个条件嵌入提供匹配的条件分支,使我们的框架在处理不同的条件组合时具有更大的灵活性和适应性。
条件MMDiT注意力。在将这些条件分支的输出嵌入进行拼接之后,由于两个主要挑战,无法通过原始的MMDiT注意力机制处理统一序列:(1) 计算复杂度相对于条件数量呈二次方增长,即,在处理多个高分辨率条件时,这一问题尤为突出。(2) 在对统一序列执行MMDiT注意力时,不同的条件信号在注意力计算过程中会相互干扰,使得难以有效利用预训练的条件LoRA模块权重进行去噪处理。
为应对这些挑战,我们引入一种新颖的条件MMDiT注意力机制(CMMDiT注意力),如图2 (c)所示,以取代原始的MMDiT注意力。CMMDiT注意力并非一次性将整个统一序列输入到MMDiT注意力中,而是根据哪个分支作为查询遵循不同的计算机制。其核心思想是,作为查询的分支根据其类型聚合统一序列不同范围的信息。具体而言,当去噪分支和文本分支作为查询时,它们的键和值的范围对应于整个统一序列,使它们具有全局感受野,并能够从所有条件分支聚合信息。相比之下,当条件分支作为查询时,它们的感受野互不包含。它们的键和值的范围限制在子序列中,如公式(3)所示,这防止了特征交换,避免了不同条件之间的信息纠缠。
此外,随着条件数量的增加,CMMDiT注意力将计算复杂度从降低到,使其更具可扩展性。
免训练策略。以下分析详细解释了为什么我们的UniCombine能够无缝集成并有效复用预训练的条件LoRA模块权重,以免训练的方式应对多条件挑战。
一方面,当条件嵌入在CMMDiT中作为查询时,它们遵循与单条件设置下的MMDiT相同的注意力计算范式,如公式所示。
这种一致的计算范式使条件分支在多条件设置和单条件设置之间能够共享相同的特征提取能力。
另一方面,当去噪嵌入 和文本提示嵌入 在 CMMDiT 中作为查询时,它们的注意力计算范式与单条件设置不同。如公式所示,当去噪嵌入 用作查询,在 CM - MDiT 中与多个条件嵌入进行注意力计算时,注意力得分矩阵是在 和所有条件嵌入之间计算的。
它允许 分别从每个条件嵌入中提取和整合信息并进行融合。这种分治计算范式使文本分支和去噪分支能够有效地融合条件特征。
通过利用上述计算范式,我们的 UniCombine 能够使用预训练的 Condition - LoRA 模块进行无需训练的多条件可控生成。
基于训练的策略。然而,由于缺乏训练,仅依靠公式中的 softmax 操作来平衡多个条件嵌入的注意力得分分布可能会导致不理想的特征融合结果,使得我们的无训练版本在某些情况下不尽如人意。为了解决这个问题,我们在去噪分支中引入了一个可训练的 Denoising - LoRA 模块,以纠正公式中注意力得分的分布。在训练期间,我们冻结所有的 Condition - LoRA 模块以保留条件提取能力,并仅在特定任务的多条件数据集上训练 Denoising - LoRA 模块,如图 2 (c) 所示。训练后,去噪嵌入 在 CM - MDiT 注意力操作期间学会更好地聚合适当的信息。如图 3 所示,基于训练的版本中,修复区域内的平均 主体注意力图更集中在主体区域。
图3. 插入区域的平均主体交叉注意力图。
3. SubjectSpatial200K 数据集
我们的 SubjectSpatial200K 数据集旨在解决多条件生成任务缺乏公开可用数据集的问题。现有数据集未能同时包含主体驱动和空间对齐的注释。最近,Subjects [44] 数据集为主体驱动的生成提供了一个公开可访问的数据集。在此基础上,我们引入了 SubjectSpatial 数据集,这是一个统一的高质量数据集,用于训练和测试多条件可控生成模型。该数据集包含如下详细阐述的全面注释。此外,构建流程详见图 4。
图 4. SubjectSpatial200K 数据集构建流程。
主体定位注释。主体定位注释对于许多生成任务(如实例级修复 [18, 60]、实例级可控生成 [25, 48] 和对象插入 )非常必要。通过在 Subjects200K 上利用开放词汇对象检测模型 Mamba - YOLO - World [45],我们根据所有主体的类别描述检测其边界框,并随后得出相应的掩码区域。
空间图注释。空间图注释进一步将我们数据集的适用范围扩展到空间对齐的合成任务。具体来说,我们在 Subjects 上使用 Depth - Anything [56] 模型和 OpenCV [1] 库来得出深度图和 Canny 边缘图。
实验与结果
1. 设置
实现。我们使用 FLUX.1 - schnell [22] 作为我们的基础模型,并使用 OminiControl [44] 提供的权重作为我们预训练的 Condition - LoRA 模块权重。在训练我们的 Denoising - LoRA 模块时,我们使用秩为 4,与 Condition - LoRA 一致。我们选择 Adam 优化器,学习率为 ,并将权重衰减设置为 0.01。我们的模型在 16 块 NVIDIA V100 GPU 上以 的分辨率训练 30000 步。
基准测试。我们评估了我们方法在免训练和基于训练版本中的性能。训练和测试数据集是根据ChatGPT - 4o评估的图像质量评估分数从SubjectSpa - tial200K数据集中划分出来的,具体细节见A1节。重要的是,数据集划分方案在所有实验中保持一致。
指标。为了评估主体一致性,我们计算了生成图像与真实图像之间的CLIP - I [35]分数和DINO [2]分数。为了评估生成质量,我们计算了生成图像集与真实图像集之间的FID [11]和SSIM [49]。为了衡量可控性,我们计算了从生成图像中提取的地图与原始条件之间边缘条件的F1分数和深度条件的MSE分数。此外,我们采用CLIP - T [35]分数来估计
生成图像与文本提示之间的文本一致性。
2. 主要结果
我们在多空间、主体插入和主体空间条件生成任务上进行了广泛而全面的对比实验。
2.1. 多空间条件生成
多空间条件生成旨在生成符合多种空间条件集体布局约束的图像。这要求模型基于输入条件以互补的方式实现更全面的布局控制。表1和图5中的对比结果表明,我们的方法在生成质量和可控性方面优于现有的多空间条件生成方法。
表1. 我们的方法与现有方法在多空间、主体插入、主体深度和主体Canny条件生成任务上的定量比较。加粗和下划线数字分别代表最优和次优结果。
图5. 多空间生成的定性比较。
2.2. 主体插入条件生成
主体插入条件生成要求模型生成将参考主体插入目标背景掩码区域的图像。如表1和图6所示,我们的UniCombine与先前的方法相比表现出三个优势:首先,我们的方法确保参考主体以高度一致性和谐地插入背景中。其次,与传统的定制方法不同,我们的方法在开放世界对象插入方面表现出色,无需在测试时进行调整。最后,我们的方法展示了强大的语义理解能力,能够从具有非白色背景的复杂主体图像中提取所需对象,而不是简单地将整个主体图像粘贴到掩码区域。
图6. 主体插入生成的定性比较。
2.3. 主体空间条件生成
主体空间条件生成侧重于生成参考主体的图像,同时确保布局符合指定的空间条件。我们将我们的方法与Ctrl - X [26]和一个简单的基线模型进行了比较。Ctrl - X是最近提出的基于SDXL [33]的模型,可同时控制结构和外观。基线模型是通过将FLUX ControlNet [52, 53]和FLUX IP - Adapter [54]集成到FLUX.1 - dev [22]基础模型中构建的。具体来说,我们根据空间条件的类型将主体空间生成任务分为不同的实验组,分别称为主体深度和主体Canny。如图7、图8和表1所示,实验结果表明我们的UniCombine表现出色:首先,我们的方法表现出更强的语义理解能力,能够在空间条件的准确位置生成参考主体,而不会混淆外观特征。其次,我们的方法具有更强的适应性,能够根据空间条件和文本提示的引导对参考主体进行合理的形态变换。最后,我们的方法在保持出色的空间连贯性的同时实现了卓越的主体一致性。
图7. 主体深度生成的定性比较。
图8. 主体Canny生成的定性比较。
2.4. 文本引导
如图1和表1所示,我们的方法不仅允许通过组合多个条件进行可控生成,还能同时实现精确的文本引导。在去噪过程中,通过使用统一的输入序列 ,我们的Uni - Combine(统一组合)方法有效地将中的描述性词语与中的相关特征以及中的相应图像块对齐,从而实现了显著的文本引导多条件可控生成。
总结
我们提出了UniCombine(统一组合),这是一个基于DiT(扩散变换器)的多条件可控生成框架,能够处理任何条件组合,包括但不限于文本提示、空间图和主体图像。在主体插入、主体 - 空间和多空间条件生成任务上的大量实验表明,我们的UniCombine在免训练和基于训练的版本中均具有最先进的性能。此外,我们提出了SubjectSpatial 数据集,以解决缺乏用于训练和测试多条件生成模型的公开可用数据集的问题。我们相信我们的工作可以推动可控生成领域的发展。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论