AI I024: 高通AI研究院提出SubZero：任意主体、任意风格、任意动作，AI创作从此无界！

2025年3月12日星期三

高通AI研究院提出SubZero：任意主体、任意风格、任意动作，AI创作从此无界！

最新论文解读系列

论文名：SubZero: Composing Subject, Style, and Action via Zero-Shot Personalization

论文链接：https://arxiv.org/pdf/2502.19673

导读

文本到图像（T2I）模型旨在根据文本描述生成图像。因此，自然语言描述是传达用户意图和生成能够准确捕捉预期语义信息的视觉吸引力图像的关键桥梁。尽管先进的文本到图像模型表现出色，但它们依赖于主要针对英语设计的文本编码器，如CLIP和T5，由于训练数据集的语言局限性，限制了它们的多语言能力。

图1. 使用我们提出的SubZero（零下）方法在未经任何调优的预训练文本到图像扩散模型上生成的各种风格化面部图像。SubZero（零下）方法在保持面部特征的同时，能够生成高质量、多样化的风格化图像。

简介

扩散模型在生成任务中越来越受欢迎，这些任务包括对主体和风格进行个性化组合。虽然扩散模型能够以自定义风格生成执行文本引导动作的用户指定主体，但它们需要微调，并且在移动设备上无法实现个性化。因此，诸如IP适配器（IP - Adapters）等免微调的个性化方法逐渐受到关注。然而，在主体和风格的组合方面，这些方法由于依赖控制网络（ControlNet）而不够灵活，或者会出现内容和风格泄漏的瑕疵。为了解决这些问题，我们提出了SubZero，这是一个新颖的框架，无需微调即可生成任何风格、执行任何动作的任何主体。我们提出了一组新颖的约束条件，以增强主体和风格的相似性，同时减少泄漏。此外，我们在去噪模型的交叉注意力模块中提出了一种正交化的时间聚合方案，能够有效地结合文本提示以及单个主体和风格图像进行条件处理。我们还提出了一种训练自定义内容和风格投影器的新方法，以减少内容和风格的泄漏。通过大量实验，我们表明，我们提出的方法虽然适合在边缘设备上运行，但在主体、风格和动作组合方面比现有最先进的方法有显著改进。

方法与模型

图2. 展示SubZero关键组件的整体推理流程。参考主体、风格和文本条件特征通过我们提出的正交时间注意力模块进行聚合。每个时间步的潜在变量由我们提出的解耦二阶约束（Disentangled SOC）进行优化，在去噪过程结束时生成所需的输出。

1. 预备知识

文本到图像生成：基于扩散的模型（如）被广泛应用于文本到图像生成任务。由于这些模型通常需要20 - 30个推理步骤，近期的研究成果（如[22]）也被用于加速其潜在噪声去除过程。我们的方法基于两个高效的基础模型开发：SDXL-Lightning [22]（4步）和Würstchen [29]。目标是在给定前向加噪过程的情况下对去噪操作进行建模：

在此，表示在给定原始输入的情况下，时间的状态，而由调度器计算得出。

当前的方法是为了反转方程1而开发的。它们由一个编码器 - 解码器模型和一个去噪模型组成，前者用于在图像和潜在表征之间进行转换，后者则在每个时间步逐步对输入的潜在变量进行去噪以估计噪声。对于SDXL，我们将Unet表示为，将变分自编码器（VAE）解码器表示为。对于Würstchen，我们分别将StageC去噪器和StageA变分自编码器（VAE）表示为和。为了为去噪模型生成文本条件，文本提示会通过文本编码器（即CLIP [31]）进行分词和编码。输出的嵌入向量作为逐阶段交叉注意力模块中的键和值被输入到中。每个交叉注意力模块的查询是来自的中间潜在特征。

随机最优控制：RB调制[33]最近开发了结合随机最优控制的潜在优化方法，以有效调整由生成的中间潜在变量，从而融入参考风格。为了准确度量风格，他们使用了对比风格描述符（CSD，Contrastive Style Descriptor）网络[38]。为了执行随机最优控制，时间步的中间潜在变量按如下方式用于预测去噪后的潜在变量：

仅将作为可调参数，去噪后的图像被预测为。然后计算一个风格目标作为终端代价。最后，使用亚当优化器（Adam optimizer）更新，以在次迭代中降低风格目标。现在使用更新后的来计算上一个时间步的去噪潜变量。

参考图像条件设定：为了使用参考主体图像和风格图像来对去噪模型进行条件设定，已有多种不同的研究方向。例如，在的交叉注意力模块中为概念的参考图像训练额外的定制键和值投影，如IP适配器（IP-Adapter）[45]和PulID [15]。另一个研究方向，如RB调制（RB-Modulation）提出的注意力特征聚合（Attention Feature Aggregation，AFA）方法，将参考图像通过剪辑图像编码器（clip-image encoder）进行编码，然后使用基础模型中已有的键/值投影进行条件设定。然而，这种方法仅适用于伍尔施滕模型（Würstchen model），因为该模型已经包含了学习好的剪辑文本和图像投影器。因此，为了与所有基线进行公平比较，我们在稳定扩散XL（SDXL）实验中使用基于IP适配器的投影来编码参考条件，在伍尔施滕模型[29]中使用基于AFA的条件设定。

对于上述讨论的方法，来自的查询分别由所有模态（文本、风格、主题）的键值投影或这些模态中键值投影的聚合来处理。在我们的工作中，我们将更新后的特征表示为和。在特征聚合之后，聚合所有模态的交叉注意力输出后的更新特征表示为。

2. 解耦随机最优控制器

RB调制（RB Modulation）表明，直接特征注入会导致风格参考图像出现主体信息泄露问题。然而，我们的研究表明，随机最优控制器（stochastic optimal controller）和AFA模块无法缓解主体信息泄露问题。业界也已观察到这一现象 [1]。此外，该方法无法保留用于面部个性化的面部必要特征（见图6）。因此，我们提出了解耦随机最优控制器（Disentangled Stochastic Optimal Controller），以缓解主体和风格信息泄露问题，同时保留主体的关键特征和风格。算法1给出了所提出的解耦随机最优控制器的伪代码。

算法1：SubZero：解耦控制器与时间聚合

主题和风格描述符：如上一节所述，RB调制（RB-Modulation）针对风格描述符优化潜在变量。然而，其终端代价并未考虑主题图像的个性化特征。因此，我们提出一个用于参考图像个性化的附加项，由主题描述符计算得出。在人脸风格化实验中，我们用面部描述符替换。在本文中，我们使用来自CSD网络[38]的风格描述符、作为DINO[6]的主题描述符网络，以及作为由[45]训练的面部嵌入提取器的面部描述符（使用Arc-Face[8]）。

图3. 解缠随机最优控制器。

我们还提出了旨在减少网络之间内容和风格泄漏的负准则。这通过最大化对应的描述符以及最大化对应的描述符来实现。因此，终端代价是四个目标的组合，见图3。

终端代价：我们将终端代价定义为

其中是估计的去噪图像，是一个TinyVAE解码器[2]，和是风格和内容泄漏的加权项，并用作超参数，其值在附录中给出。

3. 正交时间注意力聚合

如第1节所述，在我们的去噪模型中，经过交叉注意力机制后，我们从三个条件源中获取更新后的特征和。先前的研究提出对这些更新后的特征进行加权求和，以得到聚合特征。然而，正如附录中所讨论的，我们发现这会导致生成图像中出现主体信息泄露的问题。

正交特征：文本和风格特征有助于全局结构的构建，而主题特征则更新潜在空间的局部区域。为防止潜在空间中各种信息源之间出现失真，我们将主题查询正交投影到原始文本上，以更新局部区域。同时，将风格查询直接添加到文本特征中，以整体更新图像，如图4所示。这种方法保留了每个组件的关键方面，例如文本提示中针对主题描述的动作，并基于文本和图像条件生成稳健的图像。

图4. 正交时间聚合（Orthogonal Temporal Aggregation）。

时间加权：为减少主体信息泄露问题，我们提出一种时间加权策略。为对更新后的查询进行加权，我们采用一种新颖的时间自适应加权机制。由于风格是一种全局结构，它不应决定图像中生成对象的形状。形状应基于文本条件特征和主体条件特征来确定。因此，在去噪过程开始、生成形状时，我们为风格特征设定较低的权重，为主体特征设定较高的权重。随着去噪过程的推进，我们基于两个因素逐步增加风格权重：与风格描述符约束成正比，与主体信息泄露约束成反比（由公式3确定）。在时间步，时间风格权重表示为，主体权重表示为。算法1给出了的伪代码。

最后，正交时间聚合（Orthogonal Temporal Aggregation，OTA）特征计算为。

4. 有针对性的风格和对象投影器

虽然我们提出的SubZero算法可直接在现有的IP适配器 [15, 41, 45] 上使用，但我们进一步提出了一种训练新的风格和对象投影器的方法。在此，目标是解耦并仅从主体和风格中提取相关信息，因为已知IP适配器也会导致主体信息泄露。为此，我们利用主体和风格描述符模型来训练针对对象和风格的有针对性的投影器。

为了训练我们提出的投影器，我们将它们设置为可调节的，并将其连接到去噪模型中的每个交叉注意力模块，该模型保持冻结状态。在每次训练迭代中，我们随机采样时间步，并使用调度器计算噪声潜变量。在训练期间，我们计算预测噪声的扩散损失。

图 5. StyleZero 和 ObjectZero 投影器的训练流程。为了训练解纠缠的投影器，我们使用去噪扩散损失和目标损失的加权组合，以帮助仅从风格和对象中提取相关信息。

StyleZero：我们在图5中展示了风格投影器（StyleZero）的训练设置。我们使用来自最新的ContraStyles数据集[38]的图像作为真实标签。我们首先使用风格描述符（CSD）提取参考风格图像的风格嵌入。接下来，我们将这些描述符通过一个风格投影网络，然后再进行键值投影。这些被输入到一个交叉注意力模块中，查询投影直接来自的中间特征。给定时间步的噪声图像，我们首先使用公式2预测。接下来，我们将其输入到变分自编码器（VAE）解码器中，以获得去噪预测。与随机目标类似，我们计算风格损失。因此，StyleZero的最终损失为。

对象零（ObjectZero）：我们在图5中展示了对象投影仪（对象零，ObjectZero）的训练设置。我们使用来自MSCOCO数据集[23]的图像作为真实标签。与风格零（StyleZero）类似，我们首先使用对象描述符（DINO编码器）来投影对象嵌入。与随机目标类似，我们计算对象损失。因此，对象零（ObjectZero）的最终损失函数为。

训练完成后，我们分别得到用于从相应参考图像中解耦风格和对象特征的风格零（StyleZero）和对象零（ObjectZero）投影仪。这些新训练的投影仪将与SubZero潜在调制方法的其余部分结合使用。有关风格零（StyleZero）和对象零（ObjectZero）的训练超参数，请参阅附录。

5. 扩展：零阶随机控制

尽管我们的方法不涉及更新描述符模型和的任何参数，但在更新期间，最优控制器需要缓存中间激活和梯度计算结果，这是链式法则的一部分。为了减轻反向传播的内存需求，零阶（Zero Order，ZO）近似方法越来越受欢迎。虽然在零阶近似的相关研究中，大部分工作都集中在语言建模领域，但我们尝试利用零阶技术进行潜在变量的更新。为了实现零阶最优控制，我们利用 [26] 中描述的 ZO - Adam 方案进行实验，并将其扩展以更新潜在变量。更多细节和实验内容见附录。

实验与结果

1. 实验设置

我们主要进行三组实验：(i) 针对人物，我们展示使用单个主体图像和风格图像的面部风格合成；(ii) 我们展示使用人物和风格进行主体 - 风格 - 动作合成，同时提供文本提示以执行特定动作；(iii) 最后，针对常见物体和宠物，我们进行物体 - 风格合成。

面部风格化数据集。为了对面部进行风格化处理，我们整理了一个包含12个主体和30种风格的数据集。我们收集了不同年龄、种族和性别的多样化面部图像。每个主体提供一张图像，并被要求参与人类偏好研究。为了对面部进行风格化，我们使用来自StyleAligned [17]、StyleDrop [37]和SubjectPlop [35]的图像整理了一个包含30种风格的数据集。

物体 - 风格合成数据集。对于物体 - 风格合成，我们采用与ZipLoRA [36]类似的设置，从Dreambooth数据集 [34]中选择十个独特的物体，从StyleDrop数据集 [37]中选择十张风格图像。

指标。对于对象相似度，我们使用DINO相似度得分[34]，即对象和生成图像的DINO ViT - B/6嵌入（embeddings）的余弦相似度。对于人脸相似度，我们使用文献[45]中的人脸嵌入（embeddings）来测量余弦相似度。此外，我们通过报告参考图像与生成图像的CSD嵌入（embeddings）[38]之间的余弦相似度来计算风格相似度。我们还进行人工评估以量化人脸风格化程度。为了衡量动作方面的性能，我们使用输出图像和动作提示之间的HPS - v2.1[43]得分。所有指标均以百分比计算。

模型。我们使用两个文本到图像模型来实现高效的零样本主体、风格和动作组合：（i）SDXL-Lightning（4步）[22]和（ii）稳定级联（Würstchen）[29]。遵循RB调制，我们对Würstchen使用基于AFA的条件，因为它已经包含了学习到的CLIP文本和图像投影。对于SDXL-Lightning的实验，我们利用IP适配器作为基线，将参考图像投影到交叉注意力层。对于使用SubZero的面部风格化实验，我们使用PuLID作为面部投影器，使用StyleZero作为风格投影器。对于使用SubZero的对象风格化实验，我们使用我们新的StyleZero和ObjectZero图像投影器。

我们考虑了几个用于比较的基线，即InstantStyle-Plus [41]、InstantID [42]、RB调制（RB-Modulation） [33]和风格对齐（Style-Aligned） [17]。其中一些基线还利用控制网络（Controlnet） [46]或IP适配器（IP-Adapters） [45]从参考图像中注入风格。所有实现细节和超参数都在附录中提供。

2. 结果

2.1. 面部风格合成

如图1所示，SubZero可以有效地将给定的面部图像风格化为多种不同的风格。

定量比较。我们将SubZero与几种用于SDXL-Lightning和Würstchen架构的最先进的免调优个性化方法进行了比较，比较有无"辅助提示词"（即文本提示词中是否存在风格描述）的情况。我们给出了3个随机种子的平均得分。表1展示了我们的主要结果：无论有无辅助提示词，SubZero生成的图像在人物（面部）相似度和风格相似度方面都是最佳的。例如，虽然InstantStyle-Plus [41]在没有辅助提示词的情况下，对于SDXL-Lightning能取得较高的面部相似度得分，但它的风格相似度得分明显低于我们提出的技术。这表明，虽然InstantStyle-Plus由于ControlNet（控制网络）在重现面部方面表现出色，但它的风格化效果欠佳。同样，虽然RB调制 [33]在有辅助提示词的情况下，对于SDXL-Lightning能实现良好的风格化，但它无法准确捕捉面部特征。SubZero显著优于现有技术，因为它获得了最高的平均相似度得分，并为面部风格化树立了新的最先进水平。

表1. 面部风格化：在SDXL-Lightning和Würstchen上的结果。辅助提示词表示存在风格描述。

图6. 在Würstchen上与RB调制的比较。可以观察到，与RB调制相比，SubZero的输出与参考主体更加相似。

图7. SubZero与基于Control-Net/DDIM反演方案的视觉比较。SubZero更灵活，且减少了主体信息泄露。

定性比较。接下来，我们在图6中比较了SubZero和RB调制[33]。显然，SubZero在通过各种风格保持正确主体方面明显更有效。相比之下，RB调制在进行风格化时无法保留正确的面部。在图7中，我们与采用ControlNet和/或DDIM反演进行主体风格合成的InstantX方法[41, 42]进行了比较。可以观察到，InstantID常常将风格参考中的无关内容泄露到最终生成的图像中，或者出现不想要的伪影。另一方面，InstantStyle-Plus实现了良好的风格化效果，但由于ControlNet的原因过于僵化；这导致输出图像的多样性显著降低。显然，SubZero在多样性和风格化质量方面都优于这些方法。

人类偏好研究：我们对提供了照片的10名受试者进行了调查，使用了包含他们自身照片的定制化人类评估表，如附录所示。每张评估表有三个部分，其结果总结在表2中。每个部分有10种风格。因此，我们的评估共收到300份反馈。我们将不同模型生成的图像并排展示 SubZero（零下模型），并让受试者挑选出最接近他们面部特征且与参考风格图像最匹配的图像。如表2所示，在受试者的选择中，SubZero（零下模型）的受欢迎程度为64.1%（对比PuLID + IP - 适配器基线模型）、64.5%（对比RB调制（基于Würstchen模型））和74.7%（对比InstantStyle模型）。

表2. 人脸风格化的人工评估。

图8. 使用SubZero进行人脸、风格和动作合成。

2.2. 人脸 - 风格 - 动作合成

我们能否在零样本设置下，将任何主体的人脸以任何风格呈现并执行任何动作？我们使用SubZero探索了这一方面，并根据动作提示词描述的一组动作对人脸风格化进行了评估。表3展示了在12个主体、10种动作和10种风格下的结果，以及3个随机种子的平均值。除了常见的人脸和风格相似度外，我们还报告了人工偏好得分（HPSv2）。我们注意到，SubZero相对于基线方法有显著改进，尤其是在HPSv2得分上。RB调制存在通过AFA产生内容风格泄漏的问题，这使得生成更多样化的图像变得更加困难。由于SubZero采用了我们提出的用于跨多种模态的交叉注意力的正交时间聚合策略，因此我们取得了显著更优的结果。此外，ControlNet和DDIM反演被证明会限制灵活性，导致基于InstantX的方法的HPSv2得分较低。我们的结果可以在图8中可视化展示。

表3. 人脸+风格+动作的实验结果：我们报告了以SDXL-Lightning为骨干网络的实验结果，并将SubZero与用于组合主体、风格和动作的最先进方法进行了比较。

2.3. 对象 - 风格组合

现在，我们使用新训练的StyleZero和ObjectZero投影器，以零样本的方式评估SubZero将任意对象与任意风格进行组合的能力。为此，我们使用DreamBooth数据集中的所有主体和StyleDrop [37]中的20种风格，对600个对象 - 风格对进行对象 - 风格组合。表4显示我们获得了非常高的DINO分数，这表明SubZero在生成零样本风格化图像时具有很强的保持正确内容的能力。在SDXL-Lightning上，我们还实现了最佳的风格相似度。平均而言，我们显著优于IP-Adapter、RB-Modulation和StyleAligned基线方法。

表4. 对象风格合成：我们报告了在SDXL-Lightning和Würstchen上的结果，并将SubZero与IP适配器（IP-Adapter）、风格对齐（Style-aligned）和RB调制（RB-Modulation）进行了比较。

图9展示了IP-Adapter、RB-Modulation和SubZero之间的定性比较。值得注意的是，IP-Adapter和RB-Modulation都出现了不相关的内容泄露老化（例如，可见房屋/棚屋结构渗漏到下方的部件中）。相比之下，SubZero（零下）能够进行对象风格的组合，且不会出现任何渗漏。这清楚地凸显了SubZero（零下）相较于现有方法的优越性。

图9. 使用SubZero进行对象和风格的组合。

4 总结

在本文中，我们提出了SubZero（SubZero），这是一个用于稳健且高效的零样本面部、风格和动作合成的框架。该框架包含一个解纠缠随机最优控制器，用于将主体和风格注入潜在空间而不造成任何泄漏。它还包含正交时间聚合方案，用于处理源自主体、风格和文本条件的交叉注意力特征。我们进一步提出了一种新颖的方法来训练定制的内容和风格投影器，以减少内容和风格的泄漏。此外，我们讨论了使用零阶优化来执行随机最优控制的可行性。通过大量实验，我们表明SubZero（SubZero）相比当前的最先进技术能够显著提高性能。我们提出的方法适合在边缘设备上运行，并且在主体、风格和动作合成方面相比以往的工作有显著改进。通过评估SubZero（SubZero）的性能，我们相信我们提出的方法将为免训练个性化的进一步研究奠定基础。

没有评论:

发表评论

订阅：博文评论 (Atom)