HyperAlign提出一种超网络框架,通过在去噪过程中动态生成LoRA权重,自适应调整生成轨迹,从而在测试时高效对齐扩散模型。该方法结合奖励优化与偏好正则化,显著提升语义一致性与视觉质量,在多种生成模型上优于现有微调及测试时缩放方法,且计算开销低。
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Xin Xie等
文章链接:https://arxiv.org/pdf/2601.15968
项目链接:https://shelsin.github.io/hyperalign.github.io/
亮点直击
HyperAlign,一种通过超网络自适应调整去噪操作的框架,能够高效且有效地实现扩散模型的测试时对齐,确保生成的图像更好地反映用户意图的文本语义与视觉吸引力。 设计了不同的自适应权重生成策略,以实现高效灵活的对齐。除了以奖励分数作为训练目标外,我们还引入了偏好正则化项以防止奖励欺诈问题。 在多种生成模型(例如SD V1.5和FLUX)上评估了所提方法的性能。HyperAlign在不同指标上显著优于各基线模型及其他先进的微调和测试时缩放方法,证明了其有效性与优越性。
总结速览
解决的问题
扩散模型生成结果与人类偏好和意图不一致:生成的图像存在美学质量差、语义与提示词不符等问题。 现有对齐方法的局限性: 微调方法:存在奖励过优化问题,导致多样性丧失。 测试时缩放方法:计算开销大,且容易奖励欠优化,对齐效果不足。
提出的方案
提出 HyperAlign 框架,通过训练一个超网络实现高效且有效的测试时对齐:
核心思路:不直接修改隐状态,而是通过超网络动态生成低秩适配权重(LoRA),调制扩散模型的生成算子,从而自适应调整去噪轨迹。 变体设计:根据超网络的应用频率设计了三种策略(逐步骤生成、起始点生成、分段生成),以平衡性能与效率。 优化目标:使用奖励分数作为训练目标,并结合偏好数据进行正则化,以减少奖励黑客问题。
应用的技术
超网络架构:输入包括隐变量、时间步和提示词,输出动态调制参数(LoRA权重)。 低秩适配(LoRA):降低参数量,避免生成全模型权重的高成本。 奖励条件对齐:基于奖励分数优化生成轨迹,并结合偏好数据正则化。 多范式适配:在扩散模型(如Stable Diffusion)和整流流(如FLUX)等多种生成范式中实现。
达到的效果
性能显著提升:在增强语义一致性和视觉吸引力方面,显著优于现有微调和测试时缩放基线方法。 高效对齐:通过动态权重生成,避免了传统测试时方法的高计算开销,实现了更高效的实时调整。 平衡多样性与对齐:通过正则化缓解奖励过优化,保持生成多样性的同时更好地对齐人类偏好。 广泛适用性:成功应用于多种先进生成模型,验证了框架的通用性和扩展性。
扩散模型对齐
基于分数的生成模型预备知识
扩散模型通过学习逆转一个应用于干净数据的渐进加噪过程,从而捕捉数据分布。给定数据分布 ,扩散模型的前向过程在特定条件下遵循随机微分方程 (SDE),用高斯噪声逐步扰动干净样本 直至变成高斯噪声:
其中 , 是标准维纳过程, 和 分别表示漂移系数和扩散系数。
通过从 开始反向运行上述过程,可以得到一个通过逆向 SDE 进行的数据生成过程:
其中 表示时刻 时 的边缘分布。分数函数 可以通过训练模型 来估计:
其中 是权重函数,, 是高斯转移密度,且 。近似后的 定义了一个学习到的分布 。
基于分数的模型统一了扩散模型和流匹配模型的公式,其中 的样本轨迹通过随机或常微分方程(SDE 或 ODE)生成。为了清晰简洁,在不失一般性的前提下,下文的陈述将主要聚焦于扩散模型。在这一统一公式下,本文的分析和方法可以自然地推广到扩散模型和流匹配模型。
基于奖励的扩散模型对齐
条件扩散模型与分数函数。 本文考虑条件扩散模型,其学习分布 ,其中 表示条件变量。该模型的训练目标是通过逆扩散过程生成样本,即在条件 的控制下对采样噪声 进行去噪。在图像生成中, 是输入提示词,指示用户对生成内容的指令。为了更好地进行讨论,本文采用方差保持(variance-preserving)设置下的离散分数基模型,其采样公式为:
其中 ,,,且 是线性增加的噪声调度器。这一迭代去噪过程在潜空间中形成了一条轨迹 ,逐渐将噪声 转化为反映输入提示词 的干净样本 。
基于奖励的扩散模型对齐。 尽管现有的文生图(T2I)模型展示了强大的生成能力,但结果往往达不到用户预期,表现为视觉吸引力差以及与输入提示词的语义不一致。这种局限性产生的原因在于分数函数是从大规模未筛选的数据集中学习的,这些数据集偏离了人类偏好的分布。为了弥补这一差距,引入了扩散模型对齐,以增强生成图像与人类用户偏好之间的一致性。
依靠人类偏好数据,可以获得一个捕捉人类偏好(例如美学偏好)的奖励模型 。通过与条件 相联系,奖励模型可以表述为 ,可以假设它部分捕捉了 和 之间的一致性以及视觉美学偏好。它可以从偏好数据中显式学习,也可以直接利用数据进行隐式建模。给定一个已学习的 和一个奖励模型,扩散模型对齐可以表述为求解一个新的分布:
其中 是 KL 正则化系数,用于控制奖励最大化与基础模型一致性之间的平衡。流行为基于训练的对齐方法通过强化学习(RL)和直接反向传播来优化目标奖励。虽然有效,但这些方法通常会带来巨大的计算开销和过度优化的风险,导致生成多样性下降。相比之下,测试时(test-time)扩展方法通过使用引导来修改时间状态以实现对齐目标。由于生成分布表现为采样过程中 的轨迹,测试时对齐可以被视为引导该轨迹,以更好地匹配所需的条件分布 。
方法
本工作旨在训练一个超网络(Hypernetwork),以实现扩散模型高效且有效的测试时对齐(Test-time Alignment),该方法被称为 HyperAlign。
基于扩散引导的测试时对齐
测试时扩散对齐方法通过调整生成轨迹来更好地满足对齐目标。现有的测试时计算策略大致可分为基于噪声采样的方法和基于梯度的扩散引导方法。
噪声采样方法试图根据奖励反馈识别有利的噪声候选者。然而,在巨大的高维噪声空间中进行探索计算成本高昂且难以收敛,导致效率低下且结果欠优化。 基于梯度的扩散引导直接从特定目标计算梯度,并利用它们通过修改时间状态来引导去噪轨迹。
为了通过直接注入来自奖励的引导来有效地对齐扩散模型,本工作旨在训练一个超网络,该网络在每个去噪步骤生成特定于提示(prompt-specific)和感知状态(state-aware)的调整。这种设计通过将昂贵的测试时优化分摊到微调期间紧凑且可学习的建模过程中,从而保持了计算效率。
在介绍本方法之前,首先分析利用生成梯度引导去噪轨迹的扩散引导方法。基于贝叶斯规则,可以推导出 的近似表达式,其中第一项对应于无条件分数(unconditional score),不需要额外优化。因此,本工作专注于第二项,即把奖励梯度注入去噪过程:
其中奖励函数实际上是通过解码器应用于解码后的图像域。为了讨论的简洁性,此处省略了解码器符号。通过将上式代入扩散更新公式,可以观察到基于引导的方法通过将感知奖励的扩散动态注入到 中来实现对齐,这本质上改变了从 到 的过渡路径。
用于测试时对齐的超网络
梯度引导方法通过使用源自奖励的分数直接修改时间状态来执行测试时对齐,从而调整去噪轨迹。然而,从奖励模型向生成器反向传播梯度会带来巨大的计算开销,降低推理速度,并且与生成器的训练过程是脱节的。
为了缓解这些问题,同时保留特定任务建模的优势,本工作训练了一个超网络,该网络根据任务、输入和当前的生成状态有效地引导生成轨迹。其测试时对齐能力是在训练期间通过将基于奖励的引导注入超网络来学习的。与微调对齐方法使用一组固定参数适应所有用户意图组合不同,本方法是特定于提示且感知状态的,在每个去噪步骤动态生成自适应调制参数以对齐生成轨迹。
超网络作为动态 LoRA 预测器本工作的目标是学习一个超网络,该网络以 和 为输入,并输出针对生成过程每一步的调整。一种朴素的方法是学习一个对齐分数来替代公式 (6),但这需要类似于原始生成分数的公式,因此复杂度很高。相反,本工作将超网络设计为直接调整对应于原始生成模型中网络参数 的分数 ,具体通过为 生成一个轻量级的低秩适配器(Low-Rank Adapter, LoRA)来实现。
如下图 3 所示,超网络架构主要分为两个组件:感知编码器(Perception Encoder)和Transformer 解码器(Transformer Decoder)。
输入处理:具体而言,输入的时间潜变量 、时间步 和提示词 首先被传入感知编码器,该编码器由生成模型预训练 U-Net 的下采样块组成。预训练的 U-Net 携带丰富的扩散先验,使其成为捕捉跨不同输入组合语义表示的天然编码器。 特征解码与生成:编码后的特征随后通过一个线性层投影并传递给 Transformer 解码器。在这里,使用零初始化的 token 生成查询(Query, Q),并使用编码特征生成键(Key, K)和值(Value, V)。Transformer 解码器通过交叉注意力机制整合时间信息和语义信息。 LoRA 输出:随后的线性层将解码后的特征映射为 LoRA 权重:
其中 表示超网络 的参数。在时间维度上,将生成的 LoRA 权重整合到原始模型参数中,产生一个特定于输入和步骤的分数函数 (此处滥用符号 表示整合),从而修改底层的去噪轨迹。
高效的 HyperAlign (Efficient HyperAlign)默认情况下,公式 (7) 中的超网络设计可以从初始步骤 开始自适应地应用于所有生成步骤(称为 HyperAlign-S)。为了平衡推理效率,本工作进一步开发了两种变体:
HyperAlign-I:训练为仅在起始点预测一次 LoRA 权重,即 ,并将其用于所有步骤。 分段变体 (HyperAlign-P) :该变体在几个关键时间步产生新权重,同一分段内的所有时间步共享相同的 LoRA 权重。如下图 4 所示,本工作计算一步预测潜变量的相对 距离,较小的值表明相邻潜变量彼此相似。观察结果支持将相似的潜变量状态归为一段并共享相同的 LoRA 权重,这与不同去噪阶段的扩散行为一致。本工作计算曲率率以识别出对轨迹有更大影响的 个关键点。超网络被训练为仅在这些关键步骤重新生成 LoRA 权重,以便以比 HyperAlign-S 更少的计算量自适应地调制扩散过程,从而在效率和性能之间取得平衡。
HyperAlign 训练
为了优化超网络,可以使用奖励分数作为训练目标。通过最大化奖励信号,鼓励模型生成具有更高条件似然的中间预测,从而将潜变量轨迹与真实的条件分布对齐:
奖励优化的正则化虽然最大化奖励目标驱动模型产生高奖励、条件对齐的潜变量状态,但也暴露出两个关键挑战:
由于早期去噪阶段一步预测的模糊性导致奖励信号不准确; 过度优化的风险,即激进的奖励最大化导致"奖励破解"(reward hacking)或视觉保真度下降。
为了缓解这些问题,本工作引入了一个正则化损失来约束对齐过程并保持生成质量:
其中 表示超参数, 从偏好数据 中采样,且 。这鼓励学习到的去噪条件分数与偏好数据中的分数相匹配,从而规范化奖励破解问题。
超网络优化的最终学习目标如下:
本方法不仅限于扩散模型,如前所述,HyperAlign 同样兼容流匹配模型(Flow-Matching Models,例如实验中的 FLUX)。
实验结果
实验设置
模型与数据:使用 SD V1.5 和 FLUX 作为基础模型。HPSv2 用作奖励模型。正则化损失使用的偏好数据来自 Pick-a-Pic 和 HPD。 数据集与指标:评估数据集包括 Pick-a-Pic、GenEval、HPD 和 Partiprompt。使用 PickScore、ImageReward (IR)、HPSv2、CLIP、GenEval Scorer 和 Aesthetic Predictor 等六种 AI 反馈模型评估图像质量、提示词对齐度和视觉美感。
与现有方法的比较
本工作将 HyperAlign 与微调方法(如 DPO, KTO, GRPO)和测试时缩放方法(如 BoN, -greedy, FreeDoM, DyMO)进行了比较。
定量分析(如下表 1 和表 2 所示): 在 FLUX 和 SD V1.5 基础模型上,HyperAlign 在多个指标(Pick, IR, CLIP, HPS)上均优于现有的微调和测试时缩放基线。 HyperAlign 有效地实现了对齐,特别是 HyperAlign-S(每步调整)表现最佳,而 HyperAlign-I(仅初始步)和 HyperAlign-P(分段步)在保持竞争力的同时提供了更快的推理速度。 相比之下,测试时方法往往存在优化不足的问题,而微调方法则因缺乏输入适应性导致结果次优。
定性评估(如下图 5 和图 6 所示):
视觉比较显示,HyperAlign 生成的图像布局连贯、语义丰富且视觉美感优越。 测试时对齐方法生成的图像效果不稳定,有明显伪影;微调方法虽得分高但往往过度优化,产生颜色过饱和或畸变。 推理效率:
HyperAlign 生成单张图像仅需数秒(SD V1.5 上约 3-5秒,FLUX 上约 16-20秒),与基础模型相当。 相比之下,测试时缩放方法(如 -greedy)因梯度计算或重复采样,耗时巨大(需数百秒)。HyperAlign 生成和加载自适应权重的额外时间成本几乎可以忽略不计。 用户研究(如下图 7 所示):
在针对 FLUX 模型的用户研究中,100名参与者对三个维度(总体偏好、视觉吸引力、提示词对齐)进行投票。HyperAlign-S 在所有维度上均获得了最高的用户认可率,显著优于 DyMO、SRPO 和 MixGRPO 等方法。
消融研究
正则化数据的影响:使用 HPD 替代 Pick-a-Pic 作为正则化数据,或结合 PickScore 作为奖励,HyperAlign 依然表现强劲,证明了方法的鲁棒性(如下表 3 所示)。 损失函数的作用:仅使用偏好数据微调收益微薄;仅使用奖励优化会导致过度优化(如颜色过饱和)。结合奖励损失 和正则化损失 能在提升指标的同时保持视觉自然度(如下图 13 所示)。
额外分析
GenEval 基准测试:HyperAlign 在对象合成、属性绑定等细粒度指标上表现优异(如下表 4 和表 5 所示)。 LoRA 权重动态:分析显示,随着去噪过程进行,生成的 LoRA 权重与初始权重的余弦相似度降低, 变化率增加,表明不同时间步起到了不同的功能作用(如下图 8 所示)。 多样性:PCA 分析表明,HyperAlign 为不同提示词生成了独特的 LoRA 权重,特别是在生成初期(如下图 9 所示)。
总结
HyperAlign,一个基于超网络的高效生成模型测试时对齐框架。HyperAlign通过在去噪步骤中动态生成低秩调制权重,实现了基于奖励信号的轨迹级对齐。其变体在计算效率与对齐精度之间提供了灵活的权衡机制。在扩散模型和整流流骨干网络上的大量实验表明,与现有微调及测试时对齐方法相比,HyperAlign在语义一致性和美学质量方面均表现出优越性能。未来,将在开发更轻量化超网络设计的同时,持续增强动态适应能力,从而进一步提升系统的效率与可扩展性。
参考文献
[1] HyperAlign: Hypernetwork for Efficient Test-Time Alignment of Diffusion Models
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论