标题:PractiLight: 使用基础扩散模型进行实用光控制 论文:https://arxiv.org/pdf/2509.01837 项目:https://yoterel.github.io/PractiLight-project-page 代码:https://github.com/yoterel/PractiLight
论文介绍
生成图像中的光线控制是一项艰巨的任务,它带来了特殊的挑战,涵盖了整个图像和频谱。大多数方法通过在广泛但特定领域的数据集上进行训练来解决这个问题,这限制了所用基础主干网络固有的泛化能力和适用性。而 PractiLight 则是一种实用的方法,它有效地利用了对近期生成模型的基础理解来完成这项任务。
论文的关键见解是,图像中的光照关系本质上类似于自注意力层中的标记交互,因此在自注意力层中得到了最佳体现。基于此以及其他关于早期扩散迭代重要性的分析,PractiLight 训练了一个轻量级的 LoRA 回归器,使用一小组训练图像来生成给定图像的直接辐照度图。然后利用该回归器,通过分类器引导,将所需的光照融入到另一幅图像的生成过程中。这种精心的设计能够很好地泛化到各种条件和图像领域。在质量和控制方面展现了最先进的性能,并且在各种场景类型上与领先成果相比,具有经过验证的参数和数据效率。论文希望这项工作能够证实,通过利用基础知识可以切实控制图像照明,从而实现实用和通用的重新照明。
简而言之
论文的主要观察结果是,大型扩散模型能够很好地理解光的传输,无需在数百万张图像上对其进行微调即可实现合理的重新照明,从而降低泛化能力。为了利用这一先验知识,只需仔细考虑在何处(层)和何时(时间步)添加引导即可。这使我们能够在小规模合成数据集上训练一个微型回归器来提取直接辐照度图,并使用它来指导生成过程,以非常显著的效果重新照明图像,同时保留原始图像的标识和风格。方法可以在广泛的图像域上获得重新照明结果,只需很少的额外计算,也不需要专门或大规模的数据。
光传输分析
为了研究哪些层编码了光传输现象,论文进行了一项特征注入实验:将来自 relit 图像生成的激活信号注入到原始图像(来自同一场景)的生成过程中。我们发现光传输效应主要编码在自注意力层中,尤其是在基于 UNet 的扩散模型(例如 SD 1.5)的解码器中。这并不奇怪——我们推测自注意力中的多对多交互类似于光传输交互,这使得这些层成为编码此类效应的自然场所。从这个意义上讲,自注意力可以作为光传输建模的归纳偏差。
验证
通过创建包含来自不同图像领域的自定义提示图像数据集来验证我们的方法。将本文的结果与其他最先进的方法进行了比较,并测量了其美观性、控制力、身份一致性以及效率。我们发现我们的方法在所有指标上都极具竞争力。我们进一步进行了一项用户研究,结果表明我们的结果优于其他方法。我们将结果的泛化能力和高质量归功于回归器的小规模训练。
没有评论:
发表评论