LBM是一种新型、多功能且可扩展的方法,它依赖于潜在空间中的桥匹配来实现快速的图像到图像转换。该方法仅使用一个推理步骤即可在各种图像到图像任务中达到最佳效果。除了效率之外,该方法在不同图像转换任务(例如对象移除、法线和深度估计以及对象重新照明)中的多功能性。
相关链接
论文:https://arxiv.org/pdf/2503.07535 主页:https://gojasper.github.io/latent-bridge-matching 代码:https://github.com/gojasper/LBM 试用:https://huggingface.co/spaces/jasperai/LBM_relighting
论文介绍
论文介绍了潜在桥匹配 (LBM),这是一种新型、多功能且可扩展的方法,它依赖于潜在空间中的桥匹配来实现快速的图像到图像转换。论文证明了该方法仅使用一个推理步骤即可在各种图像到图像任务中达到最佳效果。除了效率之外,还展示了该方法在不同图像转换任务(例如对象移除、法线和深度估计以及对象重新照明)中的多功能性。论文还推导出 LBM 的条件框架,并通过解决可控图像重新照明和阴影生成任务来证明其有效性。
方法
图像到图像的转换是一项可以视为传输问题的任务,其目标是将源图像(例如合成图像)的分布传输到目标图像(例如重新点亮的图像)的分布。在提出的潜在桥匹配 (LBM) 方法中,给定成对的图像,我们建议将源图像和目标图像编码到潜在空间中,然后在它们之间构建一条称为布朗桥的随机路径。特别是,这些路径的随机性使该方法不同于流匹配,并允许达到更广泛的样本多样性。
训练过程如下,详见上图。首先,我们绘制一对图像。这些样本首先使用预训练的 VAE 编码到潜在空间中,从而得到相应的潜在值。我们在这两个潜在值之间创建了一个布朗桥。从精心选择的分布中绘制一个时间步长,以获得该给定时间步长上轨迹上的潜在值。然后将该样本传递给降噪器,该降噪器预测相关随机微分方程 (SDE) 的 漂移。
在训练期间,我们还引入了一个像素损失,包括解码估计的目标潜在值并将其与真实目标图像进行比较。我们发现 LPIPS 在实践中效果很好,并加快了域转移速度。为了根据图像大小进行扩展,我们实施了随机裁剪策略,并且仅在图像大小大于某个阈值时才计算补丁上的损失。这限制了模型的内存占用,因此它不会成为训练效率的负担。
物体重新照明
我们专注于根据给定背景重新照亮前景物体的任务,也称为图像协调。所提出的方法能够在保留背景的同时为前景物体添加强烈的照明变化。此外,它能够去除现有的阴影和反射,使前景物体看起来更逼真。
移除对象
此外,我们考虑从图像中删除对象的任务。对于此设置,模型经过训练以找到从蒙版图像到没有对象的图像的传输图。如图所示,我们的模型不仅可以删除对象,还可以删除相关的阴影。
图像恢复
为了进一步强调该方法的多功能性,我们还考虑了一个图像恢复任务,其中模型应该将退化图像的分布传输到干净图像的分布。
可控物体重新照明和阴影生成
我们展示了我们提出的条件潜在桥接匹配模型在可控阴影生成和图像重新照明方面的有效性,其中模型还以表示光源位置、颜色和强度的光照图为条件。在这些情况下,模型必须根据这些光源重新照亮前景物体,或者根据光源在地面上生成阴影。
其他结果
最后,我们还考虑常见任务,例如正常和深度估计,其中模型应该将输入图像转换为正常或深度图。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论