添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
面对扩散模型生成高分辨率图像时计算需求激增、生成延迟长的问题,港科大基于第二代潜在扩散模型提出了InfGen,以固定潜在向量为内容表征,采用一步生成器解码任意分辨率图像,无需重新训练扩散模型。此方法简化了流程、降低计算复杂度,可应用于使用相同潜在空间的任何模型。实验显示 InfGen 能让众多模型进入任意高分辨率时代,4K图像生成时间大幅缩短,且具备即插即用、高质量且快速等优势。
相关链接
论文:https://arxiv.org/pdf/2509.10441 项目:https://github.com/taohan10200/InfGen(coming soon...)
论文介绍
论文名:InfGen: AResolution-Agnostic Paradigm for Scalable Image Synthesis
任意分辨率图像生成可在跨设备环境下提供一致的视觉体验,对生产者和消费者都有广泛的应用。当前的扩散模型计算需求随分辨率的增加呈二次方增长,导致 4K 图像生成延迟超过 100 秒。
为了解决这个问题,论文探索了第二代潜在扩散模型,其中扩散模型生成的固定潜在向量被视为内容表征,并提出使用一步生成器,利用紧凑的生成潜在向量来解码任意分辨率图像。因此提出了 InfGen,用新的生成器取代 VAE 解码器,用于从固定大小的潜在向量生成任意分辨率的图像,而无需重新训练扩散模型。这简化了流程,降低了计算复杂度,并且可以应用于使用相同潜在空间的任何模型。实验表明,InfGen 能够改进许多模型,使其进入任意高分辨率时代,同时将 4K 图像生成时间缩短至 10 秒以下。
方法概述
训练和推理过程的图示。生成器在潜在空间中训练,以任意分辨率和宽高比重建图像。在推理过程中,它可以用于改进各种扩散模型,使其能够在各种任务中生成任意分辨率的图像。
实验结果
任意图像生成的可视化。提出的 InfGen 提高了 LDM 在不同分辨率下的生成能力。
提升扩散模型在任意分辨率下的性能。InfGen 可以提升现有基于潜在特征的扩散模型在所有指标上在不同分辨率下的性能,尤其是在高分辨率下性能提升尤为显著。
与其他方法的定量比较。我们的 InfGen+SDXL-B-1 在不同分辨率下均表现出色,同时实现了极低的延迟。所有延迟均在 A100 GPU 设备上测试。下划线表示第二佳。
结论
InfGen 提供了一个高效的框架,用于生成任意分辨率的图像,解决了现有方法在扩散模型中专注于生成任意分辨率潜在空间的局限性,这些方法通常会导致显著的延迟和计算开销。通过在紧凑的潜在空间中训练二级生成模型,InfGen 可以将低分辨率潜在空间解码为任意分辨率的图像,而无需改变现有扩散模型的结构或训练。我们的实验表明,作为一种现成的增强方法,InfGen 可以改进任意分辨率的扩散模型。与其他专用方法相比,InfGen 实现了卓越的质量,并显著缩短了推理时间,生成 4K 图像仅需 7.4 秒。这一进步凸显了 InfGen 在显著增强快速超高分辨率图像生成能力方面的潜力。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论