2025年9月28日星期日

图像生成又快又好又便捷!港科大推出InfGen:即插即用,10秒生成8K超清图像,轻松搞定任意分辨率图像生成!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

面对扩散模型生成高分辨率图像时计算需求激增、生成延迟长的问题,港科大基于第二代潜在扩散模型提出了InfGen,以固定潜在向量为内容表征,采用一步生成器解码任意分辨率图像,无需重新训练扩散模型。此方法简化了流程、降低计算复杂度,可应用于使用相同潜在空间的任何模型。实验显示 InfGen 能让众多模型进入任意高分辨率时代,4K图像生成时间大幅缩短,且具备即插即用、高质量且快速等优势。

图片

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2509.10441
  • 项目:https://github.com/taohan10200/InfGen(coming soon...)

unsetunset论文介绍unsetunset

图片

论文名:InfGen: AResolution-Agnostic Paradigm for Scalable Image Synthesis

任意分辨率图像生成可在跨设备环境下提供一致的视觉体验,对生产者和消费者都有广泛的应用。当前的扩散模型计算需求随分辨率的增加呈二次方增长,导致 4K 图像生成延迟超过 100 秒。

为了解决这个问题,论文探索了第二代潜在扩散模型,其中扩散模型生成的固定潜在向量被视为内容表征,并提出使用一步生成器,利用紧凑的生成潜在向量来解码任意分辨率图像。因此提出了 InfGen,用新的生成器取代 VAE 解码器,用于从固定大小的潜在向量生成任意分辨率的图像,而无需重新训练扩散模型。这简化了流程,降低了计算复杂度,并且可以应用于使用相同潜在空间的任何模型。实验表明,InfGen 能够改进许多模型,使其进入任意高分辨率时代,同时将 4K 图像生成时间缩短至 10 秒以下。

unsetunset方法概述unsetunset

图片训练和推理过程的图示。生成器在潜在空间中训练,以任意分辨率和宽高比重建图像。在推理过程中,它可以用于改进各种扩散模型,使其能够在各种任务中生成任意分辨率的图像。

unsetunset实验结果unsetunset

图片任意图像生成的可视化。提出的 InfGen 提高了 LDM 在不同分辨率下的生成能力。

图片提升扩散模型在任意分辨率下的性能。InfGen 可以提升现有基于潜在特征的扩散模型在所有指标上在不同分辨率下的性能,尤其是在高分辨率下性能提升尤为显著。

图片与其他方法的定量比较。我们的 InfGen+SDXL-B-1 在不同分辨率下均表现出色,同时实现了极低的延迟。所有延迟均在 A100 GPU 设备上测试。下划线表示第二佳。

unsetunset结论unsetunset

InfGen 提供了一个高效的框架,用于生成任意分辨率的图像,解决了现有方法在扩散模型中专注于生成任意分辨率潜在空间的局限性,这些方法通常会导致显著的延迟和计算开销。通过在紧凑的潜在空间中训练二级生成模型,InfGen 可以将低分辨率潜在空间解码为任意分辨率的图像,而无需改变现有扩散模型的结构或训练。我们的实验表明,作为一种现成的增强方法,InfGen 可以改进任意分辨率的扩散模型。与其他专用方法相比,InfGen 实现了卓越的质量,并显著缩短了推理时间,生成 4K 图像仅需 7.4 秒。这一进步凸显了 InfGen 在显著增强快速超高分辨率图像生成能力方面的潜力。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

翁荔陈丹琦加盟的840亿AI公司,公开第二篇论文

核心瞄准让模型训练更高效稳定 一水 发自 凹非寺 量子位 | 公众号 QbitAI 明星创业公司Thinking Machines, 第二篇研究论文 热乎出炉! 公司创始人、OpenAI前CTO Mira Murati依旧亲自站台,翁荔等一众大佬也纷纷转发支持: 论文主题为...