2025年9月17日星期三

炸裂突破!InfGen让图像生成进入“任意分辨率”时代:4K图像7秒生成,速度狂飙10倍!

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Tao Han等

解读:AI生成未来

图片论文链接:https://arxiv.org/pdf/2509.10441

亮点直击

  • 新范式。引入了一种在任意分辨率下生成图像的新范式。基于生成隐空间变量的二次生成是一个未被探索的领域。
  • 即插即用。生成器可以作为插件用于升级所有基于VAE的模型,无需进一步训练,在提升现有生成模型的任意分辨率能力方面显示出显著改进。
  • 高质量且快速。与现有的SOTA方法相比,所提出的方法不仅实现了顶级的生成质量,还将生成速度提高了十倍以上。
图片

总结速览

解决的问题

  • 当前的扩散模型在生成高分辨率图像时,计算需求呈平方级增长,导致4K图像生成延迟超过100秒,难以满足快速生成的需求。

提出的方案

  • 引入InfGen,通过用新的生成器替换VAE解码器,从固定大小的隐空间变量生成任意分辨率的图像。此方案无需重新训练扩散模型,简化了流程。

应用的技术

  • 基于隐空间扩散模型的二次生成技术,将扩散模型生成的固定隐空间变量作为内容表示,并使用单步生成器解码任意分辨率图像。

达到的效果

  • 实现了显著的计算复杂性降低,4K图像生成时间缩短至10秒以内。
  • 提升了生成质量和速度,生成速度提高了十倍以上。
  • 提供了一种即插即用的解决方案,可以用于升级所有基于VAE的模型,无需进一步训练。

方法

概述。 使用 -预测范式的扩散模型通常在隐空间中操作。生成任意分辨率的图像涉及处理不同形状的隐空间变量,导致超高分辨率生成的高计算成本和延迟。本文提出了一种用于任意分辨率生成的更快速的扩散模型方法。首先将任意分辨率生成重新定义为一个两阶段任务。在不修改扩散模型的情况下,用一个能够解码任意分辨率的生成器替换了VAE解码器。然后详细介绍了这种生成器的设计和训练。由于训练高分辨率解码器计算成本高,最后引入了一种用于超高分辨率生成的迭代外推方案,提供了一种无需训练的分辨率增强方法。

InfGen: 固定隐空间变量输入,任意图像输出

InfGen是一个二次生成模型,其中扩散模型被基本视为内容生成器,主要生成固定、紧凑的内容隐空间变量 。此外,InfGen将  扩展为任意大小的图像,专注于在此过程中细化细节和纹理。这个范式有两个显著的好处:

  • 高推理速度:InfGen通过避免在高分辨率隐空间上的多步去噪,实现了非常快的推理速度。这种效率得益于在紧凑的隐空间变量  上通过一步推理生成任意分辨率的图像,从而降低了计算需求。
  • 即插即用:InfGen提供了强大的泛化能力,因为它可以应用于任何在相同隐空间上训练的扩散模型。这种灵活性使其能够适应各种生成模型和任务而无需额外训练。

InfGen的总体介绍

为了让InfGen能够无缝集成到各种基于扩散的生成模型中并增强其分辨率灵活性,我们提出了一个基于VAE隐空间的管道。如下图3所示,这种方法利用了前文中介绍的基本VAE架构。值得注意的是,我们的InfGen框架避免更改VAE编码器,从而保持与现有扩散模型(例如,SDXL ,DiT)的兼容性。相反,我们在解码器中引入了一个二次生成器。

训练pipeline。 在训练阶段,高分辨率图像最初经过裁剪和调整大小操作以符合固定尺寸,例如512 × 512。这些预处理图像随后由VAE编码器编码为固定大小的隐空间变量 ,通常缩小8倍,得到像4 × 64 × 64的尺寸。InfGen模型旨在实现任意分辨率生成。映射定义为:

图片其中, 是表示期望图像大小的动态参数, 是所需的输出图像。优化目标。损失函数包括对抗损失、重建损失和感知损失,其定义为:

图片其中, 表示重建与真实值之间的 L1 损失, 是通过 LPIPS 测量的感知损失, 是从 PatchGAN 判别器 导出的对抗损失。

推理流程。 如下图 3 所示,在推理阶段,通过将输入潜在向量替换为由兼容的扩散模型生成的向量(包括但不限于 DiT、SDXL、SiT、FiT),InfGen 可以为隐空间表示生成任意大小的图像。通过这种模式,InfGen 可以在不同任务上(如类指导生成、文本条件生成和图像修复)以成本效益高的方式增强扩散模型的灵活性和分辨率。

图片

任意分辨率解码器架构

如上图3(a)所示,本文提出了一种新颖的架构,能够在任意分辨率下进行重建。基于传统的 VAE 结构,引入了基于transformer的潜在生成器。具体来说,将隐空间变量视为提示,将其用作键和值。在隐空间变量  的指导下,创建了一个masktoken,作为查询,针对所需的图像尺寸  进行调整。为了生成尺寸为  的图像,masktoken的形状为 。这形成了适用于transformer块中多头自注意力(MHSA)机制的键-查询-值三元组。

在多层transformer块中,这个三元组进行交叉注意力计算。masktoken作为查询,不断与潜在键进行交互,通过相似性计算收集信息。最后,我们将masktoken发送到解码器进行上采样,生成任意最终图像。

隐式神经位置嵌入

位置编码对于匹配mask和潜在token之间的空间信息至关重要。图像被分割为固定大小的块,将每个块的位置嵌入视为可学习的token。位置编码有助于保留空间信息。然而,这通常限制了输入图像的大小,因为这些编码是为固定数量的token设计的。

为克服这一限制,本文提出了一种隐式神经位置嵌入(INPE)方法,用于在masktoken数量动态变化时生成,这允许在交叉注意力中固定大小的隐空间表示和不同大小的mask token之间的交互,从而实现具有不同维度的潜在token的再生。

标准化和转换。 首先,将每个masktoken  和潜在token  的坐标标准化,以便将不同的大小映射到一个统一的尺度:

图片其中, 和  分别表示隐空间token或mask token的宽度和高度。标准化的二维坐标随后被转换为单位球上的三维笛卡尔坐标:。这种映射利用球面几何来捕捉复杂的空间关系,增强了连续性以实现平滑的特征学习,并通过对称结构减少坐标偏差。

傅里叶变换和神经映射。 三维坐标被转换为高频傅里叶特征,以增强模型的模式捕捉能力:图片其中,对角矩阵  是从高斯分布  中随机采样的。它用于将坐标映射到高维空间。这些傅里叶特征随后被输入到隐式神经网络中,通过公式 (3) 生成动态位置编码。对齐与优化。生成的位置编码与潜在token和masktoken对齐,以增强交叉注意力中的信息交互。动态编码被整合到  和  中,以提高对齐和注意力的有效性。最后,通过最小化公式 (5) 中引入的损失函数来协同优化参数 

无需训练的分辨率外推

为了生成超出训练分辨率的图像,本文引入了一种迭代生成方法,这是一种无需训练的外推方法,可以将生成的隐空间表示连续地扩展到任意超高分辨率(例如 4K)。保证基础分辨率。如表 1 所示,InfGen 接收一个大小为  的非常低分辨率隐空间表示 ,并能够从隐空间生成图像分辨率 ,其中 。一个初始隐空间表示  大小为 ,用于生成一个分辨率高达  的图像 

其中  和  是高度和宽度的缩放因子,范围在  之间。

迭代外推分辨率。 生成的图像随后被编码回隐空间表示,以进行进一步生成:图片

每次迭代涉及一个缩放因子 。建议在下表 1 所示的缩放范围内进行迭代。

图片

实现任意分辨率。 通过重复这一过程,模型实现最终分辨率 

下表 3 的结果验证了这是一种稳健的外推方法,用于灵活的分辨率增强,确保高质量的图像生成。

图片

实验

数据集。 需要高分辨率训练数据集以增强解码器在重建过程中表达图像细节和纹理的能力。从 LAION-Aesthetic中选择了 1000 万张分辨率超过  的图像作为训练集。进一步筛选后得到 500 万张分辨率超过  的图像,将高分辨率训练数据分为两部分。由于训练过程中输入图像分辨率动态变化,将训练分为两个阶段,并改变批量大小以避免内存不足错误。

实现细节。 在训练过程中,我们保持预训练的 VAE 编码器冻结。对于不同的批次,图像被随机裁剪成不同的尺寸。对于输入,它们随后被调整为固定大小,例如 ,以获得固定大小的隐空间表示。对于目标,它们保持裁剪后的形状,除非进行另一次裁剪以支持任意比例的解码。由于高分辨率图像重建的计算和内存需求昂贵,第一个训练阶段使用  到  的分辨率,批量大小为 32。在第二阶段,分辨率范围从  到 ,批量大小减少到 8。训练迭代分别为 50 万和 10 万次,使用 8 个 A100 GPU 持续 15 天。AdamW 优化器 [18] 被使用,初始学习率为 ,通过余弦衰减逐渐减少到 。公式 (5) 中的  和  均设置为 0.1。

指标。 对于生成,我们主要关注 FID、sFID、精确度和召回率。由于 FID 需要下采样到  的分辨率进行测试,下采样可能会降低高分辨率图像的细节,使其不适合评估生成高分辨率图像的性能。因此,我们采用 UltraPixel 中提出的方法,将高分辨率图像裁剪成不同的  的块进行测试,记为 FIDp、sFIDp、Pre.p 和 Rec.p。遵循先前的tokenizers报告 PSNR 和 SSIM 作为重建质量的指标。

与其他图像tokenizers的比较

将本文的tokenizers与离散图像tokenizers(如 VQGAN)和连续图像tokenizers(如 SD VAE 和 SDXL VAE)进行比较。如下表 2 所示,尽管 InfGen 被训练在更复杂的任务上,我们的tokenizers在重建性能上与常用的 VAE 相比具有竞争力。此外,在不同的输入输出分辨率上测试了 LAION 数据集,以评估图像重建质量。LAION 图像呈现更复杂的场景,我们的结果与 ImageNet 验证集的结果一致,表明我们的tokenizers有效处理了以对象为中心和以场景为中心的图像。

图片

提高扩散模型的性能

InfGen 模型旨在增强生成模型的分辨率。训练后,InfGen 可以用作插件来替换现有隐空间生成模型的 VAE 解码器,特别是那些与我们的 VAE 编码器相同的模型。为了评估,本文测试了几个经典和新发布的生成模型,包括 DiT-XL/2、SiT-XL/2、MaskDiT、MDTv2 和 FiTv2。通过用 InfGen 替换这些模型的 VAE 解码器,生成的隐空间变量可以解码为任何分辨率的输出。表 3 中的结果详细说明了 InfGen 为每个生成模型带来的分辨率提升性能改进。对于原始模型,它们无法生成任意分辨率的图像,我们将其输出上采样到评估大小。评估了两种不同的隐空间大小: 和 

定量比较。 对于  的隐空间,评估了在生成 (4倍上采样)和 (16倍上采样)图像时的性能。对于  的隐空间,我们评估了在  和  分辨率下的性能改进。实验结果显示,InfGen 在高分辨率下显著增强了所有模型的生成性能。例如,在  的 FID 上,InfGen 在 DiT 上实现了高达 41% 的改进,在 SD1.5 上实现了 44% 的改进。在所有五个评估的分辨率上,平均改进分别为 8%、34%、13%、16% 和 42%。这些结果表明,InfGen 不仅使现有的扩散模型能够在任意分辨率下生成图像,而且显著提高了不同分辨率下的生成质量。

可视化比较。 下图 4 展示了InfGen 模型与基准模型在各种分辨率下的视觉比较。使用 SD1.5 进行高分辨率图像合成会导致视觉上不吸引人的结构和大量不规则纹理,这大大降低了视觉质量。相比之下,我们的方法在产生卓越的语义连贯性和细节复杂性方面表现出色。例如,在  的分辨率下,我们生成的熊猫、猫和狮子的图像展示了更详细的特征。即使在不同分辨率下使用固定潜在方法生成图像,我们的方法也始终提供视觉上令人满意且语义连贯的结果。

图片

与其他最先进方法的比较

基准和评估。 将文本到图像的生成性能与一些现有的任意分辨率生成方法进行比较。这里选择了最近的方法,包括无训练方法如 ScaleCraft 和基于训练的方法,如 UltraPixel 和 Inf-DiT 进行比较。我们在  和  的分辨率下全面评估了我们模型的性能。为了公平比较,在同一台 A100 GPU 设备上实现所有方法,并分别为  和  采样 1,000 张图像和 600 张图像,其中参考图像和标题从 LAION 数据集中选择。此外,包括了 SDXL-Base-1.0 的结果,在  分辨率下其 FIDP 为 35.14,在  分辨率下为 94.61,展示了其在生成高分辨率图像方面的稳健性。这些结果进一步验证了我们的方法在与多种基础模型集成时的有效性。

定量比较。 正如下表 4 所示,本文方法 InfGen+SD1.5 在两个高分辨率下的 FID、sFID、Precision 和 Recall 方面表现出竞争力。值得注意的是,InfGen 在推理效率上具有显著优势,生成一个  的图像大约只需 5 秒,比 UltraPixel 快 4 倍。无训练方法和基于超分辨率的方法生成一个 2K 图像需要几分钟。这些发现强调了我们的方法在生成超高分辨率图像时的卓越效率。

图片

结论

InfGen提供了一个高效的框架,用于生成任意分辨率的图像,解决了现有方法在扩散模型中生成任意分辨率隐空间时,常常导致显著延迟和计算开销的问题。通过在紧凑的隐空间中训练一个次级生成模型,InfGen 可以将低分辨率隐空间解码为任意分辨率的图像,而无需改变现有扩散模型的结构或训练。实验表明,InfGen 作为一种现成的增强工具,可以改善扩散模型在任意分辨率下的表现。与其他专门方法相比,InfGen 在质量上更优,并显著减少了推理时间,生成一个 4K 图像仅需 7.4 秒。这一进步突显了 InfGen 在显著提升快速超高分辨率图像生成能力方面的潜力。

参考文献

[1] InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

华为云再掀算力风暴:CloudMatrix384超节点将升级,Tokens服务性能最大可超H20四倍

十年积累成就"算力黑土地" 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 华为云算力再迎重大突破! 刚刚落幕的华为全联接大会2025,一系列新进展发布—— AI算力云服务升级, 基于华为云刚刚发布的最新AI服务器规划, CloudMatrix的云上...