视觉自回归生成面临生成器与分词器不一致的瓶颈,导致图像质量下降。reAR通过噪声上下文正则化与码本嵌入正则化,即插即用地提升模型对分词器的兼容性,仅用177M参数即可达到675M扩散模型的性能,FID降至1.42。适合AI研究人员与开发者,用于高效高质的图像生成任务。
Tags:
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Qiyuan He等
论文链接:https://arxiv.org/pdf/2510.04450
git链接:https://github.com/QY-H00/reAR
亮点直击
将生成器和分词器之间的不一致性,即分词器无法解码生成的 token 序列,确定为视觉自回归生成的瓶颈; reAR,一种即插即用的训练正则化方法,它引入了分词器的视觉归纳偏置并减轻了暴露偏差以训练视觉自回归模型; 证明了 reAR 显著改善了不同分词器上的视觉自回归生成(例如,在 VQGAN 上,FID 从 3.02 提高到 1.86),甚至使用更少的参数超越了更复杂的生成模型。
总结速览
生成效果展示
解决的问题
视觉自回归(AR)生成模型在图像生成方面的性能显著落后于扩散模型。研究人员发现其核心瓶颈在于生成器-分词器之间存在不一致性。具体表现为:
生成器生成的 Token 序列分词器难以有效解码回图像。 暴露偏差(Exposure Bias):AR 模型在训练时基于真实上下文预测下一个 Token,但在推理时却依赖自身可能存在错误的预测,导致生成训练中未曾出现的 Token 序列。这在视觉 AR 中尤为明显,一个早期错误可能导致图像结构性伪影的传播。 嵌入无感知(Embedding Unawareness):AR 模型在训练时仅优化离散 Token 索引的正确性,而忽略了分词器如何将这些 Token 嵌入到连续空间。即使 Token 预测错误,若其嵌入与正确 Token 接近,图像质量也可能更高,但 AR 模型对此并不"感知"。这种无感知导致模型无法有效利用嵌入空间中的相似性信息,并可能使生成序列的嵌入偏离训练分布。
提出的方案
提出了 reAR,一种即插即用(plug-and-play)的训练正则化框架,旨在解决生成器-分词器不一致性问题,并使 AR 模型能够生成对分词器更"友好"的 Token 序列。reAR 引入了Token 级别的一致性正则化。
reAR 主要包含两个互补的策略:
噪声上下文正则化(Noisy Context Regularization):在训练期间,通过将模型暴露于扰动的上下文(即对输入 Token 序列施加均匀噪声)来减少其对"干净"真实上下文的依赖。这提高了模型在测试时对不完美预测历史的鲁棒性,从而缓解了暴露偏差导致的生成未见 Token 序列的趋势。 码本嵌入正则化(Codebook Embedding Regularization):显式地将生成器 Transformer 的隐藏状态与分词器的嵌入空间对齐。具体来说,通过训练 Transformer 在噪声上下文中恢复当前 Token 的视觉嵌入,并在浅层预测当前 Token 的嵌入,在深层预测目标(下一个)Token 的嵌入。这鼓励生成器感知 Token 如何被解码为视觉 Patch,即使生成了未见 Token 序列,其对应的嵌入序列也能与分词器更兼容。
应用的技术
reAR 框架不需要对现有视觉 AR 模型的任何核心组件进行修改,包括:
无需改变分词器(Tokenizer) 无需改变生成顺序(Generation Order) 无需改变推理流水线(Inference Pipeline) 无需引入外部模型(External Models)
其核心技术在于:
解码器专用 Transformer:保持了 AR 模型原有的基于 Transformer 的架构,用于下一个 Token 预测。 Token 级别的正则化目标:在传统的下一个 Token 预测损失之外,额外引入了对当前 Token 视觉嵌入恢复和下一个 Token 嵌入预测的正则化任务。 线性退火调度(Linear Annealing Schedule):用于控制噪声上下文正则化中噪声水平的逐渐变化,以确保训练稳定性和模型暴露于不同噪声程度。 **多层感知机 (MLP)**:用于将 Transformer 的隐藏特征投影到目标视觉嵌入空间,以便进行嵌入正则化。 余弦距离(Cosine Distance):作为衡量生成器特征与分词器嵌入之间距离的度量。
达到的效果
reAR 取得了显著的性能提升,且具有优秀的泛化能力和效率:
显著提升图像生成质量: 在 ImageNet 数据集上,使用标准光栅化分词器,gFID 从 3.02 降低到 1.86,IS 提高到 316.9。 在相同的模型大小和训练预算下,reAR 甚至超越了传统的 MAR、VAR 和 SiT 等替代范式。 对不同分词器的泛化能力强: 即使与 TiTok (双向) 和 AliTok (单向) 等非标准分词器结合,reAR 也能持续提高性能(例如,TiTok 上 FID 从 4.45 提升到 4.01,AliTok 上 FID 从 1.50 提升到 1.42)。 匹配最先进扩散模型的性能,同时参数量更少: 结合高级分词器 AliTok,reAR 以仅 177M 参数实现了 1.42 的 gFID,这与需要 675M 参数的更大规模、最先进的扩散模型 REPA 的性能相匹配。 reAR-S 使用 14% 的参数量(201M vs. 1.4B)优于 LlamaGen-XL,并在大小仅为 WeTok 的 13-15% 的情况下超越了它。 良好的缩放行为:随着模型规模和训练迭代次数的增加,reAR 的 FID 持续下降,显示出其在大规模视觉 AR 模型中的潜力。 更快的采样速度:与其他自回归模型一样,reAR 受益于 KV-cache,实现了比扩散模型和 MAR 更高的采样速度。reAR-B-AliTok 甚至比 Maskbit 等并行解码方法能以更快的速度达到更低的 FID。 更高的泛化能力和鲁棒性:reAR 缩小了训练数据和未见数据之间的性能差距,并在噪声输入下表现出更高的鲁棒性,从而提高了泛化能力。
reAR: 视觉 AR 中的一致性正则化
与自然语言不同, 不是视觉自回归生成中的最终生成结果。因此,生成器和解码器之间的不一致性可能导致不令人满意的结果,即使自回归模型训练良好。例如,当采样分词器训练数据集中未见或稀有的序列 时,序列 可能无法被解码器 D 正确解码并影响最终生成结果。本文假设分词器和生成器之间的不一致性是性能的主要障碍。一个有前景的解决方案是训练 AR 模型,使其能够生成对分词器友好的 token 序列。
为了验证本文的假设,研究并定量分析了现有视觉自回归模型如何受到不一致性的影响。基于这些观察,提出了 reAR:正则化视觉自回归生成中的 token 级别一致性,这是一种为视觉自回归模型设计的即插即用正则化训练方法。总之,reAR 将从离散分词器中查找的视觉嵌入引入到噪声上下文下生成器的隐藏特征中。尽管其很简单,但 reAR 允许自回归模型利用与分词器兼容的视觉信号,并显著减少不一致行为。
理解视觉自回归生成的瓶颈
自回归模型的性能可以通过生成 token 与真实序列 的正确 token 比率 (CTR) 来评估,其中 。虽然 CTR 被广泛用于指示性能,但 token 序列只是视觉自回归生成中的中间表示,最终输出实际上是解码图像。为了评估端到端质量,本文转而测量两个 token 序列解码图像之间的 LPIPS。本文认为训练和推理之间的不一致性可以从 CTR 和 LPIPS 之间的不一致性中观察到。在下文中,两个受控实验表明,具有相似 CTR 的生成 token 序列可以导致不同质量的图像。这种不一致性也通过 AR 模型的其他指标(例如困惑度)反映出来,详情见附录B。
放大的暴露偏差。 暴露偏差是序列模型中一个众所周知的问题:在教师强制训练期间,模型在给定真实上下文的情况下预测下一个 token,而在推理时它必须以自己的预测为条件,这可能包含错误。在视觉自回归生成中,本文假设视觉分词器会放大这种效应,因为暴露偏差会导致更多未见 token 序列并在像素空间中传播结构错误。为了验证它,考虑一个从图像解码的 token 序列 ,其真实 token 比率 。本文比较了两种解码协议:(1) 完美上下文(前置)。将前 个 token 固定为真实值,即 ,并让 AR 模型生成其余部分。这在给定 的情况下最小化了暴露偏差,因为上下文在步骤 之前保持干净。(2) 不完美上下文(均匀交错)。均匀随机采样一个掩码 ,其中 。在第 步解码期间,如果 ,则使用真实 token ,否则从 AR 模型中采样 token。这引入了上下文的早期污染,从而增加了暴露偏差,与具有相似 CTR 的完美上下文相比。
由于两种协议都将真实 token 的数量固定为 ,因此下游质量的任何差异都反映了对暴露偏差的敏感性,而不是 token 级别的准确性。结果显示在图 3(a) 中。对于可比较的 CTR,不完美上下文始终比完美上下文产生更高的 LPIPS。从定性上看,不完美上下文导致图像与原始图像显著偏离,而完美上下文产生更好的预测,即狗的布局更相似。这突出表明缓解暴露偏差在视觉自回归生成中至关重要。
嵌入无感知。 在训练期间,AR 模型仅针对 token 正确性进行优化,而分词器解码器在嵌入空间中操作。本文假设即使预测的 token 不正确,如果其嵌入与正确 token 的嵌入接近,解码图像仍可能保持高视觉质量。为了验证这一点,本文引入了替换比率 。给定真实序列 ,AR 模型通过教师强制预测 。对于每个不正确的预测 (),本文以 的概率将其替换为另一个不正确的 token ,其嵌入 在余弦相似度 下最接近正确嵌入 ,即 。此替换不会改变 CTR。
图 3(b) 显示了结果。随着 的增加,平均嵌入相似度提高,LPIPS 显著下降。从定性上看,如图 3(b) 右侧所示,这种在不改变 CTR 的情况下进行的替换可以产生更忠实于真实值的解码图像(例如,更清晰地预测衬衫和人腿)。这表明将分词器嵌入融入 AR 模型的训练中可能会提高它们之间的一致性。
增加生成器-分词器不一致性的直接方法是在 AR 模型的嵌入层或预测头中重用分词器的码本嵌入。然而,这种方法通常会导致次优性能,除非分词器设计复杂。本文假设这种僵硬的集成并不理想:它可能会限制大型 AR 模型与小型分词器的可扩展性,并且码本嵌入本身可能不是下一个 token 预测这一主要任务的最佳表示。需要以较少约束的方式将嵌入引入模型。
生成器-分词器一致性正则化
这些发现揭示了训练-推理不一致性:仅最大化预测 token 索引的正确性不足以用于视觉 AR 模型。需要适当的归纳偏置来训练生成器,使其生成的 token 序列在推理期间与分词器更一致。
为了解决这种不一致性,reAR 在视觉 AR 模型的训练期间引入了 token 级别一致性正则化。具体而言,解码器专用 Transformer 被训练以在噪声上下文下执行下一个 token 预测,同时其隐藏表示通过浅层中正确当前 token 的视觉嵌入和深层中正确下一个 token 的嵌入进行正则化。这鼓励 AR 模型像分词器一样解释当前 token,同时提高对暴露偏差的鲁棒性,然后预测与解码器兼容的下一个 token 嵌入。
下面,本文将 AR 模型表示为 ,分词器码本表示为 ,训练数据集表示为 ,离散 token 序列表示为 。
噪声上下文正则化。 尽管计划采样等技术可以缓解暴露偏差,本文选择了一种简单的方法,保留了 Transformer 的并行训练。具体而言,本文对输入应用均匀噪声,表示为 。形式上:
其中 是概率为 的伯努利随机变量, 从码本索引中均匀采样。在实践中, 的选择强烈影响训练稳定性。为了确保 AR 模型暴露于具有不同噪声水平的序列,本文对每个 token 序列采样 ,其中 表示归一化的训练进度。这里, 是一个控制训练期间最大噪声水平的退火调度。然后训练 AR 模型以基于噪声上下文预测下一个正确 token。形式上:
经验表明,与固定比率的噪声增强相比,退火均匀噪声增强可以稳定训练。
码本嵌入正则化。 本文不直接应用码本嵌入,而是提出添加一个正则化任务,即恢复当前嵌入并预测下一个嵌入。具体而言,本文应用一个可训练的 MLP 层 将隐藏特征投影到与视觉嵌入相同维度的目标空间。为简化符号,本文使用 表示浅层 的特征,使用 表示深层 的特征。为了与解码器专用 Transformer 的设计对齐,浅层 的目标是预测当前 token 的嵌入, 的目标是预测下一个 token。形式上:
其中 是余弦距离,用于评估不同特征之间的距离, 表示从第 个当前 token 的特征到嵌入空间的映射, 是从码本中查找的当前 token 的嵌入, 是下一个 token 的嵌入。在实现中,本文将正则化应用于 vanilla AR 中最初最接近分词器嵌入的层(即用于编码正则化的第 1 层和用于解码正则化的第 15 层),以避免与下一个 token 预测这一主要任务发生潜在冲突。
生成器-分词器一致性正则化。 结合噪声上下文正则化和码本嵌入正则化,reAR 的目标是:
其中 是正则化项的权重。请注意,本文也将噪声 token 的隐藏特征与真实 token 的嵌入对齐,这进一步鼓励自回归模型以稳健的方式预测码本嵌入。这种联合效应对于提高视觉自回归生成的性能至关重要。
实验与分析
实验设置
本文的实验设置摘要如下:
数据集和评估。 本文在 ImageNet-1K 256×256 分辨率上使用 ADM 协议评估 reAR。每个模型使用无分类器指导生成 50k 张图像。本文报告 FID(越低越好)和 IS(越高越好),并通过 epoch 数和达到相同质量所需的参数量来比较训练效率。基线涵盖扩散模型、掩码生成(连续和离散)、VAR、随机顺序 AR、高级分词器 AR 和标准光栅 AR(参见表 1)。
模型配置。 本文使用 MaskGIT VQGAN(rFID= 1.97) 作为分词器和 DiT 风格AR 主干。本文报告了 reAR-S/B/L,分别具有 20/24/24 个因果 Transformer 层和 768/768/1024 的隐藏大小。为了评估 reAR 的泛化能力,本文还将其与 TiTok和 AliTok结合使用,并采用其原始设置。
训练。 所有模型都在 8 个 A800 GPU 上训练 400 个 epoch(批量大小 2048),使用 AdamW 、梯度裁剪(范数= 1)和累积。学习率在前 100 个 epoch 预热到 ,然后衰减到 ,持续剩余 300 个 epoch。类别标签以 0.1 的概率丢弃,以便在推理时实现无分类器指导。
reAR 实现。 本文对退火噪声增强应用线性调度。嵌入正则化使用一个 2 层 MLP(隐藏大小 2048,权重 )实现:浅层在 处正则化当前嵌入,而深层在整个 Transformer 的 深度处正则化解码特征(reAR-S/B/L 分别为 )。
主要结果
生成质量。 如表 1 所示,即使使用标准光栅顺序 AR 模型和简单的二维 patch 分词器,reAR 也取得了优异的结果。reAR-S 优于 LlamaGen-XL等先前的光栅 AR 模型(FID 2.00 vs. 2.34;IS 295.7 vs. 253.9),且仅使用 14% 的参数(201M vs. 1.4B),并超越了 WeTok等高级分词器 AR 模型,其大小仅为后者的 13-15%。在相似的规模下,它与 RAR相当并优于 RandAR ,reAR-L 则超越了 MAR-L 和 VAR-d30。虽然扩散模型和掩码生成模型仍然强大,但 reAR 以更少的训练 epoch 缩小了差距。
泛化能力。 本文还在非标准分词器 TiTok和 AliTok上评估了 reAR。与主要帮助双向分词的 RAR不同,reAR 始终改进了双向 (TiTok: 4.45 → 4.01) 和单向 (AliTok: 1.50 → 1.42) 分词器的性能。值得注意的是,它接近基于扩散的 REPA并优于 Maskbit,同时使用更少的参数(177M vs. 675M/305M),具体数据如表 2 所示。
缩放效应。 本文还研究了 reAR 是否能保持原始 AR 模型的缩放行为。具体而言,本文绘制了不同模型大小在不同训练 epoch 下的 FID。如图 4 所示,随着模型大小和训练迭代次数的增加,FID 持续下降,这揭示了 reAR 在大规模视觉 AR 模型上的潜力。
采样速度。 如同其他自回归模型,reAR 受益于 KV-cache 以实现高采样速度。本文在单个 A800 GPU 上测量了批量大小为 128 的吞吐量(如图 5 所示)。通过 KV-cache,自回归模型的运行速度比扩散模型和 MAR 快得多。此外,reAR-B-AliTok 即使与 Maskbit、TiTok、VAR 和 RandAR 等并行解码方法相比,也能以更快的采样速度实现更低的 FID。
消融研究
本文对 reAR 的关键组件进行了消融研究,重点关注编码/解码正则化的加权和层选择,以及噪声增强策略。
正则化层。 本文使用训练 80 个 epoch 且无分类器指导的 reAR-S 分析了嵌入正则化的最佳层(如表 3 所示)。本文对正则化的存在和位置进行了消融,并与朴素的绑定嵌入策略进行了比较。对于解码正则化,早期层(例如,层 10)几乎没有益处,而层 15 表现最佳;应用更深层会略微降低性能。对于编码正则化,第一层是最佳的,因为它与 token 嵌入对齐最佳,而更深层会损害生成质量。值得注意的是,将正则化应用于 vanilla AR 中最接近目标嵌入空间的层会产生最佳结果——在第 0 层编码并在大约 深度处解码。本文假设这种放置最小化了对下一个 token 预测这一主要任务的干扰。基于这些发现,本文对 reAR-S 使用 EN@0 + DE@15,对 reAR-B/L 使用 EN@0 + DE@18。
正则化权重。 如表 3 所示,正则化权重对生成质量的影响可以忽略不计,这可能是因为 AdamW 优化器对损失的规模不敏感。为简单起见,本文使用 。
噪声增强。 本文进一步消融了噪声增强的设计,探索了两种策略:(1) 为每个 token 序列分配不同的噪声水平,以及 (2) 在训练期间退火最大噪声水平。结果如表 4 所示,基于带有码本嵌入正则化的默认设置(reAR-S 的 EN@0 + DE@15)。所有模型都训练了 400 个 epoch 以评估不同调度的效果。本文发现,固定噪声水平 将 FID 从 2.12 提高到 2.08,而更高水平()导致训练崩溃(FID = 3.15)。将噪声水平随机化到 [0, 0.5] 范围内进一步将 FID 提高到 2.05。结合退火调度,其中 ,产生了更强的结果(2.02 FID)。最后,使用截断线性调度 实现了 2.00 FID 的最佳性能。这些结果突出表明了适当退火噪声增强的有效性。
一致性正则化的联合效应。 如表 4 所示,仅使用嵌入正则化()产生了 2.12 的 FID,而仅使用噪声增强产生了 2.18。相比之下,将两者结合进一步提高了性能,将 reAR-S 的 FID 降低到 2.00。这表明噪声上下文正则化和码本嵌入正则化都很重要。
结论
本工作将视觉自回归生成的关键瓶颈确定为生成器和分词器之间的不匹配,即 AR 模型难以生成可以有效解码回图像的 token 序列。为了解决这个问题,提出reAR,一种简单的正则化方法,它显著提高了视觉 AR 性能,同时与分词器设计无关。本文希望这项工作能够鼓励未来在视觉 AR 模型中统一生成器和分词器,更广泛地说,鼓励开发统一的多模态模型。
参考文献
[1] REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论