AI I024: 图像编辑自回归又夺SOTA：VAREdit秒杀扩散模型，速度快2。2倍，编辑精准度飙升30%！

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Qingyang Mao等

解读：AI生成未来

论文链接：https://arxiv.org/pdf/2508.15772
Git 链接：https://github.com/HiDream-ai/VAREdit

亮点直击
VAREdit，这是首个基于微调的视觉自回归模型，用于指令引导的图像编辑任务；
本文发现了 VAREdit 在最精细尺度条件下存在尺度不匹配问题，并提出了 SAR 模块作为有效的解决方案；
VAREdit 在标准图像编辑基准上取得了新SOTA，在编辑遵循性和生成效率方面均超越了主流扩散模型。

VAREdit 在指令引导的图像编辑中实现了高精度性能。它在各种复杂的编辑场景中表现出色，包括对象级修改（添加、替换、移除）、属性更改（材质、文本、姿态、风格、颜色）和复杂的合成编辑。

总结速览

解决的问题

当前主流的扩散模型虽然在指令引导的图像编辑中实现了高视觉保真度，但由于其全局去噪机制，编辑区域往往会与整个图像上下文纠缠，导致：

非预期的图像修改；
编辑指令遵循性差；
编辑过程不够可控。

这暴露出扩散模型在编辑精度和语义控制方面的根本性缺陷。

提出的方案

提出了 VAREdit，一种基于视觉自回归（Visual Autoregressive, VAR）框架的图像编辑方法，核心思想包括：

将图像编辑建模为一个"下一尺度预测"问题；
在源图像特征和文本指令的条件下，逐尺度生成目标图像特征，实现精细化控制的图像编辑；
针对不同尺度间的条件引导难题，引入了尺度对齐参考模块（SAR），解决尺度不匹配问题。

应用的技术

视觉自回归建模：将图像合成看作基于离散视觉 token 的序列生成过程，具备因果性和组合性；
多尺度生成机制：从粗到细逐步预测图像特征，实现高效编辑；
SAR 模块（Scale-Aligned Reference）：在 Transformer 的首个自注意力层中注入尺度匹配的条件信息，提升跨尺度建模能力；
微调范式：在预训练模型基础上进行微调，适应图像编辑任务。

达到的效果

在标准图像编辑基准上取得最新SOTA；
GPT-Balance 得分比主流扩散模型高出 30%+ ，显著提升指令遵循性；
在 512×512 分辨率图像编辑任务中仅需 1.2 秒，比同类方法 UltraEdit 快 2.2 倍；
成功验证了自回归方法在图像编辑任务中的效率优势与语义控制能力。

方法

首先回顾视觉自回归（VAR）建模范式。然后介绍 VAREdit，这是一个将指令引导的图像编辑重新定义为多尺度条件生成任务的新框架。最后，分析源图像条件引导所面临的挑战，并提出尺度对齐参考（SAR）模块，作为解决朴素条件引导中尺度不匹配问题的针对性方案。

预备知识

视觉自回归（VAR）模型通常由一个多尺度视觉分词器和一个基于 Transformer 的生成模型组成。该过程从一个编码器开始，它将图像映射为一个连续的特征表示：。随后，一个量化器将分解为个离散残差图的层次结构：。

这些残差图遵循从粗到细的结构，其中每个残差的空间分辨率随着尺度索引的增加而提高。接着，Transformer 模型以自回归方式预测这些残差：

具体而言，为了预测下一尺度的残差图，模型首先通过聚合所有先前生成的残差来计算一个中间特征表示：

其中，表示从已学习的代码簿中检索向量嵌入，表示上采样操作。该累积特征随后被下采样以匹配下一尺度的空间维度，从而生成下一步预测的输入：

该过程以开始，这是一个起始序列表示，来源于一个条件嵌入（例如类别标签）。一旦所有个残差图被生成，它们将被用来计算最终的特征图。最后，解码器合成输出图像：

VAREdit

VAREdit是一个将指令引导的图像编辑重新定义为条件多尺度预测问题的框架。

如上图 2 所示，VAREdit 以一个预训练的 VAR 模型为基础，在源图像和文本指令的条件下，自回归地生成目标残差图：

一个关键的设计挑战是如何有效且高效地引入源图像来引导多尺度生成过程。

朴素的全尺度条件
一种直接的方法是基于源图像的完整多尺度特征进行条件生成。这可以通过将所有源标记的序列添加到目标序列之前来实现，从而使模型在生成目标残差时可以参考任一尺度的源残差。条件似然表示为：

尽管这种方法为编辑任务提供了全面的逐尺度参考，但其计算开销很大。序列长度加倍会导致自注意力计算成本呈二次增长，使其在高分辨率编辑中变得不切实际。此外，提供多个源尺度特征可能会为预测单一尺度的目标特征引入冗余或冲突的信息，从而可能降低编辑质量。

最精细尺度条件
为了解决全尺度条件的高昂代价，本文提出了一种更高效的策略，仅基于最精细尺度的源特征进行条件生成。该方法的动机来源于视觉分词器的层级结构：最精细的尺度包含了来自源图像的最详细、高频的信息，这些信息通常对引导编辑最为关键。这一简化将似然表达式缩减为：

通过这种方式，只有来自的 token 被添加到目标序列之前。尽管该策略显著减少了序列长度，从而缓解了原始 Full 设置中的计算瓶颈，但它引入了一个关键的问题：尺度不匹配。模型需要在仅访问源条件中精细、局部细节信息的情况下，预测粗粒度的目标图像结构，而这些信息不足以支持精确编辑。

尺度依赖性分析
高效的最精细尺度方法所带来的尺度不匹配问题引发了一个基本问题：为了实现高保真编辑，哪些源尺度是真正必要的？为了研究目标残差与源残差之间的尺度依赖性，本文对在全尺度源特征上训练的模型中的自注意力机制进行了诊断分析。该全尺度设置允许模型自由地关注所有源尺度。

图 3 中一个具有代表性的示例进行实证研究，发现不同 Transformer 层展现出不同的注意力模式。在第一个自注意力层中，当预测某个目标尺度的 token 时，注意力机制分布广泛，重点关注对应尺度及所有更粗的源尺度。这种模式表明初始层负责建立全局布局和长程依赖。随着层数加深，注意力模式发生转变，变得高度局部化，呈现出明显的对角结构，说明注意力主要集中在空间邻域内的 token。这种功能转变表明模型从全局结构构建过渡到局部细节精修，在这个阶段，来自的精细信息已足够使用。这促使本文设计一种混合方案：在第一层提供尺度对齐的参考，而所有后续层仅关注最精细尺度的源信息。

尺度对齐参考
基于本文的分析，提出了尺度对齐参考（Scale-Aligned Reference, SAR）模块，专门用于解决第一层自注意力中的尺度不匹配问题。其核心思想是通过对单一最精细尺度源特征图进行下采样，动态生成粗尺度参考特征。这样就创建了一组参考特征，每个都与某个目标尺度的空间维度对齐：

在生成过程中，当预测目标尺度的 token 时，模型的第一个自注意力层计算查询，并关注由两个来源组成的键和值的组合集合：(i) 新生成的、尺度对齐的参考特征，以及 (ii) 先前生成的目标 token 的因果历史。具体地，注意力输出计算如下：

其中，是从尺度对齐的源参考投影得到的，而来自于所有先前生成的目标 token。

关键的是，这种 SAR 机制仅应用于第一个自注意力层。所有后续层仅使用最精细尺度的条件信息，关注和目标的历史残差。这使得 VAREdit 能够捕捉多尺度依赖关系，同时实现最精细尺度方法的高效性。

实验

实验设置

数据集
VAREdit 在一个包含 392 万对样本的大规模数据集上进行训练，该数据集聚合自 SEED-Data-Edit 和 ImgEdit 数据集。本文首先从 SEED-Data-Edit 数据集中提取所有单轮样本，并将多轮对话分解为单轮编辑对。这些生成的样本随后通过视觉-语言模型进行过滤，以移除指令遵循质量较差的实例。最终训练数据还包含了来自 ImgEdit 的所有单轮样本。关于此数据处理流程的更多细节见附录。

评估
本文在两个公认的基准上对 VAREdit 进行了全面评估：EMU-Edit，包含 3,589 个样本，涵盖 8 种不同的编辑类型；PIE-Bench，包含 700 个样本，涵盖 10 种不同的编辑类型。

评估指标
标准基准如 EMU-Edit 和 PIE-Bench 依赖于基于 CLIP 的分数。EMU-Edit 使用图文相似度（CLIP-Out.）和文本-图像方向相似度（CLIP-Dir.），而 PIE-Bench 分别评估整图相似度（CLIP-Whole）和编辑区域相似度（CLIP-Edit）。然而，这些指标常常无法捕捉编辑质量的重要方面，例如伪编辑或编辑不完整。

为了解决这些不足，本文还采用了 OmniEdit 的评估协议，该协议使用 GPT-4o 作为自动评估器，提供两个关键分数，评分范围为 0-10：

GPT-Success (Suc.)：衡量对编辑指令的遵循程度，分数越高越好。
GPT-Overedit (Over.)：评估未编辑区域的保留程度，分数越高越好。

由于模型可以通过忽略编辑指令并输出原图来获得完美的 GPT-Over. 分数，本文引入了 **GPT-Balance (Bal.)**，即 GPT-Suc. 和 GPT-Over. 的调和平均值。该平衡分数作为本文衡量整体编辑性能的主要指标。关于这些指标的详细提示词和计算方法见附录。

对比方法
为确保全面且严谨的评估，本文将 VAREdit 与多种最先进的微调方法进行了比较。本文的对比分析涵盖了广泛的主流扩散方法，包括：InstructPix2Pix、UltraEdit、OmniGen、AnySD、ACE++ 和 ICEdit。此外，本文还引入了 EditAR 这一基础自回归方法，用于基准测试本文基于 VAR 的框架的有效性。关于这些基线模型的更多细节见附录。

实现细节
VAREdit 模型以预训练的 Infinity 模型的权重初始化。为了区分源图像 token 和目标图像 token，对所有源 token 的二维旋转位置编码（2D-RoPE）引入了一个位置偏移。为研究模型扩展特性，开发了两个不同规模的模型：VAREdit-2.2B 和 VAREdit-8.4B。2.2B 模型采用两阶段训练流程：首先在分辨率下进行 8k 次迭代，批大小为 1,536，学习率为；随后在分辨率下微调 7k 次迭代，批大小为 960，学习率为。较大的 8.4B 模型则直接在分辨率下训练 26k 次迭代，批大小为 1,536，学习率为。在推理阶段，使用无分类器引导（CFG），引导强度为，logits 温度为。

定量结果

表 1 中的定量结果展示了 VAREdit 在编辑性能和效率方面的优越性。

编辑质量
在主要指标 GPT-Balance 上，VAREdit 始终优于所有基于扩散和自回归的基线模型。本文的8.4B 模型在 EMU-Edit 上取得 GPT-Bal. 分数 6.77，在 PIE-Bench 上取得 7.30，分别超越最强对手（EMU 上的 ICEdit，PIE 上的 UltraEdit）41.5% 和 30.8%。这表明 VAREdit 能够在保留未变区域的同时执行精确编辑。值得注意的是，一些方法如 OmniGen 通过过于保守的行为获得较高的 GPT-Over. 分数，但未能执行所请求的编辑，导致 GPT-Suc. 分数较低，进而 GPT-Bal. 分数也较差。相比之下，VAREdit 实现了更好的平衡，体现出 VAR 范式在精确生成方面的优势。VAREdit 在传统的基于 CLIP 的指标上也取得了有竞争力甚至领先的成绩。

类别间的鲁棒性
图 4 中的雷达图按编辑类型细分了性能。VAREdit 在绝大多数类别上实现了最先进的性能。尽管 2.2B 模型在具有挑战性的全局风格和文本编辑任务中存在一定局限，但 8.4B 模型显著缩小了这一性能差距。这说明本文的框架具有良好的扩展性，表明通过扩大模型和数据集规模可以进一步提升性能。

推理效率
除了高编辑质量外，VAREdit 还提供了显著的效率提升。8.4B 模型在分辨率下完成一次编辑仅需 1.2 秒，比相似规模的 UltraEdit（7.7B，2.6 秒）快 2.2 倍，比更大的 ICEdit 模型（17.0B，8.4 秒）快 7 倍。这种高效率得益于单次多尺度生成过程。此外，2.2B 模型在仅 0.7 秒内完成推理，同时在编辑质量上超越所有基线方法。

定性结果

图 5 提供了视觉对比，揭示了 VAREdit 在定量评估中取得成功的根本原因。在第一个示例中，基于扩散的方法往往会对图像进行过度编辑，从而导致较低的 GPT-Over. 分数。例如，InstructPix2Pix 改变了整个地面的颜色，而 ICEdit 错误地移除了电线杆。基础的自回归方法 EditAR 完全未能执行指令。虽然这导致其 GPT-Over. 分数较高，但 GPT-Suc. 分数非常低。VAREdit 成功完成了任务，同时精确保留了未变区域，因此获得了最高的 GPT-Bal. 分数。类似的观察也适用于后续示例，进一步验证了 VAREdit 的有效性。

消融实验与分析
为单独验证 SAR 模块的贡献，本文进行了一个消融实验，比较了三种条件策略：

Full：基于所有源图像尺度的特征进行条件引导；
Finest：仅基于最精细尺度的源图像特征进行条件引导；
SAR：本文提出的 SAR 增强型条件引导。

表 2 和图 6 中的结果验证了本文在分辨率下 2.2B 模型的假设。Full 设置获得了最低的 GPT-Bal. 分数，主要原因是其 GPT-Over. 分数显著较低。将所有源图像尺度引入条件引导会干扰目标特征的预测，从而导致过度编辑。此外，该设置由于 token 序列更长，推理速度比另外两种方案慢 60%。与 Finest 设置相比，SAR 增强模型获得了更高的 GPT-Over. 分数，展示了尺度匹配信息注入的有效性。视觉结果进一步支持了这一分析。Full 和 Finest 设置引入了意外的文本细节变化和不完整的风格参照，而本文的 SAR 变体避免了这一缺陷。

结论

VAREdit，一种基于指令引导的图像编辑框架，采用视觉自回归（VAR）建模中的新颖"下一尺度预测"范式。VAREdit 将指令与量化后的视觉 token 特征输入 VAR Transformer 模型，以预测目标图像的多尺度残差，从而增强了编辑遵循性与生成效率。本文分析了不同条件引导策略的有效性，并提出了一种新颖的 SAR 模块，用于在第一个自注意力层中有效注入尺度匹配的条件信息。大量实验证明了 VAREdit 的卓越性能，在编辑精度和生成速度方面显著优于现有最先进方法。作为初步探索，希望本研究为未来更高效、更有效的基于自回归的图像编辑模型设计提供有价值的新见解。

参考文献

[1] Visual Autoregressive Modeling for Instruction-Guided Image Editing

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年8月24日星期日

图像编辑自回归又夺SOTA：VAREdit秒杀扩散模型，速度快2。2倍，编辑精准度飙升30%！