AI I024: 小模型逆袭屠榜！30倍数据效率+13倍模型压缩效果暴增近10%！字节重磅开源SuperEdit

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Ming Li 等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2505.02370
项目链接：https://liming-ai.github.io/SuperEdit/
Huggingface链接：https://huggingface.co/datasets/limingcv/SuperEdit-40K

亮点直击
新发现：旨在解决由编辑指令与原始-编辑图像对之间错位引起的噪声监督问题，这是先前工作忽视的根本性问题，如下图2所示。
修正监督：利用扩散生成先验指导视觉语言模型，为原始-编辑图像对生成更匹配的编辑指令。
强化监督：引入基于三元组损失的对比监督，使编辑模型能够从正负样本指令中学习。
显著成果：在无需额外预训练或VLM的情况下，在多个基准上实现显著提升。相比SmartEdit，在减少数据和模型参数的同时，实现了9.19%的性能提升。

总结速览

解决的问题

噪声监督信号：现有基于指令的图像编辑数据集中，编辑指令与原始-编辑图像对之间存在不匹配问题，导致监督信号噪声大。
复杂场景编辑困难：编辑模型在处理多对象、数量、位置或对象关系等复杂场景时表现不佳。
依赖额外模块：现有方法需引入视觉语言模型（VLM）、预训练任务或复杂架构，计算开销大且未根本解决噪声问题。

提出的方案

指令修正（Rectified Instructions）：

利用VLM（如GPT-4o）分析原始-编辑图像对的差异，生成更匹配的编辑指令。
基于扩散模型推理阶段的生成属性（如不同步骤对应不同图像属性），制定统一的指令修正准则。

对比监督信号（Contrastive Supervision）：构建正负样本指令（正确指令 vs. 错误指令），通过三元组损失（triplet loss）优化模型，增强对复杂场景的理解。

应用的技术

视觉语言模型（VLM）：用于指令修正，优先选用GPT-4o（因其对图像差异理解能力最强）。
扩散模型先验知识：利用扩散模型推理阶段的属性生成规律（如早期步骤生成结构、后期步骤生成细节）指导VLM修正指令。
三元组损失（Triplet Loss）：通过对比学习区分正负指令，提升模型对编辑意图的精准理解。

达到的效果

性能显著提升：

在Real-Edit基准上超越此前SOTA（SmartEdit），性能提升9.19%。
仅需1/30的训练数据和1/13的模型参数量。

简化架构：无需额外VLM模块或预训练任务，直接优化监督信号质量。
开源贡献：所有数据和模型开源，促进后续研究。
评估优势：在GPT-4o和人工评估中均优于现有方法，证明高质量监督信号可弥补架构简单性。

方法

本节首先介绍最通用的图像编辑框架。然后解释如何利用扩散先验通过多模态模型（即GPT-4o）修正编辑指令，从而提高监督信号的准确性。最后描述如何构建包含正确和错误编辑指令的对比监督，并通过三元组损失将其整合到编辑模型训练中。

基于指令的图像编辑框架

InstructPix2Pix 开创了基于指令的图像编辑方法，通过同时将原始图像和编辑指令作为输入条件，从随机噪声生成编辑后的图像。根据DDPM的定义，在训练过程中我们随机采样一个时间步，然后向编辑后的图像添加相应的噪声。

其中是从高斯分布采样的噪声图，，是时间步的可微函数，由去噪采样器（如DDPM）确定。然后编辑模型的训练目标是预测在时间步添加的噪声，可以表示为：

其中concat表示在通道维度上连接加噪编辑图像和原始图像的潜在表示。

基于扩散先验的监督修正

如下图3所示，现有图像编辑数据集通常仅使用步骤1和2：通过LLM构建编辑提示和描述，再由文生图扩散模型合成编辑图像。然而扩散模型往往难以在保持图像布局的同时准确遵循提示，导致原始-编辑图像对与编辑指令不匹配，产生不准确的监督信号。虽然更好的监督信号在图像生成领域很常见，但由于以下两个挑战，该方法在图像编辑中仍未充分探索：(1)基于单图像数据训练的VLM难以处理多图像输入；(2)编辑指令差异大，难以制定统一修正准则。

为解决这些问题，本文：(1)分析了不同VLM处理多图像输入的能力，发现GPT-4o最有效；(2)发现图像生成中时间步特异性角色同样适用于编辑任务，为跨指令的统一修正方法奠定基础（上图3和下图4）。由于篇幅限制，VLM分析详见补充材料，本节重点介绍扩散先验和编辑指令修正。

扩散生成先验：先前工作表明，不同时间步在文生图扩散模型中具有特定生成角色，与文本提示无关。本文发现基于指令的编辑模型同样存在该现象，并以预训练InstructPix2Pix为例展示。扩散模型在采样早期关注全局布局，中期关注局部物体属性，后期聚焦图像细节。这一发现启发我们基于四个生成属性（布局/形状/颜色/细节）指导VLM，建立适用于各类编辑指令的统一修正方法。

编辑指令修正：如前面图3所示，在现有编辑数据生成流程中新增指令修正步骤（步骤3）。该过程依赖通过步骤1-2获得的原始-编辑图像对。具体而言，我们将图像对输入视觉语言模型（GPT-4o），并指导其根据扩散先验生成属性描述编辑图像相对于原始图像的变化。最后使用VLM总结指令并确保其长度不超过CLIP文本编码器的77个token限制。

基于对比指令的监督增强

虽然使用修正后的编辑指令能显著提升各编辑任务性能，但发现编辑模型仍难以区分语义相近的文本指令。例如"在图像左侧添加一只猫"和"在右侧添加两只猫"可能生成相同的编辑图像。这表明预训练文生图扩散模型固有的理解偏差（如数量/位置/空间关系）仍存在于编辑模型中。更重要的是，实验表明仅使用修正指令训练无法解决这些问题。为进一步增强监督信号有效性，本文借鉴大语言模型和文生图扩散模型的成功对齐经验：构建正负样本对并指导模型为正样本分配更高生成概率。

对比指令构建
与大型语言模型或文生图扩散模型的标准对齐过程不同，图像编辑任务难以通过相同指令生成不同编辑结果来构建正负样本对。为此，我们通过构建正负编辑指令来实现对齐，从而生成相对的正负编辑图像。如下图5(a)所示，我们以原始图像、编辑图像和修正后的编辑指令作为输入，利用VLM（GPT-4o）修改修正指令中的属性（如数量、空间关系和物体类型）来生成错误指令。要求VLM在每个错误指令中仅修改修正指令的单个属性，保持大部分编辑文本不变。由于修正指令与错误指令之间仅存在少量词汇替换，CLIP文本编码器生成的文本嵌入（作为去噪模型的输入）仍保持相似性。这种设计确保了任务的学习难度，帮助模型理解细微的指令差异如何导致显著不同的编辑结果。

基于对比指令的模型增强
本文的核心观点是：增强监督信号有效性可在不引入额外模型架构或预训练任务的前提下提升各类编辑任务性能。因此严格遵循InstructPix2Pix的模型架构和训练流程。输入包含原始图像、编辑图像、修正指令和错误指令。训练时通过采样时间步和公式1获得加噪编辑图像。将修正指令和错误指令同时输入去噪模型，分别预测最终噪声和以构建正负样本。

在构建正负样本对后，希望正向编辑指令预测的噪声比错误编辑指令预测的噪声更接近训练时采样的真实噪声。这一目标可通过三元组损失函数实现：

其中，边界值为超参数。最终训练损失是原始扩散训练损失与三元组损失的组合：

对比监督信号仅在训练阶段使用。在推理过程中，编辑模型只需要一个输入编辑指令。

实验

数据收集与构建

为构建包含多样化编辑指令的数据集，整合了不同公共编辑数据集：从InstructPix2Pix、MagicBrush和Seed-Data-Edit分别采样10,177、8,807和21,016对图像，共计40,000训练样本。数据选取时尽可能平衡不同编辑任务类型。对于MagicBrush已人工验证的数据，我们直接基于原始指令构建对比监督；Seed-Data-Edit仅采用未含人工指令的第一部分数据；其余数据均进行指令修正与对比监督构建。

实验设置

评估基准与指标：采用Real-Edit基准进行自动化评估（GPT-4o评分）和人工评估。该基准使用Unsplash社区高分辨率图像，通过以下指标衡量编辑效果：

Following：编辑指令遵循准确率（%）与分数（0-5）
Preserving：非编辑区域结构保留程度
Quality：编辑后图像整体质量/美学评分

实验结果

Real-Edit基准对比：如下表1所示，在不增加参数或预训练阶段的情况下，本文的方法在Following、Preserving和Quality三项指标上均达到最优。相比引入13B视觉语言模型（LLaVA）的SmartEdit，总体分数提升11.4%。值得注意的是，本文的方法在所有指标上均实现全面提升（Following/Preserving/Quality准确率分别提升3%、7%、11%），表明改进监督信号能同时提升指令执行精度与非编辑区域保护能力。

人工评估：15位评估者对Real-Edit基准进行盲测（下表2与图7），结果与GPT-4o评分高度一致。本文的方法在Following/Preserving/Quality和总体分数上分别以1.8%、16%、14.8%和10.8%的优势超越SmartEdit。

可视化对比：如下图6所示，本文的方法在复杂指令（如"将老虎替换为狮子并保持水中位置"）上获得4.8/4.8/4.8的满分表现，显著优于SmartEdit（4.8/4.8/2.5）。对于风格转换指令（如"改为印象派绘画风格"），以(4.8/4.8/4.8)远超SmartEdit的(1.0/4.8/4.8)。场景转换任务（如"将整个场景改为冬季雪景"）中，更以(5.0/4.8/4.8)对比SmartEdit的(2.0/4.5/4.5)展现明显优势。

消融实验

编辑指令修正与对比指令的消融研究
鉴于Real-Edit基准采用GPT-4o进行评估，且其评估结果与人类评分高度一致，选择该基准进行下表3所示的消融实验。与原始的300K InstructPix2Pix训练数据相比，采用修正后编辑指令的40K训练数据显著提升了编辑模型的各项性能。具体而言，本文的方法在三个指标上分别将分数提高了0.95、0.79和0.11，准确率提升了21%、22%和4%。此外，通过引入对比监督信号，编辑性能得到进一步强化。与仅使用修正编辑指令相比，对比监督信号的引入使遵循度和保真度分数分别提升0.19和0.08，准确率提高5%和2%，同时保持质量准确率与分数不变。综上，修正编辑指令与对比编辑指令的引入均能全面提升编辑模型的整体性能。

数据规模的消融研究
通过5k至40k样本量的实验探究了训练数据规模对模型性能的影响。下表4显示随着数据量增加，所有指标均持续提升。仅用5k样本时，模型已达到合理性能（54.7%准确率，3.92总分），而扩展至40k样本时获得显著增益（69.7%准确率，3.91总分）。其中保真度和质量指标的提升最为突出，分别达到10%和15%。所有数据点呈现的上升趋势表明，SuperEdit能有效利用新增训练样本且未出现性能饱和，这意味着扩大数据集仍有提升潜力。

结论

本文从增强监督信号的角度重新审视图像编辑模型，发现现有方法未能充分解决该挑战，导致性能欠佳。提出基于扩散先验的统一编辑指令修正准则，使指令更贴合原始-编辑图像对，从而提升监督有效性；同时构建对比编辑指令，让模型能从正负例中同时学习。这种以数据为核心的方法探索了一个重要但被忽视的研究问题：在最小化架构改动的前提下，通过聚焦监督质量与优化能实现何种性能水平？值得注意的是，在GPT-4o和人类评估中，本文方法以更少的数据量、无需架构修改或额外预训练的条件超越了现有方案。这表明高质量的监督信号能有效弥补架构简单性，为图像编辑研究提供了宝贵的新视角。

参考文献

[1] SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年5月12日星期一

小模型逆袭屠榜！30倍数据效率+13倍模型压缩效果暴增近10%！字节重磅开源SuperEdit