AI I024: 修图模型照妖镜上线！ImgEdit-Bench三维「死亡评测」曝光，谁在裸泳一测便知

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Yang Ye等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2505.20275
Git链接：https://github.com/PKU-YuanGroup/ImgEdit

亮点直击
稳健的流程。引入了一个高质量的数据生成流程，确保数据集具有多样性、代表性，并具备足够的质量以支持图像编辑模型的开发。
新数据集。构建了 ImgEdit，一个大规模、高质量的数据集，包含110 万单轮样本（涵盖10 种代表性编辑任务）和11 万多轮样本（包含3 种新颖的交互类型）。
可靠的基准。发布了 ImgEdit-Bench，该基准在三个关键维度（基础测试集、挑战性测试集和多轮测试集）上评估模型性能。
先进模型。在ImgEdit上训练了 ImgEdit-E1，其在多项任务上超越现有开源模型。还发布了 ImgEdit-Judge，这是一个与人类偏好对齐的评估模型。

总结速览

解决的问题

开源图像编辑模型性能落后于闭源模型：主要原因是缺乏高质量的开源编辑数据集和有效的评估基准。
现有数据集质量不足：图像分辨率低、编辑提示简单、编辑区域小、编辑不准确、概念不平衡、过滤不精确。
复杂编辑任务支持不足：缺乏身份一致性保持、多对象同时操作、多轮交互编辑等任务。
评估基准不完善：现有评估框架缺乏多样性，未分层任务难度，过度关注编辑类别数量，忽视评估维度和测量准确性。

提出的方案

ImgEdit 数据集：

包含 120 万高质量编辑样本（110 万单轮 + 11 万多轮）。
涵盖 10 种编辑操作，包括对象提取、多对象混合编辑等。
多轮样本支持 内容理解、内容记忆、版本回溯。

自动化数据构建流程：

多阶段筛选（美学评分、分辨率、可编辑区域）。
结合 开放词汇检测器 和 视觉分割模型 生成对象级标注。
使用 GPT-4o 生成多样化单轮/多轮编辑提示。
采用 任务特定工作流（如 SOTA 生成模型）创建编辑对。
通过 GPT-4o 进行编辑对质量评估。

ImgEdit-E1 模型：基于视觉语言模型（VLM）的编辑模型，支持参考图像和编辑提示处理。
ImgEdit-Bench 基准：

基础测试集：评估指令遵循、编辑质量、细节保留。
理解-定位-编辑（UGE）测试集：测试空间推理、多对象目标等复杂任务。
多轮编辑测试集：评估内容理解、记忆和回溯能力。
引入 ImgEdit-Judge 评估模型，与人类偏好对齐。

应用的技术

数据生成：

GPT-4o（生成多样化编辑提示）。
开放词汇检测器（对象定位）。
视觉分割模型（精细化区域标注）。
SOTA 生成模型（如 Stable Diffusion、DALL·E 等）创建编辑图像。

模型训练：

视觉语言模型（VLM） 架构，用于处理参考图像和编辑指令。 - 评估方法：
自动化评估（ImgEdit-Judge）：模拟人类偏好。
多维度测试集（基础、UGE、多轮）。

达到的效果

数据集质量提升：

在 任务新颖性 和 数据质量 上超越现有数据集（如 MagicBrush、SEED-Data-Edit）。

模型性能提升：

ImgEdit-E1 在多项任务上优于现有开源模型，缩小与闭源模型的差距。

评估更全面：

ImgEdit-Bench 提供 分层难度评估，覆盖基础、复杂单轮、多轮编辑任务。
通过 ImgEdit-Judge 实现高效、可靠的大规模评估。

ImgEdit: 高质量数据集

ImgEdit 提供高保真度的编辑对，包含精确、全面的指令，并涵盖更广泛的实用和挑战性编辑类型。先概述单轮和多轮编辑类型，接着详述数据流程。再介绍 ImgEdit-E1，一个基于 ImgEdit 训练的前沿编辑模型。最后展示数据集统计信息。

编辑类型定义

本文定义两类编辑任务：单轮和多轮。单轮任务侧重于覆盖全面且实用的任务，而多轮任务则整合连续编辑场景中的指令和图像交互。

单轮编辑
基于实际编辑需求，将单轮任务分为四类（如下图1所示）：

局部编辑：包括 添加、移除、替换、修改、动作变化 和 对象提取 操作。颜色、材质或外观的变化归类为修改。由于人物动作编辑是常见用例，特别支持针对人物的动作变化。此外，引入新颖的 对象提取任务（如"将猫提取到白色背景"），可在干净背景上分离指定主体，同时保持身份一致性。该能力目前仅 GPT-4o-image 支持。
全局编辑：包括 背景替换 和 风格/色调迁移。
视觉编辑：基于参考图像编辑（如"给猫添加围巾"），确保对象一致性。与 AnyEdit 不同，省略了分割、草图或布局引导的变体，因实际应用中此类视觉提示较少。
混合编辑：单条指令中对多个对象应用两种局部操作（如"添加围巾并将猫毛色改为白色"）。

多轮编辑
基于现有多轮理解基准和实际需求，定义多轮编辑的三大挑战（如下图1所示）：

内容记忆：对话早期引入的全局约束（如"所有生成需带木质纹理"）需在后续轮次中保持。
内容理解：解析依赖代词或省略主语的指令（如"将左侧衣柜里的衣物改为黑色"隐含指代首轮添加的衣物）。
版本回溯：基于早期版本编辑（如"撤销上一步更改"）。这三类挑战覆盖了多轮交互编辑的主要难点。

自动化数据流程

数据准备采用 LAION-Aesthetics 作为主数据集，因其场景多样性、高分辨率和更广的对象覆盖。筛选条件：短边≥1280像素且美学评分>4.75，得到60万张图像子集。使用GPT-4o生成简洁描述并提取可编辑对象及背景名词。

对象定位与分割

通过开放词汇检测器定位候选实体，生成边界框。
利用 SAM2 将边界框细化为分割掩码。
计算裁剪对象的 CLIPScore 和面积占比，剔除低相似度或过小区域，确保目标准确且视觉显著。

背景替换任务要求编辑区域占比>40%。
动作变化编辑：额外从 Open-Sora Plan 收集16万对人物视频帧，由 GPT-4o 标注动作，构成动作变化子集。

数据准备
采用LAION-Aesthetics作为核心数据集。该数据集在场景多样性、分辨率以及物体类别的全面性上表现更优。仅保留短边≥1280像素且美学评分>4.75，得到60万张图像子集。使用GPT-4o重新生成简洁的文本描述，并提取可编辑对象及背景名词。每个候选实体通过开放词汇检测器进行定位，生成的边界框再由SAM2优化为分割掩码。由此，每个对象和背景区域均获得边界框与掩码。

由于检测与分割并非完美，通过掩码裁剪每个对象，并计算：

裁剪区域与对象名称的CLIPScore相似度
区域面积占比

对相似度低或面积可忽略的区域进行剔除，确保剩余目标识别准确且视觉显著性满足后续编辑需求。具体而言，在背景替换任务中，要求编辑区域需占图像总面积40%以上。

针对动态变化编辑任务，额外从内部视频库Open-Sora Plan收集了16万张以人物为主的图像对。通过时间子采样帧并利用GPT-4o标注动作信息，最终构成动态变化编辑子集。

指令生成模块
通过原始图像描述、编辑类型、边界框和目标物体作为条件输入生成指令。由于目标物体的精确定位对编辑至关重要，系统要求语言模型在编辑指令中嵌入物体位置和近似尺寸（以边界框为参考）。低性能LLMs易引入知识偏差导致低质量指令，因此采用尖端大语言模型（如GPT-4o），该模型不仅能理解多样化指令格式、生成概念丰富的编辑指令，还能高保真编码空间信息。多轮指令生成时，提供少量上下文示例让模型单次生成完整对话，再拆分为独立轮次，每轮对话限制2-3回合，包含添加、删除、替换、修改四类基础操作。

修复工作流
选用FLUX和SDXL作为基础生成模型，结合IP-Adapters、ControlNet等插件实现精准可控编辑。针对不同编辑场景构建定制化数据生产管线，例如：在视觉编辑任务中利用FLUX架构的上下文保持能力，通过FLUX-Redux控制语义一致性。生成图像在审美质量和编辑保真度上均超越现有数据集。

后处理流程
在基于物体面积、CLIP分数和美学分数的粗过滤基础上，使用GPT-4o进行精细过滤：为每个编辑对按编辑类型特定的评分标准分配质量分数，并提供详细评分依据供用户筛选。

ImgEdit-E1评估模型

为评估所收集数据的质量，在ImgEdit数据集上训练了ImgEdit-E1模型。如下图2所示，该模型整合了视觉语言模型(VLM)、视觉编码器以及Diffusion-in-Transformer(DiT)主干网络。编辑指令与原始图像共同输入VLM处理，同时图像经由视觉编码器并行处理。VLM的隐藏状态与视觉编码器的图像特征分别通过多层感知机(MLP)映射后拼接，构成DiT的文本分支输入。训练采用两阶段策略：先优化MLP参数，随后对FLUX模块与MLP进行联合微调。

数据集统计

包含120万高质量图像编辑对（含11万组多轮样本），覆盖13类编辑任务。相比现有数据集，具有更丰富语义、更详细指令、更高分辨率（平均短边1280像素）和更优编辑精度。其8.7k独特词汇量的指令多样性，以及经GPT-4o评估的最高编辑准确率（抽样1000例验证）尤为突出。像素级差异分析显示，局部编辑区域修改幅度显著大于其他数据集，且经专业检测器验证更难定位编辑痕迹，证实其图像质量优势。其物体提取和视觉编辑子集首次实现了高度主体一致性的编辑任务。完整统计数据见下图3与表1。

ImgEdit-Bench：综合性图像编辑基准测试‌

ImgEdit-Bench为单轮和多轮图像编辑任务提供系统性评估框架。先阐述基准数据集的构建原则，接着定义量化评估指标，再提出专用于图像编辑任务评估的模型ImgEdit-Judge。

基准数据集构建‌

模型能力划分为‌基础编辑能力‌与‌复杂场景性能‌两类：

基础编辑测试集
我评估模型完成常规任务的能力，涵盖添加、删除、修改、替换、风格迁移、背景替换、动态调整、混合编辑、抠图处理9大类任务。所有测试图像均从互联网人工收集。为确保语义多样性，从六大超类别（人物、交通工具、自然、动物、建筑、生活必需品）中每类选取十个代表性概念。

添加任务：为每张背景简洁的图片搭配五个不同概念的指令。
移除/修改/替换/抠图/混合编辑任务：选择主体突出且物体稀疏的照片。
风格迁移：测试主流艺术风格。
背景替换：选用适合场景置换的图像。
动态变化：基于以人物为主的图像进行评估。

所有指令均由GPT-4o初步生成，并经过人工筛选。最终基准测试集包含734个测试用例，指令长度从简略到详尽不等。

理解-定位-编辑(UGE)测试套件‌：人工精选47张互联网复杂场景图像，涵盖目标局部遮挡、同类多实例、伪装/低显著性物体、罕见编辑对象四大挑战。每图设计需综合空间推理、多目标协同操作、复合细粒度编辑或大规模修改的指令，提升单条指令的理解-定位-执行难度。

多轮交互测试套件‌：从‌内容记忆‌、‌上下文理解‌、‌版本回溯‌三维度评估真实交互场景。每任务选取10张图像人工设计3轮对话流程，形成结构化测试序列。

评估指标‌

从‌指令遵循度‌、‌编辑质量‌、‌细节保留度‌三个维度量化模型性能：

指令遵循度‌：衡量对指令语义理解和概念对齐能力，作为基础得分限制其他两项上限（编辑质量与细节保留得分不得超过该值）；
编辑质量‌：量化目标区域操作精度；
细节保留度‌：评估非编辑区域保真程度。
评分采用GPT-4o按1-5分制执行，每类任务配备详细评分细则。多轮场景中由人工评估员基于标准化指南对模型输出进行‌二元判断‌。

真实性量化指标‌：引入‌伪造分数‌评估生成图像伪影可检测性，采用最新开源取证检测器FakeShield定位编辑痕迹。通过计算多类编辑数据集的召回率（以伪造为正类），横向对比结果验证生成图像的视觉真实性与编辑质量。

ImgEdit-Judge评估模型‌

鉴于视觉语言模型(VLM)评分相较于传统相似性指标更具合理性，且当前缺乏开源的图像编辑专用评估器，我们构建了包含20万条后处理评分记录的‌任务平衡与评分平衡语料库‌，用于微调Qwen2.5-VL-7B模型。通过人工研究验证，每张图像由人工标注员、Qwen2.5-VL-7B、ImgEdit-Judge与GPT-4o-mini并行评分，并选取60张图像进行深度分析。当模型评分与人工评分差异不超过1分时视为有效判定。如下图4所示，ImgEdit-Judge与人工评判一致性接近70%，显著优于GPT-4o-mini和原生Qwen2.5-VL模型。

实验分析‌

本节系统评估现有编辑模型与ImgEdit-E1性能：先阐述实验配置，再呈现结果定量与定性分析，最后展开深度讨论。

实验设置‌

单轮测试环境‌：
闭源模型‌：GPT-4o-Image（Gemini-2.0-Flash未开放API）
开源模型‌：Step1X-Edit、Ultra-Edit、AnySD、MagicBrush、InstructPix2Pix及ImgEdit-E1
架构对比‌：除ImgEdit-E1与Step1X-Edit采用VLM文本编码器+DiT主干网络外，其余模型均基于UNet架构与预训练文本编码器。AnySD额外集成任务感知MoE模块。

参数配置‌：
输入分辨率：UltraEdit/AnySD输出512×512像素，其余模型输出1024×1024像素
重复实验：每个模型执行3次独立实验，报告平均得分
多轮测试‌：仅支持GPT-4o-Image与Gemini-2.0-Flash两模型

实验结果‌

定量评估
首先对不同方法进行了全面的定性评估（结果如下图5所示）。开源模型与闭源模型之间存在显著性能差距：GPT-4o-image在所有维度上均优于开源模型，仅在部分高难度任务中稍显不足。该模型同时获得最高的UGE综合评分，展现出更强的理解能力、定位能力和编辑能力。

在开源模型中，ImgEdit-E1与Step1X-Edit表现最佳，在部分任务上接近闭源模型水平。其中：

ImgEdit-E1 全任务表现均衡，因其采用高质量训练数据，在物体提取和混合编辑任务中显著领先其他开源模型
Step1X-Edit 综合性能与ImgEdit-E1相当，但在背景替换、属性修改等高难度任务中表现欠佳
AnySD 各项任务表现中庸，可能因其数据集覆盖编辑任务广泛但数据质量不足
UltraEdit 因训练集未包含移除任务，在该任务中表现极差
MagicBrush 和 InstructPix2Pix 因训练数据质量与模型结构过于简单，存在图像畸变、指令跟随失败等问题

值得注意的是，所有模型的编辑输出均获得极高的"虚假评分"，表明现有检测模型仍能轻易识别合成内容。

在多轮编辑任务中，仅GPT-4o-Image与Gemini-2.0-flash展现两轮内的版本回溯能力。现有模型普遍存在内容记忆与理解缺陷，时而出现指代误解或前提丢失的情况，总体上对多轮编辑的支持仍不充分。

定性评估‌选取了多种任务的代表性案例进行定性分析，如下图6所示。在改变自行车颜色同时保留积雪的任务中，仅有ImgEdit-E1和GPT-4o-Image成功达成。涉及物体移除的任务中，AnySD和Step1X-Edit生成结果模糊，Gemini错误地将路灯一并移除，其他模型则未能遵循指令。相比之下，ImgEdit-E1和GPT-4o-Image完美完成了任务。在背景修改任务中，ImgEdit-E1和Step1X-Edit在所有开源模型中与提示要求契合度最高。对于物体替换任务，闭源模型的处理结果明显更自然，而多数开源模型未能完成编辑。在色彩修改任务中，只有ImgEdit-E1和闭源模型在保留复杂细节的同时精准遵循了指令。此外，仅GPT-4o-Image和ImgEdit-E1成功完成了物体提取任务。

讨论‌

根据基准测试结果，确定了影响编辑模型性能的三大关键因素：指令理解、区域定位和编辑执行。

指令理解能力 指模型解析编辑指令的能力，主要由文本编码器决定，并显著影响编辑效果。传统模型使用T5或CLIP等编码器，虽能处理简单任务（如风格迁移），但在复杂的区域特定任务上表现欠佳。我们的评估显示，ImgEdit-E1和Step1X-Edit大幅优于其他开源模型，印证了更强文本编码器和更丰富文本特征的重要性。

区域定位能力 指准确识别并定位待编辑区域的能力，既依赖指令理解，也取决于视觉感知水平。在需要精确定位的任务（如属性修改和物体提取）中，ImgEdit-E1的表现远超现有开源编辑模型，凸显了提示信息中空间定位的关键作用。

编辑执行能力 指泛化各类编辑操作的能力，主要取决于训练数据的质量、规模和多样性。由于物体提取任务缺乏高质量数据，包括GPT-4o在内的其他模型在此类任务中表现不佳，这再次证明构建全面、高质量编辑数据集的必要性。

结论‌

ImgEdit框架推动了图像编辑领域的发展：它克服了现有数据集的质量缺陷，引入了实用的编辑任务分类体系，并为未来数据集构建提供了稳健的流程。ImgEdit-E1的优异表现验证了该框架的可靠性。此外，ImgEdit-Bench从创新维度评估模型性能，为图像编辑模型的数据筛选和架构设计提供了重要洞见。通过提供高质量数据集、高效编辑方法和全面评估基准，本文的工作有助于缩小开源方案与顶尖闭源模型之间的差距，并将推动整个图像编辑领域的进步。

参考文献

[1] ImgEdit: A Unified Image Editing Dataset and Benchmark

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年5月29日星期四

修图模型照妖镜上线！ImgEdit-Bench三维「死亡评测」曝光，谁在裸泳一测便知