👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Hongyu Li等
论文链接:https://arxiv.org/pdf/2512.05965
项目链接:https://appletea233.github.io/think-while-edit/
亮点直击
突破单轮指令范式:针对现有单轮指令遵循模式的局限,创新性地提出"边思考边编辑"新范式,将图像编辑任务重构为迭代式推理过程。 构建推理驱动模型:EditThinker——一个通过监督微调与强化学习联合训练的推理驱动多模态大语言模型,能够对编辑指令进行迭代式的批判、优化与重规划。 创建大规模数据集:推出包含14万样本的THINKEDIT-140k多轮对话数据集,该数据集提供统一的指令优化监督信号,专为基于推理的训练流程设计。 验证广泛适用性:在四个广泛使用的基准测试上进行大量实验,证明方法在多样化编辑场景与不同编辑模型中均具卓越效果。
总结速览
解决的问题
现有基于指令的图像编辑方法受限于单轮执行范式,难以有效应对模型固有的随机性与缺乏推理机制的问题,导致指令遵循准确率低、编辑结果与用户意图存在偏差,尤其在复杂或多步编辑任务中表现不足。
提出的方案
提出一种"边思考边编辑"(Think-while-Edit)的迭代式推理框架,将图像编辑重构为一个可循环优化的认知过程:在每轮编辑后自动评估结果、批判不足、优化原始指令,并重复生成,直至满足用户需求。该框架以统一的推理引擎 EditThinker 为核心,实现指令的动态精炼与再执行。
应用的技术
构建并训练一个多模态大语言模型(MLLM)EditThinker,联合输出批判评分、自然语言推理过程和改进后的编辑指令; 采用监督微调与强化学习相结合的训练策略,使模型的"思考"(推理与批判)与"编辑"行为对齐; 发布 THINKEDIT-140k 多轮对话数据集(含14万样本),提供结构化的多轮指令优化监督信号,支持推理驱动的模型训练。
达到的效果
在四个主流图像编辑基准上的大量实验表明,该方法显著且大幅度地提升了各类图像编辑模型的指令遵循能力,无论编辑任务复杂度或底层模型架构如何,均展现出强泛化性与广泛适用性,为高保真、高语义对齐的指令式图像编辑提供了新范式。
思考即编辑
为了解决当前编辑模型在单轮指令遵循方面的固有局限性,本文提出了"思考即编辑"框架,模仿人类在创作过程中"批判、反思和编辑"的认知过程。
整体框架
以前的方法主要以单轮方式操作:给定源图像 和原始指令 ,编辑模型直接生成最终编辑图像。这个过程缺乏迭代细化输出或从失败编辑中恢复的能力。
为了解决这一限制,本文引入了一个基于 MLLM 的思考者,它将单遍编辑转换为迭代的多轮过程。本文的框架将编辑工作流明确地解耦为两个不同的角色:一个用于判断和推理的思考者,一个用于执行的编辑器,其中思考者通过 SFT 和 RL 进行训练,编辑器是任何现有的图像编辑模型(例如,Qwen-Image-Edit,Flux-Kontext)。具体来说,在每次迭代 中,思考者评估先前的输出 并同时生成指令遵循分数 、细化指令 和推理过程 ,如以下公式所示:
然后,编辑器在源图像 上执行新指令 ,生成更新结果 ,如以下公式所示:
这个迭代过程,被称为"批判-改进-重复"循环,一直持续到实现编辑目标。
EditThinker 的设计
本文将 EditThinker 建模为一个双重角色模型,同时进行评估和规划。与使用单独模型进行评估(基于 MLLM 的评分器)和规划(基于 LLM 的重写器)的解耦方法不同,EditThinker 在一次前向传播中执行这两个任务。
本文的关键见解是,有效的规划需要深入评估:模型必须首先批判先前的输出(生成分数 和推理 ),然后才能生成细化指令 。通过在生成 之前生成 ,EditThinker 创建了一个明确的思维链,将指令细化基于对 和 的视觉批判。
为了实现这种双重角色设计,本文定义了一个结构化的输入-输出格式,明确编码了评估然后规划的过程。
输入元组。 EditThinker 在每次迭代 接收一个多模态元组 ,提供编辑状态的完整上下文: 和 代表原始参考, 是当前要批判的结果, 是生成它的先前指令。
结构化输出格式。 输出是一个结构化文本字符串,它序列化了 EditThinker 的推理过程:
其中, 是 的感知质量, 是与原始指令 相对于 的语义对齐。两个分数范围都为 0 到 10。
EditThinker 的训练
训练 EditThinker 执行这种双重角色任务需要专门的数据集和多阶段训练策略。本文采用两阶段方法:首先是监督微调 (SFT),以学习输出格式和基本推理,然后是强化学习 (RL),根据实际编辑反馈优化指令细化。
监督微调 (冷启动)
使用专家 (GPT-4.1) 演示数据集(详见第 4 节),基础 MLLM 学习采用本文的结构化 I/O 格式(例如,<think>、<score>、<answer>),模仿专家的推理风格,并理解批判和细化指令的原则。
强化学习微调 (RLT)
SFT 模型学习专家理想的推理方式,但这种推理并未基于实际编辑器的实际限制。该模型从未观察到实际的编辑失败,也未学习哪些类型的指令容易被特定编辑器误解。因此,对于 SFT 模型来说,一个看似最优的指令 在由实际编辑器(如 Qwen-Image-Edit)执行时仍然可能失败。这在理想推理和实际执行之间造成了差距。
为了弥合这一差距,本文引入了一个 RL 阶段,该阶段根据实际编辑反馈优化 EditThinker。本文采用标准 GRPO(组相对策略优化),并设计了一个精心设计的奖励函数。如前文所述,EditThinker 充当双重角色代理(即,评论者和细化者),本文设计了一个多组件奖励,为这两个方面提供学习信号,如下所示:
评论者奖励。 该组件训练 EditThinker 成为一个更准确的评论者。模型输出预测分数 (包括 和 ),这些分数应与编辑结果的实际质量保持一致。本文使用 GPT-4.1 作为评论专家 (E) 来评估结果图像 。评论者奖励 惩罚预测误差,如下所示:
该奖励鼓励 EditThinker 校准其自我评估:高估质量(实际分数为 5 时预测为 9)或低估都会受到惩罚。通过这种反馈,模型学会将其内部批判与实际编辑结果保持一致。
编辑奖励。 这是训练 EditThinker 成为更好的细化者的主要奖励。它激励模型生成一个指令 ,该指令导致图像质量和指令遵循方面的可衡量改进。本文使用差分奖励,使用相同的专家 E 比较"之前"状态 () 和"之后"状态 (),如下所示:
仅当生成的指令 成功促使编辑器生成比前一步更好的图像时,该奖励才为正。这直接将 EditThinker 的规划能力基于实际执行结果。
最终奖励 如下:
其中 是基本推理格式奖励,且 。
THINKEDIT 数据集
为了训练 EditThinker,本文需要一个高质量的数据集来捕获多轮"思考即编辑"循环。如下图 3 所示,本文设计了一个自动化数据构建管道来模拟这个过程,包括四个顺序步骤:轨迹生成、轨迹过滤、分步过滤和数据划分。这个管道使本文能够构建 THINKEDIT-140k 数据集。下面详细介绍每个步骤。
轨迹生成
第一阶段侧重于模拟多轮"思考即编辑"循环。该管道从包含各种 (, ) 对的编辑数据池开始。在每个步骤 ,编辑思考者专家 (GPT-4.1) 评估当前状态(基于 、 和 )并生成新指令 ()、推理过程 () 和 <stop> 标记。
值得注意的是,专家不输出分数 ()。相反,它通过发出 <stop> 标记直接决定何时停止该过程。这种设计选择源于本文的发现,即单个专家难以在任务细化和输出评分方面同时保持高性能。如果未发出 <stop> 标记,图像编辑器将使用新的 生成 。此循环持续进行,直到专家触发 <stop> 条件(或达到最大迭代限制 N),从而完成完整轨迹。
轨迹过滤
由于编辑思考者专家只生成精炼指令和 <stop> 标记而不提供质量分数,本文采用一个额外的编辑评分器来评估每个步骤 并分配一个分数 。在对所有步骤 () 进行评分后,本文应用一个两阶段过滤过程:
过滤失败轨迹。 本文只保留至少一个后续步骤 () 获得的分数高于或等于初始步骤的轨迹(即,)。不符合此条件的轨迹将被丢弃。
截断保留轨迹。 对于保留的轨迹,本文识别分数最高的步骤 () 并将轨迹截断为仅包含从 1 到 的步骤。所有后续步骤 () 都将被丢弃。
分步过滤
最后,本文处理来自轨迹过滤的精心策划的轨迹,通过两个步骤创建最终训练数据:
样本提取。 首先,本文展开截断的轨迹。轨迹中的每个单独步骤 都转换为一个不同的训练样本。此样本将输入元组 (, , , ) 与其相应的地面实况专家输出 (, ) 配对。该步骤的分数 作为元数据保留,用于后续过滤。
分布平衡。 本文应用最终过滤步骤,沿两个维度平衡数据集:
任务分布: 本文在不同任务类型(例如,对象移除、颜色修改、添加项目)之间平衡样本,以确保均匀覆盖。 分数分布: 本文在分数级别之间标准化样本,以确保编辑质量的平衡表示。
SFT 和 RL 数据划分
在轨迹过滤之后,本文获得了大量精选的高质量轨迹。从这个集合中,本文为监督微调 (SFT) 和强化学习 (RL) 阶段创建了两个不同的数据集。划分原则是 SFT 需要稳定、高质量的示例,而 RL 最受益于动态改进示例。
RL 数据集。 本文首先识别对强化学习最有价值的轨迹。关键标准是高轨迹内分数方差(即,"高波动"分数,Var() > )。这些轨迹代表了模型最初遇到困难但随后设法改进的挑战性案例,为学习提供了丰富的奖励信号。本文筛选了 10k 这样高方差的轨迹,同时确保该集合在不同任务类型和分数分布之间保持平衡。展开后,这些轨迹产生了 27k 个分步样本,构成了本文的 RL 数据集。
SFT 数据集。 SFT 数据集旨在教授模型正确、稳定的细化行为。因此,本文选择了具有低分数方差或持续高质量的样本。这些"低波动"步骤通常代表更直接、正确和可靠的细化示例。这个过程产生了一个单独的 140k 个分步样本数据集用于 SFT。
实验
实验设置总结
本节详细介绍了 EditThinker 框架的实验设置。EditThinker 基于 Qwen3-VL-8B-Instruct 构建。训练分为两个阶段:
监督微调 (SFT) :在本文新构建的 THINKEDIT-SFT-140k 数据集上进行一个 epoch 的训练。关键超参数包括学习率为 2 10,批大小为 32。 强化学习 (RL) :在 THINKEDIT-RL-10k 数据集上进行一个 epoch 的训练。关键超参数包括学习率为 2 10,全局批大小为 128,生成的回滚数 (N) 为 8,KL 散度惩罚系数为 1 10。最大像素数设置为 1024 1024。
整个训练过程在 8 块 H800 GPU 上进行,大约需要 48 小时。在推理阶段,本文的"思考即编辑"范式与 OmniGen2、Flux Kontext [dev]和 Qwen-Image-Edit结合使用。
基准和基线:为了全面验证"思考即编辑"范式的有效性,本文在四个不同的基准上进行了综合评估:ImgEdit-Bench、GEdit-Bench 、RISEBench和 KRIS-Bench。选择这套基准是为了进行多方面的评估,其中 RISEBench 和 KRIS-Bench 专门侧重于评估编辑模型的推理能力。
主要结果总结
本节总结了 EditThinker 框架在通用编辑和推理编辑任务上的评估结果,如下表 1 和表 2 所示。
通用编辑性能:如上表 1 所示,本文的"思考即编辑"框架在 ImgEdit-Bench 和 GEdit-Bench-EN 数据集上,显著且持续地提升了所有基础模型的性能。 在 ImgEdit-Bench 上,EditThinker 将 FLUX.1-Kontext [Dev] 的总体分数从 3.44 提高到 3.98,OmniGen2 从 3.4 提高到 3.5,Qwen-Image-Edit 从 4.36 提高到 4.37。这些结果超越了一些最先进的模型。 在 GEdit-Bench-EN 数据集上,本文的方法同样取得了稳定的增益,将 FLUX.1-Kontext [Dev] 的分数从 6.18 提高到 7.05,OmniGen2 从 6.19 提高到 6.28,Qwen-Image-Edit 从 7.49 提高到 7.73。 推理编辑性能:本文的方法在需要深度推理的任务上同样提供了持续的改进,如上表 2 所示。 在 RISE-Bench 上,EditThinker 框架为所有模型提供了稳定的性能提升。FLUX.1-Kontext [Dev] 从 5.8 提高到 14.4,OmniGen2 从 3.1 提高到 3.4,Qwen-Image-Edit 从 8.9 提高到 17.8。 专家模型能力的影响:本文观察到框架的性能与 EditThinker (专家模型) 本身的能力呈正相关。如上表 1 所示,EditThinker-8B 将 FLUX 分数提高到 3.98,而更强大的 EditThinker (GPT-4.1) 进一步将其提高到 4.13。这种模式在其他模型和基准上也成立,表明使用更强大的专家模型作为"思考者"直接转化为最终编辑结果的更大性能提升。
消融研究总结
本节总结了对 EditThinker 框架中关键组件的消融研究结果。以 FLUX.1-Kontext [Dev] 模型为基线,并在 GEdit-Bench-EN 和 ImgEdit-Bench 上进行评估。
思考模式分析: 如下表 3 所示,本文将模型编辑思考范式分为两种主要方法:"思考再编辑"(Think before Edit)和"思考即编辑"(Think while Edit)。"思考再编辑"仅使用源图像重写优化后的提示,而"思考即编辑"是本文提出的迭代推理和编辑框架。 "思考再编辑"提供了显著改进,但始终不如"思考即编辑"。 用"思考再编辑"步骤初始化"思考即编辑"会导致性能下降,这可能是因为首次"思考再编辑"在第一轮推理中引入了偏差,导致信息传输不完整。
思考轮次的效果: 如下表 4 所示,基线模型(相当于单次通过,即"Turn 1")的 G O 分数为 6.18。 引入"思考即编辑"框架,最大两轮(Turn 2),立即将 G O 分数大幅提升至 6.95。 随着最大允许轮次的增加,G O 分数持续攀升,在 4 轮时达到 7.13,在 6 轮时达到 7.16,在 8 轮时达到 7.30。这表明本文的框架有效利用了更深层次的多步推理。 此外,下表 8 显示了 EditThinker-8B 的多轮推理性能。从基线到 Turn 8,性能持续改进,从 6.18 提高到 7.03。在 Turn 2 观察到最大的性能提升,分数从 6.18 跃升至 6.90。
训练阶段分析: 如下表 5 所示,SFT 阶段本身(+ EditThinker-8B-SFT)带来了显著的性能提升,将 G O 分数从 6.18 提高到 6.93,ImgEdit-Bench 的总体分数从 3.44 提高到 3.57。 随后的强化学习 (RL) 阶段(+ EditThinker-8B-RL)提供了额外且关键的优化。虽然在 GEdit-Bench 上取得了适度增益(7.02 G O),但其影响在 ImgEdit-Bench 基准上最为显著,将总体分数从 3.57 (SFT) 提高到 3.95 (RL)。这表明 SFT 对于传授基础细化能力至关重要,而 RL 在优化专家判断和微调决策策略方面非常有效。
不同 EditThinker 专家模型的影响: 如上表 6 所示,本文通过替换训练好的 EditThinker-8B,探究了框架的可扩展性。 基线 FLUX 模型的 G O 分数为 6.00。当本文简单地用像 GPT 4.1 这样强大的现成专有模型替换专家时,G O 分数跃升至 7.19。 这证实了两个关键见解:1) 本文的"思考即编辑"框架是一个通用且高度可扩展的范式,不限于本文特定的训练专家。2) 框架的性能与所采用的专家模型的底层推理和批判能力直接且呈正相关。
结论
本文提出了一个深思熟虑的编辑框架 EditThinker,它使图像编辑模型能够在编辑时"思考",解决了现有单轮方法中由于固有的随机性和缺乏深思熟虑而导致的指令遵循能力有限的问题。本文的框架通过模拟迭代的"批判-改进-重复"循环来模仿人类的认知过程,从而实现自我纠正的图像编辑。通过将 EditThinker 训练为一个统一的多模态大语言模型 (MLLM),它能够联合生成批判分数、详细推理过程和改进后的指令。本文还引入了 THINKEDIT-140k,一个用于监督微调 (SFT) 和强化学习 (RL) 的大规模、多轮数据集,以将 EditThinker 的规划能力与实际编辑器的限制对齐。在 ImgEdit-Bench、GEdit-Bench、RISE-Bench 和 Kris-Bench 等四个广泛使用的基准上进行的综合实验表明,EditThinker 显著提高了现有图像编辑模型的指令遵循能力,特别是在需要复杂推理的任务中。消融研究进一步证实了"思考即编辑"范式、迭代推理轮次、两阶段训练策略和专家模型能力的关键贡献。本文的研究结果强调了将深思熟虑和迭代推理整合到图像编辑工作流中的重要性,为开发更智能、更稳健的交互式视觉系统铺平了道路。本文计划发布所有数据集和模型,以促进该领域的进一步研究。
参考文献
[1] EditThinker: Unlocking Iterative Reasoning for Any Image Editor
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论