AI I024: 开放指令编辑效果爆表！小米开源Lego-Edit登顶SOTA：用强化学习教MLLM“举一反三”！

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Qifei Jia等

解读：AI生成未来

论文链接：https://arxiv.org/pdf/2509.12883
Git链接：https://github.com/xiaomi-research/lego-edit

亮点直击
Lego-Edit，这是一种基于指令的图像编辑框架，利用经过强化学习微调的MLLM agent 来协调模型级编辑工具，以执行灵活的现实世界指令。
引入了一种三阶段渐进式强化学习训练策略，利用无标签数据提供反馈，显著增强了MLLM的推理和工具组合能力。
大量实验表明，Lego-Edit在GEditBench和ImgBench上达到了SOTA性能。该框架在处理灵活的开放域指令方面表现出强大的泛化能力，并且可以在不重新训练的情况下整合新工具。

总结速览

解决的问题

现实世界用户指令的多样性使得现有基于指令的图像编辑方法难以有效泛化到训练领域之外的指令，限制了其实际应用。

提出的方案

提出Lego-Edit，通过利用多模态大语言模型（MLLM）的泛化能力，组织一套模型级编辑工具来应对指令多样性挑战。
Lego-Edit包含两个关键设计：

模型级工具包：由多样化模型组成，包含若干图像操作功能，支持MLLM精细组合编辑动作。
三阶段渐进式强化学习方法：利用未标注的开放域指令反馈来训练MLLM，提升其处理现实世界指令的泛化推理能力。

应用的技术

多模态大语言模型（MLLM）
模型级工具包
三阶段渐进式强化学习策略

达到的效果

Lego-Edit在GEdit-Bench和ImgBench上达到了最先进的性能。
展现了强大的开放域指令处理和推理能力。
能够在不重新训练的情况下整合新引入的编辑工具。

方法

Lego-Edit，这是一个为通用基于指令的图像编辑设计的框架。它使用Builder（一个MLLM）来调用Bricks（模型级工具）以实现灵活性，并采用强化学习（RL）来增强Builder的推理和工具组合能力。本文首先概述整体框架，然后详细说明Builder的提示结构。接下来的部分描述工具分类，最后一部分详细阐述本文为Builder设计的三阶段渐进式RL训练策略。

整体框架

如下图3所示，本文的系统包括：

Builder，一个MLLM推理agent，记为，用于生成工作流，其中表示模型参数；
一个解析和执行工作流的执行器；
Bricks，一个外部模型级工具库，包含封装模型或逻辑过程的功能，其中是工具的总数。

给定一个输入对，包含目标图像和编辑提示，Builder ，观察状态，生成一个推理轨迹，记为，以及一个基于其策略的JSON格式工作流。这个工作流是一个工具调用图。顶点集表示选定的工具实例，每个且；这里，是根据任务复杂性自适应确定的。边集定义了顺序依赖性，其中边表示的输入依赖于的输出。然后，执行器解析，调用工具，并生成编辑后的图像。

提示结构

本文策划的Builder输入提示格式（上图3左侧）有三个关键组成部分：

系统描述和调用约束：通过系统提示定义能力、任务范围和有效的工具参数类型。
可用工具列表：每个条目包括模型名称、功能描述和调用约束，详细说明编辑能力和要求。
工作流组合示例：少量示例指导有效的工作流编写。

在这些之后，提示呈现编辑指令，并指导Builder在推理后生成编辑工作流。

模型级编辑工具

本文构建了一个细粒度的模型级图像编辑工具库，其中每个工具代表一个单独的模型或功能。根据是否修改图像，工具分为两类：

预测模型（）：提取/处理掩码和区域以提供空间约束，而不改变像素。包括的工具有RES（分割指定对象）、SOS（主体对象分割）、ADD-PRED（预测添加位置）、CAP-PRED（图像字幕）、INVERSE（反转掩码），以及一个额外的工具。

编辑模型（）：修改图像内容。包括的工具有FILL（根据给定提示或参考图像添加对象）、五个专门的LoRA适配器用于FILL：INPAINT（修复）、POSE（人体姿势变化）、ENV（环境改变）、STYLE（风格迁移）、RCM（材质/颜色变化），以及三个额外的工具。

要调用工具，Builder需要指定其名称、输入参数和输出参数。完整细节在补充材料中。

为了防止在端到端模型中联合训练引起的任务混淆（如ICEdit Zhang等人（2025）中所述），本文为每个编辑模型训练独立的LoRA适配器。此外，Builder可以使用来自的掩码精确控制编辑范围，从而实现更准确的编辑。

三阶段渐进式强化学习策略

为了训练Builder 以实现有效的工具组合，本文采用了三阶段渐进式RL策略，逐步增加任务复杂性并减少对真实数据的依赖。

使用GRPO进行强化学习

首先介绍在阶段2和3中使用的群体相对策略优化（GRPO）算法。对于给定输入，策略采样个工作流。每个工作流获得一个奖励（在下面每个阶段中定义）。组内每个样本的相对优势计算如下：

策略通过最大化 GRPO 目标来更新：其中，表示用于采样观测的图像-指令对的分布，是更新前的旧策略，是固定的参考策略，，控制截断范围，对KL正则化进行加权以趋向于。

阶段1：监督微调（SFT）

本文使用SFT将Builder适配到图像编辑领域，基于几个特定任务的数据。每个样本与专家生成的推理轨迹和真实工作流程配对。学习目标表示为连接序列。模型被训练以最小化负对数似然。

其中，是序列的总长度，是模型的条件下一个标记的分布。

阶段2：基于GT的奖励进行优化

在SFT的基础上，阶段2继续使用仅包含对和的特定任务进行训练。由Builder生成的工作流程记为。在此阶段，本文采用两个奖励：

有效奖励（）：它对不可执行的工作流程进行惩罚，如下所示：相似性奖励（）：它通过层次化图匹配来衡量与专家工作流程之间的一致性。中节点的深度是根据逆拓扑顺序计算的，这意味着输出节点的深度为0。匹配的节点是通过匈牙利算法在每个深度层中根据节点相似性找到的，阈值为0.6。节点相似性通过平均是否使用相同模型的指示器和相同参数的比例来计算。结合了节点覆盖率和平均匹配节点相似性：

其中和分别表示生成的工作流和真实工作流的节点集。
总奖励为：。

阶段3：使用无GT评论奖励进行泛化

阶段3的目标是使用仅有的对进行开放域指令的泛化。本文采用与公式4相同的有效奖励以及另一个有效性奖励，以在没有真实工作流的情况下提供反馈。

有效性奖励 ()：它使用一个 MLLM 评论模型来评估工作流效果与指令之间的语义对齐。工作流被分解为多个编辑链，每个链仅包含一个在中的编辑模型以执行实际编辑。MLLM 评论会将每个链的效果抽象为一个元编辑描述，然后将描述集与进行评估。具体来说，LLM 必须确定是移除现有的编辑链，还是添加新的编辑链以更好地实现指令。它必须指定要移除的链的数量 ()，要添加的链的数量 ()，以及新链的内容。应用的惩罚定义如下：

总奖励为：。

实验

首先展示模型的零样本能力，随后通过大量实验验证了本文框架在图像编辑基准测试中的优越性。接着，分析模型级工具带来的性能提升和其他优势，最后展示通过强化学习提升的 Builder 的泛化能力和性能。

实现细节

Builder： 本文的 Builder 基于 MiMo-VL-7B，在 bf16 中使用渐进式三阶段课程进行全参数微调：（1）500 对图文对（指令、思路和工作流），（2）20K 对（指令和工作流），以及（3）50K 对（指令），所有数据均来自 OmniEdit。思路和工作流的生成，以及在阶段3训练中使用的评论模型，均基于 Qwen2.5-VL-72B。每个阶段训练1个epoch，使用 AdamW（学习率，，权重衰减），没有预热或衰减（批量大小8，图像大小448 × 448）。

预测工具： RES 使用 EVF-SAM，从头开始在 200K MS COCO样本上训练（学习率，批量大小64，分辨率512×512，10K次迭代），使用 BCE 和 Dice 损失。SOS 使用 U2Net，在 5K DIS上训练，采用相同的损失和优化设置（批量大小24，100个epoch，仅使用 BCE 损失）。两个模型都在没有预训练权重的情况下初始化。ADD-PRED 和 CAP-PRED 共享 Qwen2-VL-2B主干。CAP-PRED 直接利用基础模型的内在字幕能力。ADD-PRED 在 50K OmniEdit 样本上微调，用于添加/移除区域预测，制定为源图像和目标图像之间的边界框回归；训练使用1个epoch和学习率。

编辑工具： 采用 ICEdit 的框架（使用 FLUX-1 主干和 LoRA 微调，rank=32），但为各个任务实现了五个专用适配器，而不是多任务适配器。每个适配器在 OmniEdit 和 MagicBrush 精选的 10K 任务特定样本上进行训练，通过 VIEScore 评估，使用全局批量大小为 8，在 768×768 分辨率下进行 10K 步训练。

所有实验均使用 8×NVIDIA H20 GPU 进行训练。本文采用 DeepSpeed ZeRO-3 来加速训练。

评估设置

为确保权威的评估，在两个广泛采用的数据集上对本文的方法进行基准测试：GEdit-Bench（606 个样本）和 ImgEdit（811 个样本），这两个数据集以复杂的编辑指令和高质量的图像而闻名。按照标准协议，本文采用由 GPT-4o 执行的 VIEScore 作为本文的主要指标。为确保公平性和可重复性，本文将随机种子固定为 0，并对所有评估进行单次推理。在 GEdit-Bench 上使用单个 H20 GPU 时，本文的 Builder 需要 3.5 秒，最慢的工具需要 2.7 秒，总的管道延迟约为 7.2 秒，而在相同设置下，端到端方法 Bagel 的延迟超过 25 秒。

Builder 的零样本能力

具有灵活工具组合的零样本复杂编辑：下图 6 展示了在灵活指令下编辑结果的视觉对比，以及 Builder 的工具组合过程。对于"交换"指令，尽管 Builder 并未在此任务上进行显式训练，但它通过首先使用 RES 和 INPAINT 移除对象 A，然后通过 ADD-PRED 和 FILL 插入对象 B，有效地将指令分解为原子操作。这个例子展示了它为灵活编辑指令组合专用工具的能力，使其能够进行超越端到端或精心设计的管道模型的复杂编辑。

零样本适应反馈和新工具：下图 15 展示了 Builder 在不重新训练的情况下适应用户反馈和新工具的能力。在反射去除任务中，Builder 的初始工作流程（RES 和 INPAINT）失败，因为 RES 无法有效地分割反射。用户可以提供直接指令，例如"在 INPAINT 之前不要使用 RES"，以防止这种情况。在此反馈的指导下，Builder 修改了其工作流程：使用 SOS 进行前景分割，使用 INVERSE 推断背景，然后用 INPAINT 去除部分反射。此外，用户可以引入专用的反射去除工具（RRF），Builder 可以轻松采用该工具来有效解决任务。这说明了系统通过整合新工具或结合用户反馈来扩展能力的适应性，而无需修改 Builder。

与最新技术的比较

GEdit-Bench： 如下表 8 所示，本文的方法在 GEdit-Bench-EN 上实现了最高的图像保留评分，，并以的成绩提供了最佳的整体表现，超越了所有竞争方法。如下图 9 所示，Lego-Edit 在细粒度子任务（如颜色变化和材料替换）中表现出色。这种精确性归功于 Builder 组合 RES 来执行这些任务，对非目标区域的影响最小，详细内容见工具组合效果部分。相比于依赖预设脚本管道的传统手动工作流 API agent （如 ComfyMind），Lego-Edit 通过一个强大的 Builder 和灵活的专用工具编排，取得了显著的性能提升。

ImgEdit-Bench： Lego-Edit 在 ImgBench 上保持顶级表现，在所有比较方法中取得了最高的整体评分（3.50）。详细结果见下表 1。重要的是，本文的框架在最具挑战性的混合编辑子任务中占据主导地位（3.18）。这一成功验证了本文的观点，即 Builder 可以将复合指令解析为原子子任务，并动态生成工作流以协调专用工具。

定性结果：如下图 10 所示，本文的方法在编辑准确性和视觉真实感方面优于其他方法。编辑与预期区域高度一致，并保持高感知质量。

工具的消融研究

任务专用工具的必要性。为了验证 Lego-Edit 的设计，本文将其任务专用架构与使用相同设置的统一替代方案进行比较。三个独立的 LoRA 适配器在每个任务上训练了 10K 样本，而统一模型使用了一个合并的 30K 数据集。如下表 2 所示，专用模型的表现优于统一模型（例如，在颜色改变中为 6.83 对比 5.94）。在统一模型中增加 LoRA 等级没有带来收益。定性结果显示在统一设置中频繁出现任务混淆，这突显了专用化对编辑保真度的重要性。

对 Builder 的消融研究

强化学习训练的有效性。 下表 3 中 GEdit-Bench 的消融实验显示了本文渐进式强化学习训练的有效性。从 Builder-SFT 开始，其在简单和复杂成功率以及 VIEScores 上都优于基准模型 MiMo-VL-7B 和强大的 MLLM GPT-4o。随后使用真实数据的强化学习训练（Builder-RL w/ GT）在简单任务中实现了 100% 的成功率，在复杂任务中实现了 83.6% 的成功率，并且 VIEScores 更高。最终的无 GT 强化学习训练（Builder-RL w/o GT）保持了 100% 的简单任务成功率，将复杂任务成功率提升至 99.0%，并达到了最高的 VIEScores。尽管简单任务的准确率相同，这种复杂任务的改进表明参数输出更为准确，并增强了工具接口的组合理解能力，使得在灵活指令下的执行更加可靠。

工具组合的有效性。 为了评估在 Lego-Edit 中显式工具组合的影响，本文检查了其在 GEdit-Bench 子任务中的表现。如下表 4 所示，将 RES 分割掩码与 RCM 集成提高了颜色改变和材料修改的 G O，突出显示了 RES 空间控制的优势。同样，将 CAP-PRED 文本描述纳入 STYLE 提升了风格迁移中的 G O，因为文本提示加强了风格化输出与源图像之间的语义对齐。这些结果表明，工具组合提高了性能，证实了 Lego-Edit 协调专用工具以实现卓越编辑性能的能力。

结论

Lego-Edit，这是一种基于agent的新框架，用于生成式指令驱动的图像编辑。它使用经过RL微调的MLLM（Builder）来协调模型级别的编辑工具（Bricks），并通过两个关键创新实现：细粒度工具允许灵活组合和精确控制，以及三阶段渐进式RL训练策略，通过对开放域指令的无GT反馈来增强推理和工具组织能力。大量实验表明，Lego-Edit在GEdit-Bench和ImgBench上表现出色，展示了在处理灵活请求和整合新工具而无需重新训练方面的卓越准确性和泛化能力。未来的工作将扩展工具集以实现更广泛的功能，并探索基于agent的反馈以提高鲁棒性。

参考文献

[1] Lego-Edit: A General Image Editing Framework with Model-Level Bricks and MLLM Builder

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年9月20日星期六

开放指令编辑效果爆表！小米开源Lego-Edit登顶SOTA：用强化学习教MLLM“举一反三”！