AI生成未来知识星球免费开放!
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:UniWorld团队
论文链接:https://arxiv.org/pdf/2510.16888
Git 链接:https://github.com/PKU-YuanGroup/Edit-R1
亮点直击
Edit-R1框架:结合DiffusionNFT技术与预训练多模态大模型(MLLM)构建免训练奖励机制,实现对扩散模型的指令驱动图像编辑微调。 验证奖励信号优越性:证明该框架提供的奖励信号具备更高的人类偏好对齐度,可生成稳定、低成本、低幻觉的反馈信号,有效提升训练稳定性。 实证性能突破:实验表明,该方法显著提升UniWorld-V2、Qwen-Image-Edit和FLUX.1-Kontext等模型在多样化编辑基准上的性能表现。
总结速览
解决的问题:当前基于指令的图像编辑模型通常依赖于监督微调训练,这导致模型在标注模式上过拟合,限制了它们在训练分布之外的探索和泛化能力。此外,编辑指令和任务的多样性使得缺乏通用的奖励模型。
提出的方案:引入Edit-R1框架,该框架基于策略优化,结合了扩散负面感知微调(DiffusionNFT)和多模态大语言模型(MLLM),以提供免训练的奖励机制,帮助解决模型在不同指令环境下的泛化问题。
应用的技术:使用了DiffusionNFT技术,这是一种无似然的策略优化方法,能够兼容流匹配前向过程,允许使用更高阶的采样器以提高训练效率。同时,采取多模态大语言模型(MLLM)作为统一的、免训练的奖励模型,利用其输出logits提供细致反馈。此外,设计了低方差群体过滤机制,以降低MLLM评分的噪声并稳定优化过程。
达到的效果:通过Edit-R1框架训练的UniWorld-V2模型在ImgEdit和GEdit-Bench基准上取得了最先进成绩,分别得分4.49和7.83。该框架与模型无关,展示了在不同基础模型(如Qwen-Image-Edit和FLUX-Kontext)上的显著性能提升,证明了其广泛适用性。
方法
初步准备
流匹配。 给定一个数据样本 与一个对应的条件 (例如类别标签或文本嵌入)。从真实分布和高斯噪声样本 ,校正流将插值噪声样本 定义为:
其中 。给定 作为文本嵌入,通过训练神经网络 来逼近目标速度场 ,通过最小化流匹配目标:
推理是通过为前向过程求解确定性常微分方程来执行的:
扩散负面感知微调 (DiffusionNFT)。 与基于策略梯度框架的强化学习算法不同,DiffusionNFT 直接通过流动匹配目标在前向扩散过程中进行策略优化。该方法利用奖励信号 来定义对比损失,从而将模型的速度预测器 引导向高奖励策略并远离低奖励策略。核心策略优化损失定义为:
其中, 是目标速度场。隐式正负策略 和 是旧策略 和训练策略 的组合,由超参数 加权:
最优概率 是由无约束的原始奖励信号 转换而来的:
其中 是一个归一化因子,例如全局奖励的标准差。
无需训练的 MLLM 评分
本文方法利用预训练的 MLLM 作为无需训练的奖励模型来评估编辑的准确性。一个编辑任务由输入序列 定义,包含原始图像、编辑后的图像和文本指令。MLLM 的响应生成被建模为一个逐个令牌生成的过程。设 。下一个令牌 的生成是基于先前令牌的条件:
在这里, 表示一个 MLLM,其输出是对应于序列最后一个令牌的 logits 向量。本文从两个维度探索 MLLM 的评估框架:Chain-of-Thought (CoT) 与 非CoT 评分,以及基于采样(离散的)与基于 logits(连续的)评分。
CoT 与 非CoT:这一维度探讨 MLLM 在提供最终分数前是否应生成解释性推理。在非CoT评分中,MLLM 直接生成分数而不进行推理,响应长度为 。相反,CoT 评分要求 MLLM 在给出分数前生成 CoT 推理,导致响应长度 。 基于采样与基于 logits:这一维度探讨如何将 MLLM 的输出转换为奖励信号。首先,MLLM 基于预定义的模板生成文本响应 。基于采样的评分通过确定性规则从 中提取明确的数值分数。
这种方法虽然简单,但产生的是稀疏信号,在评分时忽略了模型的不确定性。基于 logits 的评分提供了更细化的奖励,计算方法为分数字符的期望数值:
其中, 是符号 的数值, 代表用于评分的符号集合。这个分数体现了模型在不同分数上的信心分布。然后,本文将分数规范化到 [0, 1] 范围内:
在 Edit-R1 中,本文使用非 CoT 和基于 logits 的评分方法,并设定 。此外,本文还对比了其他评分机制以验证其有效性,包括基于样本的方法和在评分前提示 MLLM 进行推理的 CoT 变体。另外,本文还参考了现有工作的预训练奖励模型进行基准测试。
低标准差群体过滤
一个潜在的限制来自于在低奖励方差条件下的归一化操作。当 MLLM 为群体样本分配的概率非常相似时(例如,均超过 0.95),它们之间的微小差异无法可靠地指示真实的质量差距。然而,在低方差情景下,通过标准差进行划分会放大这些微小的评分差异,如下图 3 所示。由此产生的奖励信号反映的主要是噪声而非真实质量,可能会误导训练过程。过滤掉这些带噪声的群体对维持训练稳定性至关重要。因此,本文旨在过滤掉在原始奖励中均值高且方差低的群体。具体来说,本文引入了两个超参数, 和 ,它们分别表示均值和方差的阈值。在训练过程中,来自于那些均值奖励超过 且方差低于 的群体的梯度将被舍弃,不参与优化过程。
Edit-R1 的流程
为增强图像编辑模型,利用 DiffusionNFT 并采用 MLLM 的奖励信号。这种方法使奖励信号普遍适用于任何编辑任务,通过政策优化生成来自同一分布的稳定奖励,同时消除对特定领域奖励模型的依赖。
如下图 2 所示,该过程包括三个主要部分:采样、MLLM 评分和扩散负关于感知微调,这三个部分逐步将模型与最优策略对齐。
部分 1:采样 得益于策略优化与数据采样的解耦,DiffusionNFT 允许充分利用任何黑盒求解器进行采样。因此,本文特别采用 DPM-Solver,对给定的源图像和编辑指令进行快速展开,生成一组从旧策略 采样的 个图像 。
部分 2:MLLM 评分 根据 MLLM 的隐式反馈评估生成的图像组 ,以衡量其与编辑指令的契合度和整体图像质量。基于原始图像、编辑后的图像和评估提示,MLLM 为 生成一系列原始奖励分数 。为便于细粒度评分,评估提示结构化为两个部分:基础提示,概述基本的编辑要求和指令,以及任务提示,特别针对具体的编辑任务类型量身定制。
部分 3:DiffusionNFT 通过群体计算,原始 MLLM 分数 被转换为最优性奖励 。这些奖励随后用于使用 DiffusionNFT 目标(在公式 4 中定义)更新策略模型 。该过程引导模型的速度预测器朝向高奖励结果,同时远离低奖励结果,有效地微调模型以更好地遵循用户指令并产生更高质量的编辑结果。
实验
数据集
本文整理了一个包含 27,572 个基于指令的编辑样本的数据集,如下图5所示,这些样本来自 LAION、LexArt 和 UniWorldV1。为了增强任务多样性,加入了额外的文本编辑和红框控制任务,共形成九种不同的任务类型。利用在线学习模式,本文的方法仅依赖于原始图像及其相应的编辑指令,这消除了对高质量编辑结果图像的需求。对于 LAION 子集,使用 ImgEdit 提供的现有对象注释和边界框。预处理管道包括:1)过滤掉过小或过大的边界框;2)使用 Qwen2.5-VL-32B 模型评估编辑指令的合理性。对于文本编辑任务,基于 LexArt 子集随机更改单词中的字符以生成训练样本。在红框控制任务中,从处理后的 LAION 数据中提取一个子集,在目标对象周围画出红色边界框,并生成三种类型的编辑指令:调整、移除和替换。对于参考和提取任务,使用来自 UniWorld-V1 的高质量试穿数据。由于该数据集的多样性有限,本文仅为这两个任务使用 600 个样本。
实验设置
为了评估本文方法的有效性,本文从两个角度进行实验:1)不同 MLLM 评分方法与人类判断之间的一致性,以及 2)通过本文的方法进行后期训练后编辑模型的性能提升。
训练 本文使用 FLUX.1-Kontext [Dev]、Qwen-Image-Edit [2509] 和 UniWorld-V2 作为基础模型。训练时,本文为 FLUX.1-Kontext [Dev] 分配 3 个节点,为 Qwen-Image-Edit [2509] 分配 6 个节点,为 UniWorld-V2 分配 9 个节点,每个节点包含 8 个 A100 GPU。本文在单个节点上使用 vLLM 进行 MLLM 评分。为了优化 GPU 内存利用率,在训练 Qwen-Image-Edit [2509] 和 UniWorld-V2 时,本文为文本编码器采用全面分片数据并行(FSDP),并使用梯度检查点。
评估 对于定量评估,本文采用两个综合基准测试:ImgEdit,该测试将多种专门任务统一为一个通用框架以进行全面模型比较,以及 GEdit-Bench,该测试通过丰富的自然语言指令评估通用图像编辑。
主要结果
本文在 ImgEdit 和 GEdit-Bench 基准上评估这些模型,以评估它们的编辑能力和泛化能力。
定量结果分别展示在下表 1 和下表 2 中,下图 4 中展示了定性的比较。
本文的方法释放了模型的潜力并显著提高了其性能。 如上表 1 所示,本文的方法显著增强了所有基础模型在 ImgEdit 基准上的表现。对于 FLUX.1-Kontext [Dev],整体分数显著提高,从 3.71 上升到 4.02,超过了较强的 Pro 版本(4.00)。同样,在应用于 Qwen-Image-Edit [2509] 时,本文的方法将其分数从 4.35 提升到令人印象深刻的 4.48,实现了开源模型中的最先进性能,并超越了顶级闭源模型如 GPT-Image-1。除了总得分的提升之外,UniWorld-FLUX.1-Kontext 在"调整"、"提取"和"移除"维度上表现出显著的性能提升,而 UniWorld-Qwen-Image-Edit则在"提取"和"混合"维度上表现优异。此外,UniWorld-V2达到了最佳性能。这一现象表明,本文的方法能够解锁和显著提高基础模型中之前未开发的潜力。
本文的方法在域外数据集上展示了强大的泛化能力。 在域外 GEdit-Bench(上表2)上,Edit-R1 为三种模型展示了强大的泛化性能。它使 FLUX.1-Kontext [Dev] 模型的总分从 6.00 提升到 6.74,表现超越了 Pro 版本(6.56)。对于 Qwen-Image 模型,其得分从 7.54 增加到 7.76。同时,UniWorld-V2在这一基准测试中建立了新的最先进水平,超越了所有列出的模型,包括 Qwen-Image-Edit(7.56)和 GPT-Image-1(7.53)。这一结果确认本文的方法有效地保留和增强了在未见数据分布上的核心编辑能力,展示了强大的泛化能力。
本文的方法在人工偏好评估中证明了其有效性。 为了全面评估,本文对 FLUX.1 和 Qwen系列进行了人工偏好研究,参与者将本文的微调模型与其基础模型和更强大的版本进行比较。他们被要求在两个维度上选择最佳结果:指令对齐和图像质量。如图6所示,用户在所有标准中更倾向于选择 UniWorld-FLUX.1-Kontext 而不是 FLUX.1-Kontext [Dev]。此外,它在编辑能力上表现出较强的优势,尤其是在与更强大的官方版本 FLUX.1-Kontext [Pro]的比较中。总体而言,UniWorld-FLUX.1-Kontext因其优越的指令遵循能力而获得更多的喜欢,尽管官方模型在图像质量上稍微胜出。这证实了本文的方法能够有效地引导模型生成更符合人类偏好的输出。
消融研究
本文进行了消融研究以验证本文的核心组件。如下图7所示,本文在 FLUX.1 Kontext [Dev] 上采用 DiffusionNFT 作为策略优化方法。在 ImgEdit 基准测试中,它的表现优于包括 Flow-GRPO 及其使用局部标准差的变体在内的基线。此外,如下表3所示,将 DiffusionNFT 应用于 Qwen-Image-Edit [2509] 基线模型,其在 GEdit-Bench 上的得分显著从 7.54 提高到 7.72。引入组过滤机制后,得分进一步提升至 7.76。
分析
人类对齐。 为了验证本文的奖励机制选择,本文评估了不同评分方法与人工判断的对齐情况。结果表明,本文采用的基于 logits 的方法在所有评估的奖励机制中,与人类偏好的相关性最高。如下表4所示,该方法实现了 74.74% 的整体配对准确率,显著超越其他方法。此外,如下图9所示,优越的对齐在多样的编辑任务中是一致的。
奖励模型扩展。 为了评估奖励模型扩展对策略模型性能的影响,本文在相同步数下使用不同参数规模的奖励模型对 Qwen-Image-Edit 进行微调,以便进行公平比较。如上表3所示,随着奖励模型规模的增加,策略模型的总体得分提高,表明扩展奖励模型有助于性能的持续提升。
奖励 hacking 和奖励方差。 如下图8(左)所示,在 3B 模型上微调的策略模型表现出显著的奖励 hacking,其编辑结果偏离源图像。相比之下,在更大的 7B 模型上微调的模型缓解了这一问题。为了进一步调查,本文分析了训练奖励曲线,并将这一现象归因于奖励分数的方差。如下图8(右)所示,本文展示了平滑的奖励轨迹(实线)、原始奖励波动(阴影线)和奖励方差(气泡大小)作为探索强度的指示。
本文观察如下:i) 小规模模型中的奖励 hacking:较小的奖励模型,如 3B 和 7B,在训练初期奖励方差迅速缩减,表明有效探索的过早中止。ii) 大规模模型中的持续探索:相比之下,32B 模型在整个训练过程中保持高奖励方差,展示出持续的探索能力,即使在后期阶段也能发现更优的解决方案。该现象也在另一项研究中进行了分析。这些动态表明,扩大奖励模型可以有效减轻奖励 hacking 并维持强有力的探索。
结论
Edit-R1,这是一个新颖的后训练框架,旨在克服基于指令的图像编辑模型的泛化限制。本文的核心创新是使用 MLLM 作为无训练需求的奖励模型,该模型直接从输出 logits 提供细粒度、连续的反馈,并结合了高效的 DiffusionNFT,这是一种符合流匹配正向过程的无似然策略优化方法。广泛的实验表明,本文的框架通过显著提升各种基础模型(包括 UniWorld-V2、FLUX.1-Kontext 和 Qwen-ImageEdit),在 ImgEdit 和 GEdit-Bench 上达到了最先进的性能。本文的分析证实,由 MLLM 得出的奖励信号与人类偏好高度相关,有效地引导模型输出更高质量的结果,同时减轻奖励 hacking。
参考文献
[1] Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论