如您有工作需要分享,欢迎联系:aigc_to_future
作者:Chengqi Duan等
解读:AI生成未来
论文链接: https://arxiv.org/pdf/2505.17022
Git链接: https://github.com/gogoduan/GoT-R1
亮点直击
GoT-R1 框架,该框架通过强化学习增强视觉生成中的语义-空间推理能力,使模型能够自主发现有效的推理策略,而不仅仅依赖预定义的模式。 设计了一个全面的 双阶段多维度奖励框架,从多个角度评估中间推理过程和最终视觉输出,有效应对视觉生成中强化学习所面临的独特挑战。 在 T2I-CompBench 基准测试上展示了显著的性能提升,尤其是在需要精确空间关系和属性绑定的组合任务中表现出色。
总结速览
解决的问题
视觉生成模型虽然在根据文本提示生成图像方面取得了进展,但在应对包含多个对象、精确空间关系和属性绑定的复杂提示时仍面临挑战。现有方法缺乏对语义内容与空间布局的显式推理能力,难以生成结构合理、语义一致的图像。
提出的方案
为应对上述挑战,提出了GoT-R1 框架,该框架基于"生成思维链(Generation Chain-of-Thought)"理念,结合强化学习,引导模型在视觉生成过程中进行逐步推理,从而实现更高质量的图像合成。
应用的技术
强化学习机制:用于训练模型自主学习有效的推理策略,摆脱对预定义模板的依赖。 双阶段多维度奖励框架: 第一阶段:评估中间推理过程; 第二阶段:评估最终图像输出。 评估维度涵盖语义一致性、空间准确性和视觉质量。 多模态大模型(MLLMs)辅助评估:利用强大的多模态理解能力对推理过程和图像质量进行综合判断。
达到的效果
在 T2I-CompBench 基准测试中,GoT-R1 在需要复杂组合推理的任务中表现优异,特别是在涉及精确空间关系和属性绑定的图像生成任务中取得了显著性能提升,成功推动了视觉生成技术的发展。
方法
本节将介绍GoT-R1 框架的详细内容。首先回顾前置知识,包括生成思维链(Generation Chain-of-Thought, GoT)范式和群体相对策略优化(Group Relative Policy Optimization, GRPO)算法。然后,描述 GoT-R1 框架的网络架构和训练策略。最后详细阐述基于多模态大模型(MLLM)的双阶段多维度奖励设计。该奖励系统全面评估提示、推理过程与生成图像之间的一致性,从而为强化学习提供全面的监督信号。
前置知识
生成思维链(GoT) 生成思维链(GoT)是一种在输出图像之前,通过显式的视觉-语义链式推理过程来转化视觉生成的方法。与传统的文本到图像生成方法直接将文本嵌入映射为视觉特征不同,GoT 将复杂提示拆解为包含语义描述和空间坐标的推理链。例如,给定提示 "一只狗和一只猫一起玩耍",一个GoT推理链可能包括诸如 "一只顽皮的棕色狗" ,坐标为 ,以及 "一只橘色虎斑猫",坐标为 的描述,明确指定每个对象的语义属性和空间位置。这种显式的链式推理使得对对象属性、空间布局和对象间关系的精确控制成为可能,显著提升了生成图像的组合保真度。
为了赋予生成模型推理能力,GoT 构建了大规模的训练数据,利用手工设计的模板标注推理链。GoT 框架通过监督方式在标注数据上进行训练,以生成推理链和图像。然而,这种方法本质上受到训练数据中手工设计且固定推理模板的限制,阻碍了模型在多样化场景中发现更有效推理策略的能力。此外,通过监督微调训练的 GoT 框架容易生成模板化但有时不忠实的推理链,从而限制了后续视觉生成的效果。
群体相对策略优化(GRPO) 群体相对策略优化(GRPO)由 DeepSeek-R1 提出,旨在激发大语言模型的推理能力。这是一种高效的强化学习算法,省去了对单独评价器模型的需求。对于每个问题 ,GRPO 从当前策略 中采样一组 个输出 。这些输出通过奖励函数进行评估,获得各自的奖励 。然后通过在组内对奖励进行归一化来计算每个样本的优势值(advantage):
策略随后通过优化以下目标函数进行更新:
其中, 是概率比值, 是剪切参数, 控制来自参考策略 的 KL 散度惩罚强度。这种基于群体的方法在策略优化中提供了一种计算高效的方式,同时有效利用每组样本内部的相对性能差异。
GoT-R1 框架
GoT-R1 基于文本到图像生成的生成思维链(GoT)框架,通过引入强化学习来增强语义-空间推理能力。如前所述,尽管 GoT 为组合图像生成提供了坚实的基础,但其效果受限于训练数据中预定义的推理模板。本文框架通过强化学习使模型能够自主发现更优的推理策略,同时保持端到端的优化过程,从而克服这一限制。
网络架构采用一个统一的多模态大模型(MLLM)作为基础架构,该模型联合建模文本和图像 token。例如,Janus-Pro 能够在单一模型中处理视觉理解和生成任务,将图像作为离散 token 与文本 token 一起进行联合自回归建模。这一架构使我们能够以端到端的方式生成文本推理链和视觉输出,实现整个生成过程的全面优化。
训练策略
本文基础模型在没有思维链推理过程的文本到图像生成任务上进行了预训练。为了激发其推理能力,训练过程分为两个阶段:
第一阶段,使用 GoT 数据集 中的推理链和生成图像标注对预训练模型进行微调(SFT)。该阶段建立了在生成图像 token 之前生成模板化推理链的基本能力,为后续的强化学习提供了良好的初始化。 第二阶段,应用强化学习引导模型探索自由形式且更有效的推理链。对于每个提示 ,我们采样 个不同的推理链及其对应的图像。这些样本随后通过我们设计的多维度奖励函数进行评估,该函数同时考察推理质量和生成保真度。模型参数通过 GRPO 进行更新,以鼓励高奖励的推理策略和生成图像,并抑制低奖励的样本。我们奖励函数的具体设计将在下一小节详细介绍,该函数旨在应对评估视觉推理质量的独特挑战。
基于 MLLM 的双阶段多维度奖励
GoT-R1 生成框架由两个阶段组成:从提示生成推理链,以及从推理链生成图像。一个直接的强化学习集成方式是基于提示-图像对齐的端到端奖励。然而,如果不对中间的推理过程进行显式约束,推理链可能无法忠实反映提示,或与最终图像不一致,从而削弱生成流程的可解释性和可控性。为了引导模型进行忠实且一致的生成,设计了一个结合结果与中间过程监督的双阶段奖励机制。
本文定义了三类奖励:
(1) 衡量提示与生成图像之间的对齐度;
(2) 衡量推理过程对输入提示的忠实程度;
(3) 衡量生成图像对推理过程的保真度。
对于提示到推理的对齐奖励 ,我们进一步将其分解为两个不同方面——语义奖励 和布局奖励 ,以确保推理过程中的语义和空间布局都能忠实反映输入提示。所有奖励均被缩放到 范围内。我们将总奖励 定义为各个奖励的乘积:
MLLM 在该场景中作为奖励模型具有独特优势,因为它们具备强大的跨模态理解和推理能力。经过大规模图文对训练,MLLM 能够在语义一致性和空间布局等多个维度上,对推理链与生成图像进行统一、可解释且细粒度的评估。这使得它们非常适合作为强化学习中的奖励函数,而传统指标往往难以提供细致的多维反馈。奖励机制如下图 3 所示。
提示-图像奖励() 最直观的奖励设计是输入提示与生成图像之间的整体对齐度。利用 MLLM 出色的图像理解能力,采用其对最终生成图像进行多维度评估,判断其是否符合提示中指定的构图(如对象、属性、布局等)。MLLM 将输入提示与生成图像作为输入,并预测一个离散评分,范围为 0 到 10,10 表示最佳。
提示-推理语义奖励() 为了评估输入提示与生成的 GoT 推理之间的语义一致性,我们利用 MLLM 从缺失元素(属性)、内部矛盾、逻辑一致性和格式质量四个维度对每个 GoT 进行评估。具体而言,将 GoT 推理和输入提示一同输入 MLLM,对推理链进行如下四个维度的评分(0 到 10):
完整性(Completeness): 推理链是否包含提示中提到的所有概念? 忠实性(Faithfulness): 是否引入了与提示相矛盾的内容? 一致性(Consistency): 推理是否在逻辑上与描述的场景一致? 清晰度(Clarity): 内容是否连贯且格式正确?
提示-推理空间奖励() 为了评估推理链中的空间规划是否正确,MLLM 奖励模型判断 GoT 中的对象坐标是否遵循提示中的空间关系(例如"左侧"或"上方")。然而,轻量级的 LLM 或 MLLM 对边界框坐标及不同空间位置之间的关系敏感性有限。
为弥补这一能力差距,提出了一种创新的基于 MLLM 的布局评估方法,其核心观察是:MLLM 在处理视觉数据时展现出优于文本坐标的空间理解能力。因此,将文本坐标转换为图像,通过在空白画布上渲染相应的边界框来实现。采用这种视觉格式后,MLLM 展现出显著更强的空间理解能力,并能对推理链的空间正确性提供清晰准确的评分。下图 4 展示了该过程的示意图。
推理-图像奖励() 在强化学习过程中,模型有时会生成偏离其规划推理路径的图像。为了进一步确保 GoT 推理在生成图像中得到忠实体现,框架引入了 GoT 推理过程与生成图像之间的对齐奖励。具体而言,期望 GoT 中规划的每个对象都出现在图像中的相应位置。
使用 MLLM 来识别生成图像中每个对象的位置,得到其对应的边界框,记为 。对于 GoT 中指定的每个对象,我们将其对齐奖励定义为规划边界框 与图像中对应边界框 之间的交并比(IoU)。总体奖励 定义为所有 个对象的平均 IoU。
实验
训练设置
分别基于 Janus-Pro-1B 和 Janus-Pro-7B 训练了两个模型。我们的训练过程包含两个阶段:在 GoT-T2I 数据集上的预训练,以及使用构造的提示集进行的在线 GRPO强化学习。使用 LAHR-GoT、JourneyDB-GoT和 FLUX-GoT数据集对模型进行预训练,共进行 70000 步,然后进行 1000 步的 GRPO 训练。
为 GRPO 构建的数据集由 T2I-Compbench 训练集和 Laion-Aesthetics 的提示组成。在使用 GRPO 进行训练时,总体奖励计算为前面所述的各个子奖励的乘积。本文还应用 HPS v2.1 以提升生成质量。采用低秩适配(LoRA)有效更新 MLLM,设置的秩和 lora alpha 为 32。两个阶段均为端到端训练。在 GRPO 训练设置中,采用批大小为 8,学习率为 ,并使用余弦学习率调度。对于每个输入,采样 个候选项,并将文本和图像的温度均设置为 1.0。作为奖励模型,采用 Qwen2.5VL-7B。损失在整个生成输出序列上计算。GRPO 训练在 8 张 NVIDIA L40S GPU 上进行,耗时约 48 小时。
定量评估
下表 2 展示了在 T2ICompBench 上的文本到图像(T2I)生成性能评估。将模型与三类主流方法进行比较:(1) 使用冻结编码器直接将文本输入映射为图像的扩散模型;(2) 两阶段模型,先规划结构化布局,然后据此生成图像;(3) 融合 LLM 或 MLLM 的自回归模型以增强生成能力。
GoT-R1 框架在组合式文本到图像生成中建立了新的最先进水平。在仅进行 1000 步 GRPO 微调后,它在多个评估指标上提升了最多 15%。GoT-R1-7B 在六个评估类别中的五个中获得最高分,并在复杂基准测试中表现出显著优势,该测试包含混合自然语言的组合提示。在形状类别中,GoT-R1-7B 表现与 FLUX 相当。
本文的 7B 模型在所有类别中远超其他布局引导模型。GoT-R1-1B 的性能也优于 Janus-Pro-7B,甚至在颜色属性上超过了 FLUX。这些提升凸显了将结构化推理过程与强化学习优化相结合在组合图像合成中的有效性。
定性评估
下图 5 展示了基础模型 Janus-Pro-7B、GoT 微调后的模型 Janus-Pro-7B-GoT,以及我们通过 GRPO 增强的模型 GoT-R1-7B 之间的定性比较。我们展示了来自组合提示的生成示例,这些提示涉及多个属性、相对空间关系和对象数量。
虽然 GoT 微调模型生成的图像质量高于基础模型,但在复杂组合生成方面仍存在困难。相比之下,GoT-R1-7B 展现出更强的提示对齐能力,即使是非自然提示也能准确反映在生成结果中。此外,GoT-R1-7B 能够生成细节丰富且美学上令人满意的视觉内容。
这些提升主要归因于基于 MLLM 的奖励设计,它指导模型在 GoT 推理过程与输出图像之间优化语义和空间对齐。通过利用 MLLM 的细粒度评估,奖励机制使 GoT-R1-7B 不仅在视觉质量上表现出色,还能忠实捕捉复杂提示的意图。
自探索生成推理链分析
为了评估推理质量,将 GoT-R1-7B 的自探索生成推理链与 Janus-Pro-7B-GoT 的预定义 GoT 进行了比较。GPT-4o对来自 T2I-CompBench 的 Color、Spatial 和 Complex 三个类别中每类随机抽取的 100 个提示,以及来自 LAION-5B 的 100 个提示进行了 GoT 内容评估。
评判基于四个标准:与输入提示的相关性、对象描述和边界框的准确性、文本的清晰度和流畅性。 如下表 3 所示,GPT-4o 在所有评估类别中都更倾向于 GoT-R1-7B 的自探索推理。这一强烈偏好强调了 GoT-R1 在自主发现和生成更优推理路径方面的能力,这是其提升组合生成能力的关键因素。
奖励设计的消融研究
对基于 MLLM 的双阶段多维奖励和关键训练设置进行了全面的消融研究,以验证其贡献。所有消融实验均在 T2I-CompBench 上进行,使用基于 Janus-Pro-1B-GoT 检查点的 GRPO 训练 1000 步,该模型作为我们的基线。结果显示在上表 2 和下表 4 中,评估时使用的引导尺度为 5。
奖励设计的消融研究 上表 2 中仅使用单一奖励组件训练的模型结果突出了各自的贡献和局限性。仅使用 训练在这些单一奖励变体中表现最佳,但仍不及完整的 GoT-R1-1B,因为 GoT 推理过程在很大程度上被绕过。仅依赖 会导致较差的结果,强调了对最终生成图像进行奖励的必要性。此外,仅使用 可能是有害的,因为缺乏提示-推理奖励 会导致推理过程偏离,从而对图像生成产生误导性指导。
进一步的实验(见上表 2)中,从完整奖励集中移除单个奖励组件也进一步验证了这一结论。移除 或 都会导致性能明显下降。尤其是,在保留 的同时移除 会再次导致显著性能下降,因为模型试图将图像对齐到可能存在缺陷的推理过程上。这些发现共同证明了我们全面奖励设计的重要性,它对生成过程的所有阶段进行了对齐。
组成的消融研究 关于 的组成,我们通过仅激活其中一个子项来对其两个组成部分进行消融:(提示-推理语义奖励)和 (提示-推理空间奖励)。上表 2 中的结果展示了它们的互补作用: 主要增强属性绑定,而 提高空间一致性,证实了它们在 中组合的价值。
训练细节的消融研究 进一步对训练中的三个关键设置进行了消融。在本文的配置中,总奖励 是各个子项的乘积。我们评估了另一种设置,即将奖励相加。此外,还对新提出的 MLLM 布局评估方法进行了消融,在该方法中,不是将 GoT 布局计划转换为图像以供 MLLM 评估,而是直接使用 MLLM 从文本坐标中评估 GoT 布局以获得 。最后,将所有基于 MLLM 的奖励替换为传统指标:使用 CLIP 相似度作为提示-图像奖励,使用 Grounding DINO 作为推理-图像对齐指标。结果展示在上表 4 中。
这些发现证实了特定训练配置在优化 GoT-R1 方面的有效性。
结论与讨论
GoT-R1,一种通过将强化学习应用于语义-空间推理显著提升视觉生成的新框架。基于 Generation Chain-of-Thought 方法,GoT-R1 使模型能够自主发现有效的推理策略,突破了预定义模板的限制。一个关键创新是双阶段多维奖励系统,它利用 MLLM 全面评估中间推理过程和最终视觉输出,确保在整个生成流程中提供稳健的监督。该奖励机制评估了诸如语义对齐和空间准确性等关键方面。
评估结果表明,GoT-R1 在 T2I-CompBench 上表现优越,尤其在需要精确空间关系和属性绑定的复杂组合任务中表现出色。通过成功将自探索的复杂推理能力迁移到视觉生成领域,GoT-R1 推进了当前技术水平,并为创建更精确、具备上下文感知能力的视觉内容开辟了新路径。然而,与所有强大的生成式AI一样,负责任地开发和部署此类技术至关重要,以减轻潜在风险(如被滥用于虚假信息传播),并确保其在伦理上的应用。
参考文献
[1] GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论