2025年5月3日星期六

双思维链+强化学习!港中文&上海AI Lab开源T2I-R1 :登顶文生图SOTA,性能碾压FLUX。1


点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Dongzhi Jiang等

解读:AI生成未来

图片

文章链接:https://arxiv.org/pdf/2505.00703 
Git链接:https://github.com/CaraJ7/T2I-R1

亮点直击

  • 在自回归图像生成任务中引入语义级和token级CoT,识别出一个双层推理过程,将高层次图像规划与低层次像素生成解耦,以实现更可靠的生成。
  • 开发了BiCoT-GRPO,一种新的强化学习框架,可联合优化两个层次的CoT推理过程,无缝整合ULM的理解能力用于图像生成。在奖励建模方面,研究了一种利用视觉专家集成的鲁棒奖励系统。
  • 本文的模型T2I-R1结合了BiCoT-GRPO与两个层次的CoT,在多个已有基准上表现出显著的性能提升,并超越了FLUX.1。
图像理解和生成任务中 CoT
图像理解和生成任务中 CoT

总结速览

解决的问题

尽管链式思维(Chain-of-Thought, CoT)和强化学习(RL)在大语言模型中表现出显著效果,但在文本生成图像(Text-to-Image)任务中应用多层次推理策略仍处于初步阶段。当前主流模型大多缺乏对文本语义的深度理解,无法有效整合高层次规划与底层图像生成的推理过程。此外,现有多模态模型的理解与生成阶段通常是解耦的,难以实现统一优化。

提出的方案

本文提出了一个新型推理增强的文本生成图像模型 T2I-R1,其核心创新包括:

  • 双层CoT推理机制
    • 语义级 CoT(Semantic-level CoT):在图像生成前,对文本进行推理规划,明确生成内容的结构与元素。
    • Token级 CoT(Token-level CoT):图像生成过程中,逐patch地输出图像token,实现低层次细节推理。
  • BiCoT-GRPO算法:一种基于强化学习的优化方法,用于协调和联合优化上述两个层次的CoT推理过程。通过群组相对奖励(Group-Relative Reward)和多专家奖励集成机制来提高图像生成质量与鲁棒性。

应用的技术

  • Unified Large Multimodal Model(ULM):统一理解和生成的多模态基础模型;
  • 双层Chain-of-Thought推理设计:分别面向语义级规划与token级生成;
  • 强化学习(Reinforcement Learning, RL)训练框架:替代监督微调,激发模型自我探索;
  • 多专家奖励模型集成:融合多种视觉专家模型(如图像质量、文本对齐等指标)作为奖励信号,实现稳定训练与泛化能力提升。

达到的效果

  • 性能显著提升
    • 在 T2I-CompBench 上提升了13%
    • 在 WISE benchmark 上提升了19%
    • 超越当前SOTA模型 FLUX.1
  • 生成图像质量更符合人类预期,尤其在需要推理和复杂结构场景中表现更强。
  • 鲁棒性提升:在处理不常见的场景时表现出更好的理解与生成能力。

方法

语义级与Token级CoT

在LLMs和LMMs的自回归文本生成任务中,CoT以文本推理的形式出现。然而,在自回归图像生成任务中,识别出两种不同类型的CoT,它们可以在不同抽象层次上增强图像生成:

语义级CoT
语义级CoT被定义为图像生成前的文本推理过程,作为预期图像的整体语义规划阶段。这个过程类似于人类的艺术创作:在接收到简短提示后,艺术家首先会思考场景构造,考虑物体属性、空间关系和相互作用。除了对普通提示的规划外,语义级CoT对另外两种场景也有益处。如果提示未直接描述要生成的对象,语义级CoT可以从用户的提示中推理出真实意图,从而提供更加契合的图像。如下图2所示,语义级CoT推理出"在阿姆斯特丹所在国家种植的花"是郁金香。如果没有这个语义级CoT,Janus-Pro无法提供有效结果。此外,语义级CoT在处理不寻常或可能产生歧义的场景时也表现出重要性。在图2的底部示例中,面对提示"A pig on the bottom of a train",语义级CoT为猪引入了"躺着"这一动作,从而创造了一个更合理的场景。相反,若没有这种解释性的想象,Janus-Pro会生成令人困惑的结果。形式化地,每个语义级CoT  由  个文本token组成,即:

图片

Token级CoT
Token级逐步思考是图像生成任务中独有的,在图像生成过程中存在类似CoT的思维链条。图像token的生成过程非常类似于思维链:图像token逐块生成,当前图块依赖于之前的图块生成。我们将这种图像token的顺序生成定义为token级CoT。这个过程类比于艺术家逐步填满画布,生成的图块形成了一个视觉推理链条,在整个图像空间中保持一致性。这些图块随后被重构为一个二维网格  并输入图像解码器 ,以获得最终图像。与进行全局规划的语义级CoT不同,token级CoT专注于图像空间中的局部细节和视觉连贯性。形式化地,每个token级CoT  包含  个图像token,即:其中  表示生成图像的分辨率,即 .

BiCoT-GRPO

GRPO已被证明在探索LLMs和LMMs的推理能力方面非常有效。为了在图像生成中同时容纳语义级和token级的CoT,本文提出了BiCoT-GRPO,其中模型在一次生成过程中进行两次推理。指示模型首先执行语义级CoT以进行全局规划,然后通过执行token级CoT深入到局部细节中。

然而,与文本生成任务相比,在图像生成中结合两级CoT面临重大流程挑战。受限于训练范式,目前的大多数ULM无法自行生成交错的图像和文本。通常需要一个人工标记符来指示模型当前执行的是文本生成还是图像生成任务。以Janus-Pro为例,它是我们在本研究中使用的ULM,为了让其生成图像,需要手动连接一个图像起始token(<img_start>),以明确指示模型开始生成图像tokens。

为了解决这一问题,本文提出了一种新颖的流程,帮助ULM以两级CoT生成图像,如下图3所示。本文的流程由两个步骤组成。第一步是生成语义级CoT。输入图像提示,并指示模型想象并推理图像细节,从而生成语义级CoT 。第二阶段则聚焦于token级CoT的生成。将图像提示、第一阶段生成的语义级CoT以及图像起始token作为输入,一并输入ULM以生成图像tokens 。随后,这些图像tokens被输入图像解码器以获得图像 

图片

由于本文的方法中存在两种类型的CoT,首先是语义级CoT,然后是token级CoT,每个响应  包含两个部分,即:

因此, 被转换为

图片

然后,通过最大化公式 2 来更新 ULM。实际中,引入了来自 [74] 的 token-level 策略梯度损失,其中该损失项在所有生成的 token 上进行归一化,以平衡语义级 CoT 过长所带来的奖励偏差。

多重生成奖励集合

不同于使用基于规则奖励的 DeepSeek-R1,基于预定义规则评估图像是不可行的。图像评估涉及多个方面,包括美学吸引力以及物体的存在性、属性和关系。考虑到其复杂性,我们引入了一个由多位视觉专家组成的奖励集合,从多个角度对生成图像进行评估。同时,使用多个奖励函数也起到了正则化作用,防止 ULM 对特定奖励模型进行策略性"攻击"。如下图 4 所示,该集合包含以下几类专家:

图片

人类偏好模型(Human Preference Model)
人类偏好模型(HPMs),如 HPS 和 ImageReward,旨在模拟人类的审美偏好。这些模型利用人类对合成图像的排名数据进行训练,标注者对生成结果进行评估和比较。在推理阶段,这些模型对图像的美学质量和提示词对齐情况进行评估,输出一个复合的人类偏好得分 。该专家从整体角度提供通用的奖励信号。

目标检测器(Object Detector)
另一类奖励模型是目标检测器,例如 GroundingDINO 和 YOLO-world。这些开放词汇目标检测模型接受图像和目标查询作为输入,输出被检测目标的空间位置和置信度分数。这类视觉专家是评估目标存在性和空间、数量关系的理想工具。在实现中,从训练图像提示词中提取所有目标 ,其中  表示目标总数。随后使用目标检测器识别生成图像中是否包含这些目标。对于每个目标,若检测到则得分为 1,未检测到则为 0,并对提示词中所有目标的得分进行平均。

若提示词包含空间关系,进一步利用检测到的位置验证其准确性,计算目标之间的相对距离和交并比(IoU)以获得空间得分 。若提示词中特指了某目标的数量 ,将其与检测到的数量  进行比较。最终从目标检测器获得的奖励为 

图片

当两个物体的相对距离大于设定阈值且方向正确时, 设为 1;若方向错误,则奖励为 0;否则,使用交并比(IoU)作为空间奖励。设置加权因子 ,以鼓励空间关系的准确表达。

视觉问答模型(Visual Question Answering Model)视觉问答(VQA)模型被训练用于根据图像内容回答问题。这类模型包括早期的 VQA 模型(如 BLIP 和 GIT)以及大型多模态模型(LMMs)如 LLaVA。利用这些模型来判断物体的存在性和属性。

举例来说,若提示词为 "一只红色的狗和一只黄色的猫",我们将每个具有属性的目标 objᵢ 转换为一个简洁的问题,如:"a red dog?"、"a yellow cat?",并将其输入 VQA 模型。模型返回 "Yes" 的概率为 ,返回 "No" 的概率为 

那么该提示词的奖励计算为:

图片

输出奖励模型
最后,本文还采用了输出奖励模型(ORM)作为奖励模型。ORM 是从一个多模态大模型(如 LLaVA-OneVision)微调而来,专门用于评估提示词与图像之间的一致性。微调的目标是指导模型在图像与提示完全一致时输出 Yes,否则输出 No。因此,本文使用与  相似的方法计算 ,但将完整的图像提示输入到 ORM,而不是重新格式化提示。

我们可以选择上述一个或多个奖励函数,并取平均作为某个样本的最终奖励。奖励模型的详细实验见下表 3。

图片

实验

实验设置

训练设置
本文的训练数据集由 T2I-CompBench和 训练集中的文本提示组成,共计 6,786 条提示,不包含图像。在训练前,使用 GPT-4o mini 从提示中提取对象及其属性,以便后续计算奖励。使用 Janus-Pro-7B 作为基础模型,学习率设为  设为 0.01。作为奖励模型,选择了 HPS 作为人类偏好模型,GroundingDINO作为目标检测器,GIT 作为视觉问答模型。对于 ORM,以[19] 中相同的方式微调了 LLaVA-OneVision-7B。

基准测试
本文在 T2I-CompBench 和 WISE 上进行测试,以验证本文方法的有效性。T2I-CompBench 包含 6,000 条组合型文本提示,评估三个类别(属性绑定、对象关系和复杂组合)和六个子类别(颜色绑定、形状绑定、纹理绑定、空间关系、非空间关系和复杂组合)。WISE 包含 1,000 条文本提示,涵盖三个类别(文化常识、时空推理和自然科学),用于评估文本到图像模型的世界知识。为了正确生成图像,模型需要推理出提示中描述的具体对象或场景。我们对 WISE 基准中的推理指令做了轻微修改,以获得更一致的结果。我们遵循两个基准的官方评估设置。

主要结果

本文在 T2I-CompBench 和 WISE 基准上(见下表 1 和表 2)将 T2I-R1 与领先的文本生成图像扩散模型和自回归模型进行了比较。还在下图 5 中提供了定性结果。本文的方法相较于基础模型在平均上分别在 T2I-CompBench 和 WISE 上提升了 13% 和 19%。在 T2I-CompBench 上,最显著的提升出现在属性绑定任务,平均提升了 19%。对于 WISE 基准,提升在各个类别上分布较为均衡。与更强大的最新扩散模型相比,T2I-R1 在两个基准上均达到了更优或相当的结果。值得注意的是,在 T2I-CompBench 上,本文的方法在六个子任务中有五个取得领先,在空间子任务中表现尤为突出(),超过之前的 SOTA 结果超过 5%。同样地,在 WISE 上,T2I-R1 在七个子任务中有四个表现优异,并取得了最高的整体得分 ,超越了强大的 FLUX.1-dev 4%。值得一提的是,与其他自回归模型相比,本文的方法在两个基准的所有子任务中均取得领先成绩。

图片
图片

在 T2I-CompBench 上的提升受益于语义级链式思维(semantic-level CoT)带来的规划能力,该能力在生成前设计复杂场景。而在 WISE 上的提升则源于语义级 CoT 所带来的推理能力,该能力能够推断出提示词背后真实的对象或场景。Token 级的 CoT 在忠实于设计生成图像并确保视觉吸引力方面起着重要作用。如下图 5 所示,缺乏语义级 CoT 时,模型无法充分理解需要生成的对象或场景,导致生成结果不一致。缺乏 token 级 CoT 时,我们观察到图像中出现了多个伪影,显示出较低的图像质量。

图片

奖励分析

本节对奖励函数的选择及其组合进行了实验。提供一些关于如何选择奖励函数及其组合的见解。本文的结果如前面表 3 所示。首先对单一奖励模型进行了实验。如表中所示,HPM(H)在属性绑定方面表现出色,但在监督对象关系方面效果有限,可能是由于其关系理解能力较弱。目标检测器(O)在所有测试的奖励模型中,在属性绑定方面的提升最小,这符合预期,因为我们的基于检测器的奖励函数并未明确评估属性。观察到的任何改进都仅仅源于提示中对象存在率的提升。观察到 VQA 模型(V)和 ORM(O)都是有效的奖励模型,但它们的优势不同:VQA 模型擅长提升属性绑定,而 ORM 在对象关系方面表现优越。然后我们对多个奖励模型进行了实验。我们从 HPM 和目标检测器的组合(H + O)开始,逐步加入其他奖励模型。发现表明,HPM-目标检测器组合(H + O)以及 HPM、目标检测器和 VQA 的三模型集成(H + O + V)在属性绑定和关系建模任务中都能提供均衡且令人满意的结果。

为了获得奖励模型的最优选择,进行了人工评估以评估视觉质量。具体而言,选择四种奖励模型选项(V、O、H + O 和 H + O + V),根据相同的提示生成图像。然后我们请人工对这四张图像进行排序并按排名评分(第 1 名得 3 分,第 2 名得 2 分,依此类推)。我们从 T2I-CompBench 的每个子任务中随机选择了 30 个提示。结果显示在表 3 的视觉质量列中。我们观察到集成奖励在视觉质量上表现更佳,其中 H + O + V 略胜一筹。这一改进可能归因于多个奖励模型所带来的隐式正则化,防止了过拟合于某一个奖励模型。相比之下,尽管单一奖励模型在基准得分上较高,但未能提供令人满意的图像质量。为了确保视觉吸引力,在最终模型中采用了三种奖励模型的集成(H + O + V)。

消融研究

本文验证了同时结合语义级和 token 级 CoT 的有效性。我们首先通过将其与仅使用通过 GRPO 方法优化的 token 级 CoT 生成图像的基准方法进行比较,验证了语义级 CoT 的有效性。这是 Janus 中默认的文本生成图像设置,其结果显示在下表 4 的第三行。比较表格中的第三行和第四行,我们发现语义级 CoT 通常在两个测试的基准上都带来了性能提升。特别在 WISE 基准上观察到显著的提升。这一增强的性能可以归因于语义级 CoT 中固有的文本推理能力。如前面图 5 所示,本文的方法首先能够通过语义级 CoT 清晰地推理出提示中描述的对象或现象。这有效地解耦了推理和生成过程,从而促进了更优的结果。仅使用 token 级 CoT 训练会显著降低生成图像的多样性,如下图 6 所示。为了量化这一效果,通过重新使用来自 T2I-CompBench 的生成图像来评估图像多样性,每个提示生成 10 张图像。本文计算每个提示的 10 张图像的 Vendi 分数。结果表明,没有语义级 CoT 的 GRPO 训练降低了多样性得分,而引入语义级 CoT 则通过多样化的文本规划显著提高了多样性。

图片
图片

本文还考虑了另一种情况:语义级 CoT 被引入图像生成中,但 GRPO 仅优化语义级 CoT 而不使用 token 级 CoT。这可以视为仅增强模型的高层规划能力。上表 4 的第二行呈现了结果。结果显示,仅优化语义级 CoT 相比联合优化方法,带来的改进较小。此外,发现同时优化两种 CoT 类型生成的图像在美学质量上远优于仅优化语义级 CoT 的结果。这表明,联合优化这两级 CoT 是必要的。

结论

T2I-R1,首个通过双层 CoT 推理过程增强的文本生成图像模型。确定了语义级 CoT 用于高层规划,token 级 CoT 用于逐块生成。通过提出的 BiCoT-GRPO,将两级 CoT 集成到同一步训练中,这是一个强化学习框架。通过利用一个能够同时进行视觉理解和生成的 ULM,本文的方法消除了对单独专门化模型的需求,同时在性能上取得了显著提升,T2I-CompBench 提升了 +13%,WISE 基准提升了 +19%,超越了 FLUX.1。定性分析表明,T2I-R1 更好地理解复杂的提示,推理用户意图,并在处理不常见场景时具有更强的鲁棒性,确立了一个以推理为中心的生成系统的新范式。

参考文献

[1] T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

AI电影一镜到底,无限时长!SkyReels-V2直接生成长视频,ComfyUI本地运行!

一镜到底、无限时长的电影级AI视频,终于可以在comfyui中通过工作流实现了。 一镜到底、无限时长的电影级AI视频,终于可以在comfyui中通过工作流实现了。 SkyReels-V2-DF模型, 突破时长限制,理论上支持无限长度的影片生成, 更适于电影叙事、多镜头运镜等长...