AI I024: CVPR 2025 I 香港中文大学 MMLab 提出文生图模型 T2I

2025年5月31日星期六

CVPR 2025 I 香港中文大学 MMLab 提出文生图模型 T2I - R1，文生图进入 R1 时刻！

香港中文大学 MMLab 提出了一种基于双层次 CoT 推理框架与强化学习的新型文本生成图像模型 T2I-R1

香港中文大学 MMLab 提出了一种基于双层次 CoT 推理框架与强化学习的新型文本生成图像模型 T2I-R1，该模型结合了语义级和 token 级的链式思维（CoT）推理过程，并通过强化学习进行增强。T2I-R1 旨在通过在图像生成的不同阶段应用 CoT 推理策略，提升生成质量和文本与图像的对齐度。

论文介绍

大型语言模型的最新进展已经证明了思维链 (CoT) 和强化学习 (RL) 如何提升性能。然而，将此类推理策略应用于视觉生成领域仍未得到广泛探索。本文提出了 T2I-R1，这是一种新颖的推理增强型文本到图像生成模型，它由强化学习驱动，并采用双层 CoT 推理过程。具体而言，我们确定了两个可用于增强不同生成阶段的 CoT 层级：

用于提示高级规划的语义层 CoT；
用于逐块生成过程中低级像素处理的 token 层 CoT。

为了更好地协调这两个 CoT 层级，引入了具有生成奖励集合的 BiCoT-GRPO，它可以在同一训练步骤中无缝优化两个生成 CoT。通过将推理策略应用于基线模型 Janus-Pro，该方法取得了卓越的性能，在 T2I-CompBench 上提高了 13%，在 WISE 基准上提高了 19%，甚至超越了最先进的模型 FLUX.1。

方法概述

图像理解和生成任务中认知能力（CoT）的图示。在图像理解任务中，认知能力（CoT）是文本推理过程。在自回归视觉生成任务中，我们定义了两个级别的认知能力（CoT）：语义级认知能力（CoT）和标记级认知能力（CoT）。语义级认知能力（CoT）是图像生成之前的高级规划，以文本的形式呈现。标记级认知能力（CoT）是逐个图像块（patch）的中间生成过程，关注图像块内的局部像素细节，以图像标记的形式呈现。

T2I-R1 图像生成过程可视化。所有提示都需要推理，或包含不常见的场景。我们观察到，T2I-R1 能够成功推断出提示背后的真实意图，或对不常见的场景（文中突出显示）进行合理的想象，从而与基线模型 Janus-Pro 相比，产生了令人满意的结果。

BiCoT-GRPO 框架。 在步骤 1 中，指示模型根据图像提示生成语义级 CoT。在步骤 2 中，基于图像提示和语义级 CoT 生成图像，中间生成过程作为 token 级 CoT。生成的图像由视觉专家团队评估以获得奖励。从每个提示生成 N 张图像，以计算群体相对奖励并进行 GRPO 训练。

生成奖励集合示意图。使用 GPT-4o mini 在训练前提取对象及其属性。每个专门的奖励模型都会接收定制的信息输入，用于奖励计算。将所有奖励的平均值作为最终奖励。

实验结果

可视化结果。提供了四个模型针对同一问题的图像生成结果：基础模型、仅优化语义级 CoT 的模型、仅优化 token 级 CoT 的模型以及同时优化两个级别 CoT 的模型。

单个提示图像多样性的可视化结果。展示了仅对 token 级 CoT 进行优化的结果，以及同时对语义级和 token 级 CoT 进行优化的结果。

结论

论文介绍的 T2I-R1 是首个基于双层 CoT 推理过程的推理增强型文本转图像模型。作者识别了用于高级规划的语义级 CoT 和用于逐块生成的 token 级 CoT。通过提出的 BiCoT-GRPO 进一步整合了它们，这是一个在同一训练步骤中整合了两级 CoT 的强化学习框架。通过利用同时具备视觉理解和生成能力的 ULM，提出的方法无需使用单独的专用模型，同时实现了显著的性能提升，在 T2I-CompBench 上提升了 13%，在 WISE 基准上提升了 19%，甚至超越了 FLUX.1。定性分析表明，T2I-R1 能够更好地理解复杂的提示，推理用户意图，并以更高的鲁棒性处理不常见场景，从而为以推理为中心的生成系统建立了新的范式。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024