AI I024: 图像生成里的“思维链”对决：DPO与GRPO谁主沉浮？港中文&北大等首发系统化对比研究

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Chengzhuo Tong、Ziyu Guo等

解读：AI生成未来

近年来，强化学习（Reinforcement Learning）在提升大型语言模型（LLM）推理能力上的应用持续升温，尤其在"思维链"（Chain of Thought，简称 CoT）推理方面显示出强大潜力。如今，这一趋势正从文本领域延伸至图像生成。

当图像生成也被抽象为一种逐步决策的推理过程时，我们不禁要问：经典的 DPO（直接偏好优化）和 GRPO（组相对策略优化）在图像生成场景中表现如何？谁在这个新战场更胜一筹？

近日，一项由香港中文大学、北京大学和上海人工智能实验室合作完成的研究给出了答案。他们发表了首个系统性对比 DPO 与 GRPO 在自回归图像生成任务中的工作，全面评估了两种 RL 策略在不同场景下的优劣，填补了相关领域的研究空白。

论文链接： https://arxiv.org/abs/2505.17017
代码开源： https://github.com/ZiyuGuo99/Image-Generation-CoT

图1: GRPO 与 DPO 在自回归图像生成中的研究总览，涵盖了域内域外性能对比、不同奖励模型的影响以及扩展策略的效果。

图像生成中的 CoT：从语言模型走向多模态智能

过去几年中，Chain of Thought 被证明在语言模型推理中具有显著价值。通过引导模型逐步思考，它能有效提升复杂问题的解决能力。而图像生成，尤其是基于自回归模型的生成流程，天然也具备一种"序列化推理"的结构。例如，将图像离散化为 token，再按顺序生成的过程，实际上就可以看作是 CoT 推理在视觉领域的映射。

因此，将 DPO 与 GRPO 这类原本服务于语言模型的 RL 策略迁移至图像生成，是一个顺理成章的探索方向。但这一过程中，也暴露出许多图像特有的挑战，例如：

文本与图像的一致性难以评估
图像质量难以用规则明确定义
奖励信号不再单一、线性，涉及主观审美、多模态对齐等维度

DPO vs. GRPO：研究设置与对比框架

研究团队基于目前先进的Janus-Pro 自回归图像生成模型，构建了完整的实验体系，并在两个具有代表性的数据集上进行了细致的实证分析：

T2I-CompBench：面向复杂、长文本描述的图文生成任务（属于域内任务）
GenEval：包含短文本、模板化描述，测试模型的跨场景泛化能力（域外任务）

为了确保对比的公平性，实验在两个维度上严格控制：

1.DPO 与 GRPO 使用相同的奖励模型；
2.对每个提示（prompt）生成的图像数量、组大小等参数保持一致，确保计算资源一致可比。

研究核心发现

1.域内表现：DPO 更胜一筹

在面对训练数据分布一致的"域内"场景时，DPO 展现出强劲优势。研究显示：

在 T2I-CompBench 上，DPO 的平均生成质量超过 GRPO 约 11.5%；
使用官方评分标准作为奖励时，DPO 的峰值提升甚至高达 7.8%。

这是因为 DPO 能高效利用预收集的静态偏好数据，对已有数据集的拟合能力更强，适合深度优化。

2.泛化能力：GRPO 更稳定

但在需要迁移泛化的"域外"场景（GenEval）中，GRPO 的表现更优：

在使用 HPS 奖励模型时，GRPO 的结果比 DPO 高出约 2.4%；
GRPO 由于是 on-policy 策略，更擅长动态适应新数据分布，提升跨任务迁移能力。

3.奖励模型选择：影响巨大

两者都对奖励模型的选择敏感，尤其是 DPO：

DPO 在不同奖励模型下的泛化能力差异更大，标准差达 0.9547；
GRPO 表现更稳定，标准差约为 0.5486。

此外，一个重要发现是：奖励模型本身的泛化能力，几乎决定了最终模型的泛化能力。在 GenEval 上进行 best-of-N 评估后发现，无论使用哪种 RL 策略，最终的性能排序与奖励模型本身的打分能力高度一致：

> UnifiedReward > ImageReward > HPSReward

这说明，选择或训练一个高质量奖励模型，是强化学习有效性的关键前提。

三种扩展训练策略效果分析

研究还对以下三种训练策略进行系统探讨，以进一步优化模型表现：

1.增加采样图像数量（Sampling Size）
2.扩展训练数据规模与多样性（Data Size）
3.迭代训练（DPO-Iter / GRPO-Iter）

对于 GRPO：

增加每轮采样数量是提升性能的最有效手段；
适度扩大训练集规模有助于提升泛化；
但过度扩展会引起过拟合现象。

对于 DPO：

多轮迭代训练可强化域内性能，但存在泛化性能下降的风险；
增加样本多样性与数量，有助于突破偏好范围限制；
小规模采样利于偏好对比，提升表现；过度采样则可能引入噪声或偏差。

理论分析与方法机制

DPO 与 GRPO 的差异并不只是训练流程不同，它们在策略结构与损失构造上也存在本质区别：

DPO 是一种基于离策略训练的偏好学习方式，依赖静态的正负样本对，通过优化偏好倾向函数来提升生成质量；
GRPO 更强调"组间对比"，通过在线采样、策略更新进行逐步优化，策略灵活但成本更高。

研究还特别指出，两者的训练损失在计算开销上可以做精细对齐，从而保证评估结果更具可比性。

总结与展望

这项开创性研究为图像生成领域引入 RL 思维链机制提供了系统的理论与实证支撑。DPO 与 GRPO 并非简单的"优劣之分"，而是更适合于不同场景：

DPO 适合在已有高质量数据基础上深度优化，追求精细化输出
GRPO 则适合泛化需求高、任务分布多样的实际应用环境

与此同时，研究也强调了奖励模型作为"训练导航仪"的重要性，未来在奖励模型的泛化性设计上仍有很大提升空间。此外，该研究不仅明确了 DPO 与 GRPO 在不同场景下的适用性，也提供了可复用的实验框架与扩展策略建议，为图像生成引入 RL 方法奠定了实践基础。

随着多模态任务复杂度提升，如何在泛化能力、生成质量与训练效率之间找到平衡，将成为关键议题。这项工作为后续设计更鲁棒、更智能的图像生成 RL 框架提供了有力启示，未来值得期待。

参考文献

[1] Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年6月8日星期日

图像生成里的“思维链”对决：DPO与GRPO谁主沉浮？港中文&北大等首发系统化对比研究