2025年6月8日星期日

图像生成里的“思维链”对决:DPO与GRPO谁主沉浮?港中文&北大等首发系统化对比研究

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Chengzhuo Tong、Ziyu Guo等

解读:AI生成未来

图片

近年来,强化学习(Reinforcement Learning)在提升大型语言模型(LLM)推理能力上的应用持续升温,尤其在"思维链"(Chain of Thought,简称 CoT)推理方面显示出强大潜力。如今,这一趋势正从文本领域延伸至图像生成。

当图像生成也被抽象为一种逐步决策的推理过程时,我们不禁要问:经典的 DPO(直接偏好优化)和 GRPO(组相对策略优化)在图像生成场景中表现如何?谁在这个新战场更胜一筹?

近日,一项由香港中文大学、北京大学和上海人工智能实验室合作完成的研究给出了答案。他们发表了首个系统性对比 DPO 与 GRPO 在自回归图像生成任务中的工作,全面评估了两种 RL 策略在不同场景下的优劣,填补了相关领域的研究空白。

论文链接: https://arxiv.org/abs/2505.17017 
代码开源: https://github.com/ZiyuGuo99/Image-Generation-CoT

图1: GRPO 与 DPO 在自回归图像生成中的研究总览,涵盖了域内域外性能对比、不同奖励模型的影响以及扩展策略的效果。
图1: GRPO 与 DPO 在自回归图像生成中的研究总览,涵盖了域内域外性能对比、不同奖励模型的影响以及扩展策略的效果。

图像生成中的 CoT:从语言模型走向多模态智能

过去几年中,Chain of Thought 被证明在语言模型推理中具有显著价值。通过引导模型逐步思考,它能有效提升复杂问题的解决能力。而图像生成,尤其是基于自回归模型的生成流程,天然也具备一种"序列化推理"的结构。例如,将图像离散化为 token,再按顺序生成的过程,实际上就可以看作是 CoT 推理在视觉领域的映射。

因此,将 DPO 与 GRPO 这类原本服务于语言模型的 RL 策略迁移至图像生成,是一个顺理成章的探索方向。但这一过程中,也暴露出许多图像特有的挑战,例如:

  • 文本与图像的一致性难以评估
  • 图像质量难以用规则明确定义
  • 奖励信号不再单一、线性,涉及主观审美、多模态对齐等维度

DPO vs. GRPO:研究设置与对比框架

研究团队基于目前先进的Janus-Pro 自回归图像生成模型,构建了完整的实验体系,并在两个具有代表性的数据集上进行了细致的实证分析:

  • T2I-CompBench:面向复杂、长文本描述的图文生成任务(属于域内任务)
  • GenEval:包含短文本、模板化描述,测试模型的跨场景泛化能力(域外任务)

为了确保对比的公平性,实验在两个维度上严格控制:

1.DPO 与 GRPO 使用相同的奖励模型;
2.对每个提示(prompt)生成的图像数量、组大小等参数保持一致,确保计算资源一致可比。

研究核心发现

图片

1.域内表现:DPO 更胜一筹

在面对训练数据分布一致的"域内"场景时,DPO 展现出强劲优势。研究显示:

  • 在 T2I-CompBench 上,DPO 的平均生成质量超过 GRPO 约 11.5%;
  • 使用官方评分标准作为奖励时,DPO 的峰值提升甚至高达 7.8%。

这是因为 DPO 能高效利用预收集的静态偏好数据,对已有数据集的拟合能力更强,适合深度优化。

2.泛化能力:GRPO 更稳定

但在需要迁移泛化的"域外"场景(GenEval)中,GRPO 的表现更优:

  • 在使用 HPS 奖励模型时,GRPO 的结果比 DPO 高出约 2.4%;
  • GRPO 由于是 on-policy 策略,更擅长动态适应新数据分布,提升跨任务迁移能力。
图2: 域内与域外性能对比的可视化结果。
图2: 域内与域外性能对比的可视化结果。

3.奖励模型选择:影响巨大

两者都对奖励模型的选择敏感,尤其是 DPO:

  • DPO 在不同奖励模型下的泛化能力差异更大,标准差达 0.9547;
  • GRPO 表现更稳定,标准差约为 0.5486。

此外,一个重要发现是:奖励模型本身的泛化能力,几乎决定了最终模型的泛化能力。 在 GenEval 上进行 best-of-N 评估后发现,无论使用哪种 RL 策略,最终的性能排序与奖励模型本身的打分能力高度一致:

> UnifiedReward > ImageReward > HPSReward

这说明,选择或训练一个高质量奖励模型,是强化学习有效性的关键前提。

图3: 不同奖励模型影响的可视化结果。
图3: 不同奖励模型影响的可视化结果。

三种扩展训练策略效果分析

图4: 扩展策略影响的可视化结果。
图4: 扩展策略影响的可视化结果。

研究还对以下三种训练策略进行系统探讨,以进一步优化模型表现:

1.增加采样图像数量(Sampling Size) 
2.扩展训练数据规模与多样性(Data Size)  
3.迭代训练(DPO-Iter / GRPO-Iter)

对于 GRPO:

  • 增加每轮采样数量是提升性能的最有效手段;
  • 适度扩大训练集规模有助于提升泛化;
  • 但过度扩展会引起过拟合现象。

对于 DPO:

  • 多轮迭代训练可强化域内性能,但存在泛化性能下降的风险;
  • 增加样本多样性与数量,有助于突破偏好范围限制;
  • 小规模采样利于偏好对比,提升表现;过度采样则可能引入噪声或偏差。

理论分析与方法机制

DPO 与 GRPO 的差异并不只是训练流程不同,它们在策略结构与损失构造上也存在本质区别:

  • DPO 是一种基于离策略训练的偏好学习方式,依赖静态的正负样本对,通过优化偏好倾向函数来提升生成质量;
  • GRPO 更强调"组间对比",通过在线采样、策略更新进行逐步优化,策略灵活但成本更高。

研究还特别指出,两者的训练损失在计算开销上可以做精细对齐,从而保证评估结果更具可比性。

总结与展望

这项开创性研究为图像生成领域引入 RL 思维链机制提供了系统的理论与实证支撑。DPO 与 GRPO 并非简单的"优劣之分",而是更适合于不同场景:

  • DPO 适合在已有高质量数据基础上深度优化,追求精细化输出
  • GRPO 则适合泛化需求高、任务分布多样的实际应用环境

与此同时,研究也强调了奖励模型作为"训练导航仪"的重要性,未来在奖励模型的泛化性设计上仍有很大提升空间。此外,该研究不仅明确了 DPO 与 GRPO 在不同场景下的适用性,也提供了可复用的实验框架与扩展策略建议,为图像生成引入 RL 方法奠定了实践基础。

随着多模态任务复杂度提升,如何在泛化能力、生成质量与训练效率之间找到平衡,将成为关键议题。这项工作为后续设计更鲁棒、更智能的图像生成 RL 框架提供了有力启示,未来值得期待。

参考文献

[1] Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

字节跳动提出Pixel-SAIL!单一Transformer实现三大突破,性能不降反升!

最新论文解读系列论文名:Pixel-SAIL: Single Transformer For Pixel-G 最新论文解读系列 论文名: Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding 论文链接:...