如您有工作需要分享,欢迎联系:aigc_to_future
作者:Chengzhuo Tong、Ziyu Guo等
解读:AI生成未来
近年来,强化学习(Reinforcement Learning)在提升大型语言模型(LLM)推理能力上的应用持续升温,尤其在"思维链"(Chain of Thought,简称 CoT)推理方面显示出强大潜力。如今,这一趋势正从文本领域延伸至图像生成。
当图像生成也被抽象为一种逐步决策的推理过程时,我们不禁要问:经典的 DPO(直接偏好优化)和 GRPO(组相对策略优化)在图像生成场景中表现如何?谁在这个新战场更胜一筹?
近日,一项由香港中文大学、北京大学和上海人工智能实验室合作完成的研究给出了答案。他们发表了首个系统性对比 DPO 与 GRPO 在自回归图像生成任务中的工作,全面评估了两种 RL 策略在不同场景下的优劣,填补了相关领域的研究空白。
论文链接: https://arxiv.org/abs/2505.17017
代码开源: https://github.com/ZiyuGuo99/Image-Generation-CoT
图像生成中的 CoT:从语言模型走向多模态智能
过去几年中,Chain of Thought 被证明在语言模型推理中具有显著价值。通过引导模型逐步思考,它能有效提升复杂问题的解决能力。而图像生成,尤其是基于自回归模型的生成流程,天然也具备一种"序列化推理"的结构。例如,将图像离散化为 token,再按顺序生成的过程,实际上就可以看作是 CoT 推理在视觉领域的映射。
因此,将 DPO 与 GRPO 这类原本服务于语言模型的 RL 策略迁移至图像生成,是一个顺理成章的探索方向。但这一过程中,也暴露出许多图像特有的挑战,例如:
文本与图像的一致性难以评估 图像质量难以用规则明确定义 奖励信号不再单一、线性,涉及主观审美、多模态对齐等维度
DPO vs. GRPO:研究设置与对比框架
研究团队基于目前先进的Janus-Pro 自回归图像生成模型,构建了完整的实验体系,并在两个具有代表性的数据集上进行了细致的实证分析:
T2I-CompBench:面向复杂、长文本描述的图文生成任务(属于域内任务) GenEval:包含短文本、模板化描述,测试模型的跨场景泛化能力(域外任务)
为了确保对比的公平性,实验在两个维度上严格控制:
1.DPO 与 GRPO 使用相同的奖励模型;
2.对每个提示(prompt)生成的图像数量、组大小等参数保持一致,确保计算资源一致可比。
研究核心发现
1.域内表现:DPO 更胜一筹
在面对训练数据分布一致的"域内"场景时,DPO 展现出强劲优势。研究显示:
在 T2I-CompBench 上,DPO 的平均生成质量超过 GRPO 约 11.5%; 使用官方评分标准作为奖励时,DPO 的峰值提升甚至高达 7.8%。
这是因为 DPO 能高效利用预收集的静态偏好数据,对已有数据集的拟合能力更强,适合深度优化。
2.泛化能力:GRPO 更稳定
但在需要迁移泛化的"域外"场景(GenEval)中,GRPO 的表现更优:
在使用 HPS 奖励模型时,GRPO 的结果比 DPO 高出约 2.4%; GRPO 由于是 on-policy 策略,更擅长动态适应新数据分布,提升跨任务迁移能力。
3.奖励模型选择:影响巨大
两者都对奖励模型的选择敏感,尤其是 DPO:
DPO 在不同奖励模型下的泛化能力差异更大,标准差达 0.9547; GRPO 表现更稳定,标准差约为 0.5486。
此外,一个重要发现是:奖励模型本身的泛化能力,几乎决定了最终模型的泛化能力。 在 GenEval 上进行 best-of-N 评估后发现,无论使用哪种 RL 策略,最终的性能排序与奖励模型本身的打分能力高度一致:
> UnifiedReward > ImageReward > HPSReward
这说明,选择或训练一个高质量奖励模型,是强化学习有效性的关键前提。
三种扩展训练策略效果分析
研究还对以下三种训练策略进行系统探讨,以进一步优化模型表现:
1.增加采样图像数量(Sampling Size)
2.扩展训练数据规模与多样性(Data Size)
3.迭代训练(DPO-Iter / GRPO-Iter)
对于 GRPO:
增加每轮采样数量是提升性能的最有效手段; 适度扩大训练集规模有助于提升泛化; 但过度扩展会引起过拟合现象。
对于 DPO:
多轮迭代训练可强化域内性能,但存在泛化性能下降的风险; 增加样本多样性与数量,有助于突破偏好范围限制; 小规模采样利于偏好对比,提升表现;过度采样则可能引入噪声或偏差。
理论分析与方法机制
DPO 与 GRPO 的差异并不只是训练流程不同,它们在策略结构与损失构造上也存在本质区别:
DPO 是一种基于离策略训练的偏好学习方式,依赖静态的正负样本对,通过优化偏好倾向函数来提升生成质量; GRPO 更强调"组间对比",通过在线采样、策略更新进行逐步优化,策略灵活但成本更高。
研究还特别指出,两者的训练损失在计算开销上可以做精细对齐,从而保证评估结果更具可比性。
总结与展望
这项开创性研究为图像生成领域引入 RL 思维链机制提供了系统的理论与实证支撑。DPO 与 GRPO 并非简单的"优劣之分",而是更适合于不同场景:
DPO 适合在已有高质量数据基础上深度优化,追求精细化输出 GRPO 则适合泛化需求高、任务分布多样的实际应用环境
与此同时,研究也强调了奖励模型作为"训练导航仪"的重要性,未来在奖励模型的泛化性设计上仍有很大提升空间。此外,该研究不仅明确了 DPO 与 GRPO 在不同场景下的适用性,也提供了可复用的实验框架与扩展策略建议,为图像生成引入 RL 方法奠定了实践基础。
随着多模态任务复杂度提升,如何在泛化能力、生成质量与训练效率之间找到平衡,将成为关键议题。这项工作为后续设计更鲁棒、更智能的图像生成 RL 框架提供了有力启示,未来值得期待。
参考文献
[1] Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论