2025年6月6日星期五

来自NVIDIA的ProRL|探索RL在rl-time compute scaling上的潜力

点击下方卡片,关注"AI生成未来"上个月一篇来自NVIDIA的题为《ProRL: Prolonged Rei

点击下方卡片,关注"AI生成未来"


上个月一篇来自NVIDIA的题为《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》论文尝试以rl-time compute scaling的视角挖掘并探索RL在llm post-training上的潜力〔不管怎样这种洞察确实很nV...〕

图片



近期,以OpenAI-O系和DeepSeek-R1为代表的聚焦于推理的大型语言模型取得了显著进展,这些进展强调了强化学习(RL)在对齐模型与可验证奖励方面的重要性。然而,关于 RL 是真正扩展了模型的推理能力,还是仅仅放大了基础模型中已潜在存在的高奖励输出或某种高级策略遵循下的整体概率分布〔我之前的一个观点将基模预训练掌握的shot reasoning pattern对比long reasoning pattern所呈现出的碎片化泛化性在模型内隐状态空间下某种程度的"拼接"到"延展",从而促使模型建立新的cot流形分布且这种分布我相信亦会带来更多推理决策空间的"创造性",当然这并非是对上述基模高概率输出的某种奖励牵引,从还原论元知识出发而是一种认知泛化上的演进或迁移 - 关于这一假设感兴趣的小伙伴可参考我去年早期的一些文章〕,总之这一问题在研究界仍有争议。这篇论文旨在挑战现有假设,通过引入 ProRL(延长的强化学习训练)来探索其对大型语言模型推理能力的影响。


NVIDIA这项研究对强化学习在大模型推理策略拓展方面的潜力提出了有力反驳。其指出,只要满足训练时间足够长、训练过程足够稳定以及训练任务足够多样化这三个关键条件,强化学习便能够助力模型挖掘出全新的推理策略,从而突破既有能力边界,他们将此创新方法命名为 ProRL(Prolonged Reinforcement Learning)。


ProRL的核心假设建立在为模型提供充裕且多样化的强化学习训练基础之上,认为如此一来,模型便可以突破模式坍缩的束缚,实现对解题空间的充分探索,并成功发现以及固化那些传统基座模型所无法企及的全新推理模式,这从根本上重新审视了强化学习在模型推理能力提升过程中的作用,认为此前强化学习未能充分发挥效用,或许并非其自身存在根本性缺陷,而是由于我们给予其进行有效训练的时间以及探索空间相对有限。


为了切实验证 ProRL 的这一先进理念,当前亟待解决两大关键问题:


首先,如何成功实现长时间且稳定的强化学习训练?传统强化学习训练过程往往面临诸多挑战,以 GRPO 等策略优化算法为代表的训练方式,极易遭遇训练不稳定以及熵坍缩等棘手问题,这严重阻碍了模型在长时间内的持续优化进程,成为制约强化学习效能发挥的关键瓶颈。


其次,如何精准评估模型是否真正掌握了全新的推理模式?在此过程中,单一依靠 pass@1指标已然无法满足需求,亟须构建更为全面的评估体系,这一体系应综合考量 pass@k指标的动态变化、模型在新任务场景下的泛化应用能力,甚至对于模型推理过程本身所展现出的新颖性特征也应纳入评估范畴,从而全方位、多维度地衡量模型是否真正实现了推理模式的创新与突破。



论文中所采用的研究方法


提出 ProRL 训练方法论 :为使 RL 训练能够长时间进行以更深入地探索推理策略,论文提出了 ProRL,它融入了 KL 散度控制、参考策略重置以及多样化的任务套件。这些方法旨在解决强化学习训练中的关键挑战,如熵塌缩和训练不稳定等问题。〔熵·entropy〕确实是个诡异且值得进一步研究探索的事物,在单独的tokens、完整context、模型内隐参数空间中它无处不在,一边掌控着模型test-time scaling,一边控制着各种policy gradient的边界...


图片



采用多样化的训练任务 :使用了涵盖数学、编程、STEM 问题、逻辑谜题和指令遵循等 136k 个问题的多样化且可验证的数据集来训练模型,以促进模型在广泛任务上的泛化能力。〔体现潜在的跨任务下的泛化拼接或迁移〕


Policy Optimization:采用 Group Relative Policy Optimization(GRPO)算法作为核心 RL 算法,并对其进行了多项改进和优化,如引入 KL 惩罚项、参考策略重置、动态采样等,以维持训练的稳定性和持续的性能提升。

GRPO (Group Relative Policy Optimization) 这个算法非常流行,在各社区和论坛已经介绍了无数遍。为了论述完整,我们再快速回顾一下:这是一种用于 LLM 的策略优化算法。与相对早期的 PPO 类似,它通过优化一个目标函数来更新模型的策略(即生成文本的概率分布)。GRPO 的一个特点是它不使用单独训练的价值函数(Value Function),而是利用同一批次(Group)内多个样本的奖励来估计一个基线,从而计算优势函数(Advantage)。

〔其实我一直认为GRPO相比各种GAE更优雅更自然且更与RL本身更搭,未来我想围绕着GRPO的更多有趣的探索和延展将会被研究者发现和创造,如基于本篇论文的长期RL扩展下时间与空间状态坐标系的分层与分阶段组间策略优化〕


论文中实验与结果


模型性能提升 :开发出的 Nemotron-Research-Reasoning-Qwen-1.5B 模型在多个基准测试中显著超越了其基础模型 DeepSeek-R1-1.5B 以及 DeepSeek-R1-7B。例如,在数学基准测试中平均 pass@1 提升了 14.7%,在编程任务上提升了 13.9%,在逻辑谜题上提升了 54.8%,在 STEM 推理上提升了 25.1%,在指令遵循任务上提升了 18.1%。〔这里我们发现在数学与编程任务的提升上进展不明显,也进一步印证了基础模型在上述领域的泛化性能处于高位即在预训练数据中得到了充分覆盖,因此在推理边界上的扩展潜力有限〕


ProRL(Prolonged Reinforcement Learning方法展现出了独特且耐人寻味的特性。经观察发现,ProRL所带来的性能提升程度,与基座模型在相应任务上的初始能力呈现负相关关系。具体而言,从下图左侧图表中可以清晰地看出,针对那些基座模型pass@128指标较低的任务(这类任务往往意味着基座模型本身不擅长处理,具有较高的探索需求),在运用 ProRL 训练之后,pass@128指标能够实现极为显著的提升。


这一现象恰似在黑暗环境中进行探索,强化学习所提供的反馈信号如同手电筒发出的光芒。当处于完全黑暗的区域时,微弱的光亮便能发挥巨大作用,为模型指引正确的方向;相对地,在已有灯光照明的地方,手电筒的增益效果则相对有限。下图右侧图表进一步验证了这一观点,通过分析可知,ProRL提升幅度最小的任务,往往对应着基座模型生成轨迹的创造性指数较低的情况。创造性指数低表明基座模型在这些任务处理过程中,更多地依赖于预训练阶段所形成的熟悉模式,缺乏创新性的探索与突破。

图片


Pass@k 趋势的不同表现:论文分析了不同任务pass@k曲线在训练过程中的变化,将其分为三类:


衰减(Diminish): 在基座模型已经很强的任务上,pass@1提升了,但pass@128下降了。这表明模型学会了更聚焦于生成少数几种高概率正确答案,牺牲了多样性。


平台(Plateau): pass@k在训练早期有提升,但之后趋于平缓,长时间训练收益不大。


持续提升 (Sustained): 在更复杂的任务(如代码生成)上,pass@k随着长时间ProRL训练持续提升。这是 RL 真正拓展推理边界的有力证据。



图片


这说明RL对模型策略分布的影响是复杂的,取决于任务本身的特性和基座模型的初始能力。但在那些需要探索和多样化解决路径的任务上,ProRL展现出了持续拓展边界的能力。


持续性能改进 :ProRL 展示了在超过 2k 训练步骤后仍能持续改进性能,表明 RL 训练能随着计算资源的增加而有效扩展。

图片


泛化能力及新推理路径的:研究发现,当给予足够训练时间和应用于新推理任务时,RL 确实能够发现基础模型中完全不存在的真正新的解决方案路径,显示出模型推理能力的真正扩展。


其中,ProRL训练后的模型在训练中未见的OOD(Out-of-Distribution)任务上也展现出了显著的泛化能力。例如,在boxnet这个OOD逻辑谜题任务上,基座模型几乎完全无法解决(pass@k 接近 0),而ProRL模型能够有效地解决问题,这直接证明了模型学到的抽象推理模式可以迁移到新任务上。


图片

此外,在增加任务难度(例如,graph_color任务中增加图节点数)时,ProRL模型相比基座模型性能下降更慢,在更复杂的场景下表现更鲁棒,这进一步支持了模型学到了更通用的推理规律。


图片


训练后分布上的变化:模型pass@1分布的巨大变化。对于像family_relationships这样的逻辑推理任务,基座模型几乎所有样本的pass@1都接近0。经过ProRL训练后,pass@1分布显著右移,峰值出现在100%附近,这意味着许多原本模型完全不会的问题,现在能够完美解决了。这种在大量样本上「从不会到会」的转变,是整体pass@k提升的根本原因。


图片


分析与观点总结


RL对推理边界的扩展条件 :通过实验发现,RL扩展模型推理边界的有效性与基础模型的初始能力以及训练时长密切相关。在基础模型初始能力较弱的任务上,RL 的提升效果更为显著,且随着训练时长的增加,模型的推理边界能得到更有效的扩展。


泛化能力的增强 :ProRL训练的模型在面对训练数据中未见过的结构新颖或语义具有挑战性的任务时,展现出了强大的泛化能力,能够在超出初始训练分布或复杂度水平的场景中保持较高的准确率。


对RL方法的重新评估 :论文的研究结果挑战了之前关于RL局限性的假设,表明在适当的条件下,经过足够训练时间的 RL方法确实可以有意义地扩展模型的推理边界,从而为开发更强大和通用的AI系统提供了新的思路和方向。

图片



局限&影响


局限性 :ProRL 的训练过程需要大量的计算资源,对于计算资源有限的小型组织或研究人员来说可能难以承受。此外,该方法在扩展到更大模型时的可行性尚不确定,并且训练过程的复杂性也可能导致结果不稳定。同时,尽管评估涵盖了多样化的领域,但训练数据集仍然只是可能推理任务的一个子集,无法保证在所有潜在推理领域都取得类似改进。


影响 :ProRL 的发展一方面可以增强语言模型在各个领域的推理能力,为教育等领域带来新的机遇,使计算资源有限的个人、研究人员和组织能够更广泛地使用先进的 AI 能力。另一方面,也带来了重要的伦理考量,如训练所需的大量计算资源可能加剧 AI 开发中的资源不平等,增强的推理能力若在没有适当保障措施的情况下部署,可能会导致更复杂的滥用等问题。


最后希望这篇论文和文章能为大家未来在RL和LLM的持续探索上提供新的思路或帮助!


BY 吕明

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!


技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片



没有评论:

发表评论

Apple提出UniGen!多模态理解生成统一xii新架构!CoT - V提升图像生成质量!

最新论文解读系列论文名:UniGen: Enhanced Training\x26amp;Test-Time Strate 最新论文解读系列 论文名: UniGen: Enhanced Training&Test-Time Strategies for Unified...