2025年8月12日星期二

智能体觉醒前夜!200+研究成果全景扫描!一文读懂视觉强化学习的四大支柱与新范式

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Weijia Wu等

解读:AI生成未来

图片

文章链接:https://arxiv.org/pdf/2508.08189 
git链接:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning 

亮点直击

  • 系统综述200余项视觉强化学习研究,涵盖MLLMs、视觉生成、统一模型和视觉-语言-行动智能体
  • 分析各子领域在策略优化、奖励建模与基准测试的进展,揭示核心挑战:如视觉生成的奖励设计、推理与VLA任务的中间监督缺失
  • 提出基于指标粒度与奖励监督的视觉RL分类法,包括图像生成的三种奖励范式,为跨领域策略选择与开发提供框架支持

强化学习(RL)与视觉智能领域的近期突破,使得智能体不仅能感知复杂视觉场景,还能进行推理、生成并执行决策。本文对该领域研究进行了批判性梳理与前沿整合:首先系统化定义视觉RL问题,追溯从RLHF到可验证奖励范式、从近端策略优化到群体相对策略优化的策略优化演进路径;继而将200余项代表性成果归纳为四大支柱方向——多模态大语言模型、视觉生成、统一模型框架、视觉-语言-行动模型。针对每个方向,深入剖析算法设计、奖励机制构建与基准测试进展,提炼出课程驱动训练、偏好对齐扩散、统一奖励建模等关键技术趋势;最后通过集合级保真度、样本级偏好、状态级稳定性三维度评估体系,指出样本效率、泛化能力及安全部署等开放挑战。本研究旨在为学界与业界绘制视觉RL快速扩张版图的认知坐标,并指明未来研究的潜在路径。

1 引言

强化学习(RL)在大语言模型(LLMs)领域已取得显著成就,尤以基于人类反馈的强化学习(RLHF)和DeepSeek-R1等创新框架为代表。这些方法显著提升了LLMs的能力,使其生成内容更贴合人类偏好,并实现了仅靠监督学习难以达成的复杂推理与交互能力。

近年来,受LLM领域成果启发,研究者开始将RL方法拓展至多模态大模型,包括视觉语言模型(VLM)、视觉-语言-行动模型(VLA)、基于扩散的视觉生成模型以及统一多模态框架,如下图1所示。例如Gemini 2.5利用RL对齐视觉-文本推理过程,生成语义连贯且符合人类判断的输出;VLA模型则通过RL优化交互环境中的序列决策,显著提升了GUI自动化、机器人操控和具身导航等任务的性能。扩散生成模型的快速发展进一步推动了RL创新:ImageReward引入RL增强生成结果的语义对齐与视觉质量,通过人类偏好或自动奖励机制的迭代反馈优化扩散生成。此外,统一模型依赖RL微调,实现了以往难以企及的泛化与任务迁移能力。

图片

尽管多模态大模型的RL融合已取得重大进展,仍存在核心挑战:复杂奖励信号下的策略优化稳定性、高维异构视觉输入的处理,以及支持长程决策的可扩展奖励函数设计。解决这些问题需要算法设计与评估范式的双重创新。

本文全面综述了2024年以来多模态大模型中的视觉强化学习进展。首先回顾RL在语言模型中的基础成果(如RLHF和DeepSeek-R1),继而分析这些策略在视觉领域的演进,将200余项研究归纳为四大方向:

  • 多模态大语言模型
  • 视觉生成
  • 统一RL框架
  • 视觉-语言-行动智能体(图1) 针对每类研究,剖析算法设计、奖励建模与基准测试的关键进展,最后指出开放挑战与未来方向,包括高效多模态推理、VLA任务的长程学习策略,以及面向视觉生成的可扩展高保真奖励信号。通过系统梳理,为这一快速演进领域的研究与实践提供结构化参考。

2 基础:LLM中的强化学习

这里介绍多模态模型的RL基础。首先形式化符号体系,将文本与图像生成建模为马尔可夫决策过程;随后分析三种对齐范式:基于人类反馈的强化学习(RLHF)、群体相对策略优化(GRPO)和可验证奖励的强化学习(RLVR),分别通过人类偏好或确定性校验实现策略对齐;最后回顾核心策略梯度方法(PPO、GRPO)及其在视觉推理与生成中的适配方案。

图片

2.1 符号与问题形式化

将文本/图像生成建模为片段式马尔可夫决策过程。用户提示作为初始状态,时刻的状态为提示与已生成动作的联合表示。

图片

延续部分为完整动作序列,其中每个token 通过策略自回归采样生成。

图片

提示词(prompt)锚定了状态序列,而每个新动作的选择都基于该提示以及已生成的tokens的上下文。

固定参考模型(如监督微调后的检查点)记为。人类偏好被蒸馏为标量奖励模型,替代未知环境的奖励。重要性采样比定义为,优势估计记为。PPO通过学习的评论家降低的方差,而GRPO则采用共享同一提示的延续序列集合计算的群体相对基线替代评论家。两种算法均添加了KL正则项,并通过系数加权以保持更新后的策略接近参考策略。除非另有说明,期望均基于提示以及从指定策略中采样的延续文本。

2.2 对齐范式

2.2.1 基于人类反馈的强化学习

RLHF通过人类标注的成对偏好数据扩展MDP框架。每个偏好样本为三元组,其中为提示(或状态序列),为候选延续序列(轨迹、图像等),标签记录偏好选择(如下图2)。

图片

奖励模型学习
标量奖励模型通过Bradley-Terry似然函数学习成对排序关系。

图片

其中为logistic函数。收敛后,可提供对人类偏好的稠密可微代理。

策略优化
策略通过最大化以下目标进行微调:(i)习得奖励,(ii)保持策略接近监督微调基线的KL惩罚项,以及(iii)原始预训练分布上的可选对数似然正则项(如InstructGPT所述):

图片

实际应用中,前两项通过KL正则化PPO在小批量采样延续序列上进行优化,第三项则加入预训练梯度以减轻原始语料上的性能退化。

三阶段流程
现代RLHF流程普遍遵循三阶段范式(图2a):

  • 收集演示数据并训练监督策略
  • 收集对比数据并训练奖励模型
  • 使用PPO优化策略以匹配奖励模型

该范式由Christiano et al., 2017首创,通过成对人类偏好训练Atari游戏和机器人智能体。Ouyang et al., 2022将其扩展至大语言模型(InstructGPT),将偏好建模与PPO结合。视觉领域则采用ImageReward和人类偏好评分HPS等奖励模型,为文本到图像扩散任务提供稠密美学信号。

2.2.2 直接偏好优化

DPO使用与RLHF相同的成对偏好数据,但省去了奖励模型和RL循环的中间步骤,转而推导出闭式监督目标,隐式地对冻结参考策略实施KL约束(前面图2b)。

闭式目标
对于每个提示,标注者对两个延续序列进行排序,其中为优选序列("胜者"),为非优选序列("败者")。数据集由三元组构成。设为冻结参考策略(如SFT检查点),为温度超参数,DPO最小化以下目标:

图片

其中对数几率差定义为:

图片

logistic函数将差值转换为二分类损失;训练过程采用标准最大似然梯度,无需奖励模型、价值网络或重要性采样。

2.2.3 可验证奖励的强化学习

可验证奖励的强化学习(RLVR)通过确定性、可编程校验的奖励信号替代成对人类偏好,消除了RLHF的主观性和数据收集成本。典型示例包括:代码合成的通过/失败单元测试、数学问题的精确匹配答案、分割任务的IoU/Dice阈值,或LeetCode编译器等格式验证器。由于奖励通过在线执行或指标评估生成,RLVR同时省去了:(i) RLHF的奖励模型训练阶段,(ii) DPO的对比代理损失,同时仍能实现超越监督学习的策略改进,如前面图2(c)所示。

可验证奖励
对于提示(状态)和采样延续序列,验证器返回:

图片

例如:若生成程序通过所有隐藏测试则返回"pass"。该思想同样适用于视觉任务:生成掩码与真实标注的IoU≥0.9,或CLIP相似度超过硬阈值的图像可获得奖励。当前主流RLVR系统(如DeepSeekMath、Deepseek-R1)采用GRPO(见公式12)和标准KL正则化训练策略模型。

RLVR采用简洁的两阶段流程:

  • 监督策略预训练:基于演示数据生成初始策略 。
  • RL微调:使用GRPO/PPO针对实时可验证奖励进行优化,可混合少量教师强制SFT更新以稳定训练

2.3 策略优化算法

2.3.1 近端策略优化

近端策略优化(PPO)是一阶置信域方法,在更新策略时保持与旧策略的接近性(下图3a)。在文本/图像生成任务中,提示作为初始状态,延续序列作为轨迹。定义重要性采样比与即时奖励

图片
  • 重要性采样比
图片

该比率将行为策略的梯度估计重新加权至更新策略。

  • 即时奖励
    由预训练的冻结奖励模型提供,用于近似人类偏好。

  • 价值基线
    由学习的价值网络生成,其回归从状态开始的期望折扣回报。

结合策略模型与参考模型间的KL正则化奖励,可定义为:

图片

其中KL项(后一项)确保更新后的策略不会偏离冻结参考策略过远。超参数用于平衡探索(通过KL约束保持与的接近性)和奖励模型的利用强度。较大的意味着更强的约束,学习过程更安全但可能更缓慢。广义优势估计器(GAE)计算优势估计

图片

GAE通过指数加权多步奖励估计计算优势值,在低方差学习与高方差蒙特卡洛回报之间实现平滑权衡。

PPO优化的代理目标函数为:

图片

其中超参数控制置信域宽度。因此,准确且低方差的估计至关重要——其指导每次策略更新并最终决定PPO的稳定性与样本效率。

2.3.2 群体相对策略优化

群体相对策略优化(GRPO)通过弃用学习的价值(评论家)网络,改用基于同提示多输出采样的群体相对基线来扩展PPO。如前面图3(b)所示,该设计显著降低内存消耗,同时使优势估计器与基于比较的奖励模型对齐。

群体相对基线
对每个提示,采样个完整延续序列,其中每个延续序列为按时间步索引的标记序列。冻结奖励模型为每个标记分配标量分数(以提示为条件),随后在群体内归一化序列级奖励以计算群体相对优势信号:

图片

其中为计算群体相对优势的均值与标准差函数。相同的被复用于延续序列中的每个标记,产生裁剪后的代理目标:

图片

其中。显式KL惩罚项保持接近参考策略,而群体相对优势替代价值基线,在保留低方差学习信号的同时约减少一半内存与计算量。

提示级KL估计器
GRPO未像PPO那样将逐标记惩罚项注入奖励,而是添加独立的提示级正则项。利用个采样延续序列构造无偏标记平均估计:

图片

该估计量衡量当前策略在整个延续序列上偏离冻结参考策略的程度。

相较于公式(10)的PPO,GRPO引入两项关键改进:

  • 消除价值网络:通过群体相对基线实现方差缩减,降低内存占用并减少超参数
  • 分离KL损失通道:将KL散度作为显式正则项优化(而非融入优势估计),透明权衡奖励最大化与参考锚定

3 视觉中的强化学习

3.1 多模态大语言模型

将相关研究划分为四个连贯类别,每个类别由共享的RL驱动目标与内部推理机制定义。

图片

3.1.1 传统RL驱动的多模态大语言模型

传统RL驱动的MLLMs指主要应用强化学习将视觉-语言主干网络与可验证的任务级奖励对齐的方法,不显式建模多步思维链推理。典型工作如RePIC、GoalLadder、Drive-R1和VLM-R1用确定性验证器(如精确匹配、IoU、BLEU)替代偏好模型,在KL正则项下通过GRPO/PPO变体优化策略。该设计实现稳定的无价值网络训练,提升描述生成、定位和自动驾驶基准的零样本鲁棒性,大幅降低监督微调的标注成本。

近期扩展展现了该范式的灵活性:GRPO-CARE引入一致性感知的群体归一化降低奖励方差,Q-Ponder增加沉思控制器。数据层面,MoDoMoDo提出多域混合优化预测奖励分布并选择最优课程,V-Triune在统一的三目标流程中整合感知与推理任务,实证验证基于规则的RL可扩展至多样视觉信号。这些研究共同表明:(i) 可验证奖励可作为人类反馈的低成本替代,(ii) 群体相对目标在异构视觉任务上比标记级PPO更稳定,(iii) 课程或数据混合调度正成为广义泛化的关键要素。

3.1.2 空间与3D感知

2D感知:以感知为核心的工作应用RL锐化目标检测、分割和定位,不涉及长链推理。Omni-R1提出全局-局部双系统GRPO流程,通过基于规则的指标验证预测,在区域级基准和情感识别任务中表现突出。DIP-R1将感知分解为"检测→观察→行动"的逐步循环,每阶段接收基于IoU或计数的确定性奖励以提升细粒度检测。Perception-R1重新评估GRPO在检测与OCR数据集上的效果。VisRL将意图引导的焦点选择建模为RL子策略,在视觉定位任务中 consistently 超越监督基线。

3D感知:MetaSpatial利用渲染深度/IoU奖励优化AR/VR场景的空间推理,Scene-R1通过视频片段选择与两阶段定位策略学习3D场景结构。分子尺度的BindGPT将原子排布视为序列动作,以结合亲和力估计器作为可验证奖励,证明感知导向的RL可扩展至3D生化设计。这些方法共享共性:(i) 将检测/分割/3D对齐建模为MDP,(ii) 设计确定性空间奖励(如IoU、深度一致性、结合能),(iii) 通过GRPO/PPO微调预训练VLM主干——从而区别于推理导向的RL变体。

3.1.3 图像推理

关于图像的思考(Think about Image):通过语言化观察静态图像增强多模态推理,但不修改视觉内容。SVQA-R1和STAR-R1采用视角一致或变换不变的目标。VL-GenRM和RACRO优化偏好数据或描述奖励以减少幻觉。EasyARC构建程序生成的可验证任务库。Visionary-R1强制先解释图像再推理,UniVG-R1通过GRPO微调统一指代、描述和检测。EchoInk-R1在GRPO优化下整合视听同步。课程驱动框架(WeThink、G1等)逐步增加任务复杂度以培养结构化推理能力。

用图像思考(Think with Image):通过生成/编辑视觉标注进行推理。GRIT在语言中插入边界框标记,用GRPO同步优化答案正确性与框体精度。VILASR扩展至多视角和视频场景,强制跨视角空间一致性。Ground-R1和BRPO采用两阶段流程:先基于IoU或反射奖励定位证据区域,再进行语言推理。Visual Planning用图像推演替代文本链,以下游任务成功为奖励;Pixel Reasoner增加裁剪/擦除/绘制等动作原语,通过好奇心奖励平衡探索。TACO引入思维-答案一致性目标,重采样视觉-语言链直至中间编辑与最终答案对齐。

3.1.4 视频推理

视频推理要求MLLMs处理时序动态,需兼具空间感知与因果推理能力。VQ-Insight针对长视频QA设计分层奖励与自一致性投票机制。TW-GRPO结合标记级信用分配与GRPO优化,提升文本推理与视频证据的时序对齐。EgoVLM和VAU-R1聚焦具身视频推理,采用视觉记忆与效用奖励。DeepVideo-R整合稠密视频编码与外部奖励函数监督长程推理。TimeMaster通过课程学习显式构建时序抽象,VideoR1提出跨域视频QA的可扩展RL框架。这些工作凸显了通过RL对齐时序表征与语言轨迹的重要性。

3.2 视觉生成

3.2.1 图像生成

图像生成的RL方法在动作空间(连续扩散步骤或提示词优化)和奖励设计(需捕捉感知质量、图文对齐及主体保真度)上与语言模型存在显著差异。

图片

显式视觉奖励模型
第一类方法学习显式视觉奖励模型:ImageReward提供人类偏好分数,驱动DiffPPO、Dpok和FocusDiff对扩散主干进行策略梯度微调。

偏好优化范式
第二类方法绕过奖励建模,直接优化成对或单元偏好:DDPO、DiffusionDPO、Diffusion-KTO和DiffusionRPO将去噪轨迹视为MDP,应用R1/GRPO更新以最大化人类对比反馈。

多目标优化
除对齐外,PrefPaint、Parrot和RLRF设计多目标或渲染对比奖励以优化美学、多样性或矢量图形质量。

推理增强生成
RL还被用于注入推理与提示词适配:ReasonGen-R1、GoT-R1和RePrompt首先生成文本规划或优化提示词,随后强化生成器以实现连贯场景合成。

个性化生成
DPG-T2I、RPO和B2-DiffuRL优化稀缺参考图像下的主体保真度奖励。

这些研究共同表明:配备感知或偏好奖励的RL能引导扩散模型实现更高真实感、更强提示词忠实度、可控布局及用户定制外观能力——这些特性仅靠似然训练难以达成。

3.2.2 视频生成

将强化学习(RL)应用于视频生成会引入图像中不存在的挑战:奖励必须捕捉时间连贯性、运动自然性以及数百帧的文本-视频对齐。早期工作如 InstructVideo 重新利用图像评分器并应用PPO(近端策略优化)来优化短片段,而 VideoRM 和 VideoReward 则学习专用的偏好模型,对整个序列的流畅性、一致性和提示忠实度进行评分。基于 GRPO/R1DanceGRPO 表明,组归一化回报可以稳定长时程优化,并在扩散和流骨干网络中提升美学和对齐分数。

除了偏好对齐,专用奖励还针对领域特定目标。GAPO 利用间隙感知排序微调动漫视频;Phys-AR 通过惩罚物理违规生成合理的轨迹;而 InfLVG 训练了一个推理时策略,仅保留对多场景连贯性有益的上下文标记。辅助评论器进一步促进训练:VideoScore 和 Gradeo 提供可解释的多因素评分,而 TeViR 将想象的视频展开作为密集奖励反馈给下游控制智能体。

这些研究共同表明,精心设计的序列级奖励和组相对策略更新是生成时间连贯、语义对齐且物理合理的视频的关键——这些能力仅通过似然训练难以实现。

3.2.3 3D生成

3D生成的强化学习与2D和视频任务不同,其奖励作用于体积结构或渲染视图,通常需要昂贵的渲染-比较循环。DreamCS 开创了这一范式,将文本到网格合成建模为马尔可夫决策过程:扩散骨干提出粗略形状,随后策略在奖励下优化顶点位置,该奖励联合测量轮廓IoU、CLIP文本-网格对齐和网格平滑度。在奖励方面,DreamReward 引入了大规模渲染3D资产的人类偏好数据集,并训练了一个几何感知评论器,对提示、渲染和潜在SDF进行评分;学习到的信号支持对现有文本到形状模型进行稳定的PPO微调。

另一类方法采用直接偏好优化。DreamDPO 将DPO扩展到NeRF和网格扩散模型,通过采样成对的3D输出并最大化人类比较决定的边际,实现了更高的提示保真度而无需显式值网络。最后,Nabla-R2D3 解决了交互式场景编辑问题:智能体依次添加、删除或变换3D场景中的对象;奖励通过实时栅格化视图和任务特定验证器(如占用率、空间关系)计算。尽管反馈稀疏,组相对策略优化(R2D3)仍能稳定训练。

这些研究表明,配备几何感知或基于渲染的奖励的强化学习,为控制结构完整性、文本对齐和交互可编辑性提供了有效机制——这些能力在3D领域中,标准的似然或分数蒸馏目标难以捕捉。

3.3 统一模型

任务特定强化学习最大化与单一目标绑定的奖励,而统一强化学习则在多模态视觉-语言任务(如理解和生成)中优化共享策略和奖励。

3.3.1 统一强化学习

与任务特定流程(将强化学习附加到单一下游目标)不同,统一强化学习方法在单一强化信号下,跨异构多模态任务优化共享策略。核心思想是将理解和生成轨迹合并到一个训练循环中,通常使用组相对或R1风格方法。

UniRL 是这一范式的代表:视觉自回归骨干首先进行指令微调,随后在VQA、字幕生成和图像生成上联合微调,使用混合奖励测量文本正确性、基于CLIP的对齐和美学质量。CoRL 进一步推进这一思想,在同一个GRPO步骤中交替"协同理解"和"协同生成"批次。为解决密集标记空间的低效问题,SelfTok 将多模态动作离散化为自演化标记集,并证明单个RL头部可以以最少的额外参数管理检索、 grounding 和合成。最后,HermesFlow 将自回归文本模块与修正流图像解码器耦合在一个跨任务奖励下,表明扩散风格和语言风格策略可以通过统一强化更新协调。

这些工作表明,跨任务共享共同的RL目标不仅降低训练成本,还能促进孤立任务特定微调所不具备的跨模态泛化能力。

3.3.2 任务特定强化学习

与§3.3.1的统一方法相反,任务特定RL将奖励信号限制在单一下游目标上,优化一个功能头部而保持其他能力不变。VARGPT-v1.1 体现了这一策略:尽管底层视觉自回归模型可以同时处理理解和生成,但其RL阶段仅针对视觉生成使用DPO。类似地,Emu3 仅将RL引入其图像生成分支,利用成对人类偏好。对于模型的多模态理解能力(如字幕生成、VQA),该工作仅通过任务特定微调单独训练这一部分。

3.4 视觉语言动作模型

3.4.1 GUI自动化

现代GUI强化学习研究将屏幕理解和动作预测建模为视觉-语言决策过程,随后采用基于规则或偏好的奖励来闭合感知-动作循环。在桌面和网页界面中,GUI-R1 引入了一套R1风格的规则集,将点击成功、文本输入和滚动有效性映射为密集奖励。UI-R1 增加了GRPO(组相对策略优化)和一种新颖的动作特定KL项以稳定长时程规划,而SE-GUI 应用自进化过滤来提炼高保真轨迹。专注于轨迹重用,UIShift 提出了一个逆向动力学目标,使多模态语言模型(MLLM)从未标记的GUI对中学习动作,随后通过强化学习进行优化。

互补的基于偏好的框架包括LPO ,它奖励空间接近性以实现精确点击。ProgRM 注入程序级逻辑检查,而RUIG 利用指令 grounding 结合强化信号。工具特定基线如Ui-tars 提供了更大的动作词汇表,但仍依赖规则驱动的强化学习以实现鲁棒执行。

移动场景引入了延迟和设备端约束。AgentCPM-GUI 压缩动作空间并进行GRPO微调。MobileGUI-RL 通过在线强化学习和任务级奖励推进这一方向,以在有限内存下改进探索,而Mobile-R1 将交互式多轮强化学习扩展到长任务中的错误级联纠正。在推理阶段,GTA1 采样多个动作候选并使用评判模型选择最佳动作,有效以计算换取更高成功率。此外,轻量级模型如Appvlm 表明,经过GRPO微调的中等规模MLLM可以以竞争性精度控制智能手机应用。为自适应减少思考长度,TON 在监督微调阶段提出了一种思想丢弃(thought-dropout)方案,随后GRPO技能自适应跳过不必要的推理过程以实现高效思考。

这些研究共同表明,GUI智能体受益于规则可验证的奖励、组归一化策略更新和偏好引导的定位,朝着可靠、跨平台自动化方向取得快速进展。

3.4.2 视觉导航

强化学习驱动的视觉导航研究现在将大型视觉-语言模型与具身控制结合,采用组归一化或时间衰减回报以保持长时程稳定性。OctoNav-R1 利用混合强化学习管道,为VLA模型赋予"行动前思考"能力,随后将自我中心帧转换为低级动作。专注于数据效率,VLN-R1 构建了一个端到端导航器并引入时间衰减奖励以处理连续轨迹。在系统层面,Flare 表明,通过在仿真中大规模强化学习微调多任务机器人策略可以泛化到现实世界家庭任务。互补进展包括More,它通过记忆引导策略蒸馏增强全向输入,以及RAPID,它整合姿态先验以在未知布局中更快收敛。这些工作表明,使用时间奖励、记忆采样和环境先验结合GRPO/PPO有助于VLA智能体更可靠、高效地导航。

3.4.3 视觉操控

视觉操控任务(如物体重定位、工具使用和多步重排列)需要细粒度感知和长时程规划。近期工作将强化学习与视觉-语言模型结合以增强泛化性、交互性和策略一致性。TGRPO 引入了一种任务 grounded 的奖励公式和组归一化更新以稳定开放式物体操控的训练。RFTF 应用基于规则的奖励以支持交互式桌面任务,并强调在最少人类监督下训练。同时,RLVLA 和VLA-RL 探索了基于课程或渐进式强化学习用于基于VLM的机器人智能体,在多样化重排列环境中实现高成功率。

在此基础上,ConRFT 和iRe-VLA 分别引入了一致性感知和指令优化策略,使用强化学习将视觉预测与物理交互结果对齐。RIPT-VLA专注于操控中的交互式提示,通过强化反馈桥接LLM规划和低级控制。最后,ReinBot 利用多模态展开和基于偏好的更新以提高现实世界操控鲁棒性。这些研究共同突出了视觉-语言推理、结构化奖励设计和基于强化学习的优化在复杂、语言条件设置下推进具身操控中的作用。

4 指标与基准

评估大型模型的视觉强化学习(RL)既需要传统RL指标,也需要针对复杂、开放式输出的新指标。累积回报和任务成功率等指标在涉及智能体和环境的任务中仍然有用,但它们越来越多地与基于偏好的评估相结合。本节将讨论大型模型RL四大应用领域的指标与基准。

4.1 指标粒度形式化

表示固定的提示(输入)集合,生成策略为每个提示生成输出(文本、图像、视频等)。如下图6所示,我们区分三种评估粒度:

图片

任务指标(集合级)
如图6(a)所示,集合级指标通过比较生成输出与真实输出参考集的分布,评估生成策略在整个提示集上的表现。当评估函数(如CLIPScore无需真实输出时,我们定义

图片

其中表示应用于每个生成输出的样本级奖励函数。相比之下,许多经典的视觉度量确实依赖于参考输出,例如。对于这些情况,集合级评估定义为

图片

其中每个真实输出表示参考集中的第个真实值。

奖励/优势度量(样本级)。如图6(b)所示,奖励和优势度量在单个输入-输出对的粒度上运作,构成了生成式强化学习的核心。给定提示,策略生成样本,随后由评分以计算标量奖励或优势信号。该反馈通过强化学习(例如PPO、DPO优化策略。在基于偏好的学习中,样本级度量通常从人类或GPT-4的比较中学习,或通过评分模型(如CLIPScore、ImageReward自动导出。当奖励依赖于参考时(例如使用PSNR或IoU),将生成输出与真实输出进行比较。形式上,奖励信号可表示为:

图片

具体取决于奖励模型是否使用真实输出。实践中,每个样本的分数会被转换为逐步优势(其中索引生成步骤)。这些优势直接驱动策略更新,从而在单个输出级别实现奖励塑造和探索控制。

状态级度量 。如图6(c)所示,状态级度量监控当前策略在迭代时的训练动态。常见选择是计算与冻结参考策略的KL散度:

图片

其他诊断包括自回归模型的输出长度漂移以及扩散模型的DDIM步骤轨迹方差。通过在优化过程中跟踪,从业者可以在这些问题降低最终性能之前检测到奖励黑客、模式坍塌或过度的策略转变。

4.2 多模态大语言模型的评估

任务指标如下表2所总结,MLLM首先在外部、无RL的基准上进行评估。通用推理套件如MME、SEED-Bench和MMBench衡量跨图像的事实问答、常识和多步链式推理。领域特定子集考察OCR(TextVQA)、数学(MathVista)、文档(ChartQA)和多语言定位(CMMMU)。

图片

奖励指标在训练过程中,每个生成的答案都会获得一个样本级奖励。当前实践中有三种主要来源:

  • 人工偏好奖励 来自大型RLHF语料库(如InstructGPT和LLaVA-RLHF),提供与用户判断高度匹配的稠密反馈。
  • 可验证奖励 适用于子任务可进行确定性检查的情况,例如CodeRL中的单元测试通过率,或DeepSeekMath中的符号精确度;它们无噪声但范围有限。
  • 模型偏好奖励 用更强的冻结评审模型替代人类,如CriticGPT,提供可扩展但可能有偏差的监督。 所选奖励被转换为优势,并通过PPO、GRPO或DPO进行优化。

模型状态指标除了外部得分,从业者还会在RL更新过程中跟踪轻量诊断。两种轻量诊断被广泛采用:

  • 输出长度漂移:答案长度相对SFT基线的偏差,大幅漂移预示冗长或重复。
  • KL散度:当前策略与冻结的SFT参考之间的KL散度,如InstructGPT中所用。

4.3 视觉生成模型的评估

任务指标如上面表2所列,最终质量在针对互补维度的标准、无RL的基准上进行评估。图像保真度与多样性通过FID和Inception Score衡量,像素级重建任务(超分辨率、修复)使用PSNR或SSIM。为评估提示对齐度,CLIP Score和Fréchet CLIP Distance量化语义正确性;视频模型还会报告FVD或Video IS以捕捉时间一致性。

奖励指标在RL微调过程中,每个生成的图像或视频都会获得一个样本级奖励

  • 人工偏好奖励(如ImageReward、HPS)提供与美学吸引力高度相关的稠密信号。
  • 可验证奖励 在存在确定性检查时使用,如MotionPrompt和DSPO利用光流、目标掩码进行无人工评估。
  • 模型偏好奖励 由更强的冻结评审模型(如VideoPrefer或PARM)打分,支持可扩展的DPO/PPO训练。

模型状态指标两种轻量诊断跟踪训练稳定性:

  • 去噪轨迹统计:VARD和Inversion DPO记录逐步噪声预测或DDIM轨迹;病态尖峰揭示早期坍塌。
  • KL散度:当前扩散策略与其冻结基线之间的KL散度,由DDPO推广,并在VARD中复用。

4.4 统一模型的评估

任务指标两类基准被广泛采用:

  • 生成导向套件(如GenEval、DPG-Bench、ParaPrompts)专注于提示忠实生成,测试多目标组合、风格控制和长描述遵循度。
  • 理解导向基准(如MME、POPE)测量同一骨干上的定位、推理和幻觉检测。

奖励指标近期研究探索两种训练信号设计理念:

  • 统一奖励(如UniRL、CoRL)将多种目标(文本正确性、CLIP对齐度、美学质量)融合为单一标量,驱动跨任务的共享策略。
  • 任务特定奖励 保持生成端与理解端独立,仅对生成分支应用RL,如Vargpt-v1.1或Emu3。前者促进跨模态迁移,后者保持感知模块稳定性。

模型状态指标统一模型在RL过程中还会跟踪细粒度诊断:

  • UniRL提出生成–理解不平衡分数:两类任务族批次奖励的绝对差值,以防单一模态主导更新。
  • HermesFlow监控当前共享策略与其监督基线在生成与理解提示上的KL散度,作为策略坍塌的早期预警信号。 这些状态级曲线使从业者能够在外部任务得分下降之前停止或重新加权训练。

4.5 视觉语言动作模型的评估

任务指标。在 GUI 自动化任务中,有多个基准可以分为在线或离线场景。对于离线设置,主要包括定位和导航部分。对于定位,主要检查点击操作是否落在目标按钮上;对于导航,需要模型在给定真实历史记录的条件下预测当前动作,这主要取决于每一步是否正确预测了动作类别(点击或输入)。对于在线设置,挑战更大,因为它要求模型完全执行多步操作,这是一种较长的过程,然后检查最终结果是否满足任务要求。这种较长的过程设置在模型评估中会产生稀疏信号。

奖励指标。对于奖励建模,大多数离线 RL 方法借用任务指标(如 IoU),而在进入在线环境时,由于任务成功率的稀疏性,这给端到端多轮 RL 训练带来了重大挑战,即缺乏训练效率、缺乏信息量,为解决这一问题提出了步骤级奖励,例如开发奖励或评论模型。

模型状态指标。为了在任务成功率之外全面了解模型行为,轨迹长度是一个重要指标,因为它可以反映模型解决任务的效率。一个智能的代理应能够以最少的步骤完成任务。这对具有高级规划能力的代理提出了挑战。

4.6 基准

各种新基准在视觉领域明确支持基于 RL 的训练和评估(见下表 3)。对于 MLLM,最近的数据集针对复杂的多跳推理以及与人类偏好的对齐。例如,SEED-Bench-R1引入了一个分层的第一人称视频问答基准,包含 5 万个训练问题和一个人工验证的验证集。Long Video RL扩展了长视频上的多步推理:它提供了 5.2 万个带有详细推理标注的 QA 对。另一个最近的基准,Ego-R1 Bench,专注于超长(长达一周)的第一人称视频;一个经过 RL 训练的"链式工具思维"代理必须平均调用 7 步感知工具来回答每个问题,这体现了将逐步推理准确率作为核心挑战。在图像领域,VisuLogic包含 1000 个精心设计的视觉推理难题(例如空间和逻辑问题),用于评估纯视觉中心的推理,大多数模型在该基准上的表现仅略高于随机水平。

图片

视觉生成任务的基准主要提供人类偏好数据,这些数据作为策略优化的奖励模型。诸如 ImageReward和 HPS v1 & v2等数据集收集了文本到图像输出的人类排序对,从而可以训练一个标量奖励函数来对生成结果进行评分。这类奖励模型已被用于通过 RLHF 优化文本到图像扩散模型,使输出与人类审美偏好对齐。类似地,Pick-a-Pic和 VideoReward将其扩展到更广泛的用户偏好(运动平滑度、文本对齐)。一些基准还促进了对生成式 RL 代理在泛化方面的稳健评估。T2I-CompBench是一个文本到图像的组合性测试集,要求正确绑定属性与对象关系的新组合——这是评估经过 RL 训练的生成器时常用的组合泛化度量。同样,特定领域的基准定义了可验证的成功标准作为奖励:StarVector提供了带有严格形状匹配奖励的 SVG 代码生成任务,AnimeReward针对动画视频生成中的一致性,提供多维人类偏好评分(图像与视频一致性、角色一致性等)。

对于视觉–语言动作代理,众多基准提供专家轨迹和具有明确奖励信号的模拟环境,用于策略训练和稳健评估。许多基准集中于 GUI 和网页交互任务,这类任务的成功可以被明确测量。例如,GUI-R1-3K汇编了跨 Windows、Linux、macOS、Android 和网页平台的 3000 多条 GUI 操作轨迹。它引入了一种"R1 风格"的稠密奖励方案,将每个正确动作(如点击正确按钮、输入正确文本、有效滚动)映射为正反馈,提供逐步强化,引导代理完成多步 UI 任务。

在此基础上,SE-GUI整理了 3000 个带有定位指令和边界框标注的高质量 GUI 示例,用于通过自模仿 RL 策略训练代理。以评估为重点的套件如 UI-R1定义了一组固定的未见任务(如 136 个移动 GUI 任务,涵盖点击、滚动、滑动、文本输入操作)来测试学习策略的泛化能力。与此同时,网页交互基准如 Mind2Web在真实网站上提供了 2000 个任务,每个任务都有一个二元的成功/失败奖励。一些数据集强调精确匹配和可复现性:AITZ(带有 CoAT 推理的 Android 交互)记录了 1.8 万个屏幕–动作对及相应的工具辅助推理,并使用精确动作匹配奖励以确保严格遵循指令。

另一方面,更广泛的基准如 OmniAct和 GUICoURS面向跨不同领域的通用代理能力。OmniAct 将近 1 万个脚本化桌面和网页任务集成到单一环境中,而 GUICoURS 融合了多模态资源(1000 万个 OCR 观测、6.7 万个导航演示),涵盖 GUI、网页和聊天界面。这些基准的奖励结构经过精心设计,从基于规则的指标到偏好评分,用于引导策略学习并反映任务目标。它们使视觉 RL 代理能够从有意义的反馈中学习,并且不仅在任务成功率上进行评估,还包括与人类推理的对齐程度以及在复杂、长时间跨度决策上的表现。

5 挑战与未来工作

5.1 有效推理:平衡深度与效率

视觉 RL 中反复出现的一个挑战是推理校准:过长的视觉或语言思维链会带来延迟和累积错误,而过于激进的剪枝会丢弃关键信息。本文预见两个研究方向。(i) 自适应范围策略:训练一个终止评论器,使答案质量和计算成本共同优化;基于课程的奖励塑形可以在保留信息丰富步骤的同时逐渐惩罚冗余步骤。(ii) 元推理和少样本自我评估:引入轻量级评估器,对部分推理链进行批判(例如通过冻结的视觉–语言模型),并决定是否值得继续思考。因此,未来的基准应报告成功率和推理效率指标(平均步骤数、FLOPs、延迟),鼓励算法在适度思考而非最大化思考的情况下实现高精度。

5.2 VLA 中的长时程 RL

长时程视觉–语言代理(VLA)必须在观察到任何终端任务奖励之前执行数十个原子动作(如点击、拖动、文本编辑)。现有工作如 OS-World和 ARPO因此依赖于每次点击的稀疏奖励和二元任务成功标志,但实证结果表明,即使是 GRPO 在这种监督下的提升也有限。未来研究应:(i) 发现内在子目标:通过状态变化检测或基于语言的聚类对轨迹进行分段,然后为子目标完成分配稠密奖励;(ii) 学习可供性评论器:训练对比视觉–语言模型来评分某个动作减少与语言目标距离的程度,从而在无需人工标签的情况下提供塑形反馈;(iii) 分层或基于选项的 RL:将提出语义子任务的高级语言规划器与通过离策略 RL 或决策变换器微调的低级策略结合。

5.3 视觉推理中的 RL

视觉规划的最新研究(如 Chain-of-Focus和 Openthinkimg)都将图片视为外部工作区:代理可以在生成下一个语言 token 之前裁剪、绘制、标注或插入视觉 token。虽然早期原型依赖于监督启发式方法来实现这些空间操作,但转向强化学习暴露了四个开放问题。

(i) 动作空间设计:裁剪或涂鸦本质上是连续的 ,但 RL 库和 GPU 内存更适合小的离散集合。混合方案(先学习可微分的提议策略,再通过策略梯度微调坐标)仍然很少探索,BRPO和 VRAG-RL对此有所暗示。(ii) 信用分配:大多数基准仅奖励最终任务成功(例如 VILASR中的答案正确性);整个视觉思维链共享单一稀疏标量。未来工作应挖掘逐步代理奖励,例如裁剪后的 CLIP 相似度提升,或学习信念状态的熵下降——以实现自举式或分层 RL。(iii) 数据效率:绘制或插入补丁会触发视觉编码器的额外前向传递,使得天真地使用在策略 RL 成本极高。重标记(DeepEyes)和基于模型的想象(Pixel Reasoner)提供了高效采样的替代方案,但针对视觉动作的有原则的回放和不确定性感知规划器仍然缺失。未来方向包括:通过技能先验 RL 学习结构化视觉技能(裁剪、缩放、绘制);设计跨模态奖励塑形,根据每次编辑对剩余推理的简化程度进行评分;以及策划指标不仅反映最终精度的基准。

5.4 视觉生成的奖励模型设计

基于强化学习的视觉生成的核心障碍是缺乏可扩展且忠实的奖励函数。广泛使用的手工指标(如 FID)提供了方便的数值信号,但与人类对美学、语义保真度或时间一致性的判断仅弱相关,尤其是在任务超越单帧图像时。最近的学习型评论器(如 ImageReward和 HPS用于图像,VideoReward用于视频)试图通过在成对人类偏好数据上训练来弥补这一差距,但每个模型只针对单一模态,并且仅捕获感知质量的一部分(如提示对齐或视觉吸引力)。因此,用 PPO 或 GRPO 优化的策略往往会利用单一标量信号的漏洞,产生高对比度伪影、重复纹理或物理上不合理的运动,从而"欺骗"评论器,而不能真正提升用户满意度。因此,挑战在于设计能够 (i) 将低层信号(如一致性、物理性、几何)与高层人类偏好结合起来的奖励模型,(ii) 在图像、视频和 3D 场景之间泛化,(iii) 在防止奖励黑客攻击的同时保持足够廉价以便随着用户品味的变化持续更新。

6 结论

视觉强化学习已从孤立的概念验证转变为一个充满活力的研究前沿,连接了视觉、语言和动作。回顾表明,现代进展由三股力量推动:(i) 可扩展的奖励监督,从劳动密集型 RLHF 转向群体相对和可验证信号管道;(ii) 统一架构,在其中单一策略被联合优化以同时完成感知、推理和生成;(iii) 越来越丰富的基准,不仅衡量任务成功,还衡量与人类偏好的对齐以及策略稳定性。

然而,仍存在重大挑战。首先,数据与计算效率迫切需要提升:当前方法通常比监督方法需要多几个数量级的样本。其次,跨领域、跨视角和跨具身设置的稳健泛化仍然有限。第三,长时程、开放世界任务的奖励设计缺乏有原则的指导,存在奖励黑客攻击和不安全行为的风险。最后,评估标准必须发展,以涵盖现实世界的实用性、伦理对齐和能源足迹。解决这些问题可能需要更紧密地结合基于模型的规划、自监督视觉预训练、自适应课程和安全感知优化。

总之,视觉 RL 有望改变智能系统感知和与环境交互的方式。通过统一方法论见解并描绘尚未解决的问题,本综述旨在成为下一波研究的参考和催化剂,推动高效、可靠且社会对齐的视觉决策代理的发展。

参考文献

[1] Reinforcement Learning in Vision: A Survey

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

6 个 yyds 的 GitHub 开源项目,太优质了。

01 AI 加持的截图工具 AI 增强版截图开源工具。 能识别图中的公式、表格、代码,甚至翻译图片文字。 截个数学公式自动转 LaTeX 代码,拍张表格变 Excel,外语菜单秒翻译。 开源地址:https://github.com/xyTom/snippai 公式识别: 提...