OpenClaw-RL是首个通过自然交互进行强化学习的统一框架,支持个人智能体个性化优化与终端、GUI、SWE等通用智能体规模化训练。它利用交互中的下一状态信号,结合二元RL与后见之明蒸馏,实现边聊天边训练,无需人工标注。适用于AI开发者和研究者探索高效智能体训练方法。
Tags:
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Yinjie Wang等
论文链接:https://arxiv.org/abs/2603.10165 开源代码链接:https://github.com/Gen-Verse/OpenClaw-RL
亮点直击
挖掘"下一状态信号"的在线学习价值:首次提出智能体交互后产生的下一状态信号(如用户回复、工具输出、执行结果、GUI状态变化)不仅是下一步的上下文,更是富含"评估性"和"指导性"信息的天然在线学习源。 提出 OpenClaw-RL 统一基础设施:构建了首个能够统一处理多种并发交互流(包括个人对话、终端、GUI、SWE 和工具调用智能体)的异步强化学习架构。实现了策略服务、回放收集、PRM裁判和策略训练的完全解耦,确保服务零中断。
设计两种互补的信号恢复机制: 基于 PRM 的二元强化学习 (Binary RL) :将评估性下一状态信号转化为密集的标量过程奖励。 后见之明引导的同策略蒸馏 (Hindsight-Guided OPD) :通过提取文本提示并构建增强的教师上下文,将指导性信号转化为 Token 级别的方向性优势监督信号。 横跨个人与通用智能体的实证验证:证明了二元 RL 与 OPD 结合在个人智能体个性化中的显著增益,同时在大规模通用智能体任务中证实了过程奖励与结果奖励结合的有效性。
解决的问题
当前所有部署的 AI 智能体都在不断产生交互数据(动作 后的下一状态 ),但现有的智能体强化学习系统却将这些数据白白丢弃,或仅用作下一轮预测的上下文。这导致了两种形式的资源浪费:
浪费1(评估性信号):下一状态隐式包含了对前一个动作的评分(如用户重新提问代表不满意,代码测试通过代表成功)。现有的过程奖励模型 (PRM) 多依赖离线的人工标注数据,缺乏从在线交互中提取奖励的能力。 浪费2(指导性信号):下一状态往往包含了明确的修改指令(如报错信息提示了具体的修改方向)。现有的标量奖励强化学习无法将这些丰富的文本指导转化为模型 Token 级别的策略梯度。
提出的方案
本工作提出了 OpenClaw-RL,这是一个旨在回收上述两种被浪费信号的统一框架。对于个人智能体,它允许模型在用户的日常使用中自动完成优化;对于通用智能体,它利用云服务的并行环境规模化地进行训练。整体框架建立在完全解耦的异步架构(Slime)之上,模型在处理实时请求的同时,奖励模型同步进行评判,训练引擎同步更新权重,互不阻塞。
应用的技术
完全解耦的异步pipeline:使用 SGLang 进行策略服务与奖励评判,使用 Megatron 引擎进行策略训练,通过非阻塞式的日志记录与权重更新机制避免长序列任务对服务造成的长尾延迟。 多数投票机制驱动的过程奖励模型 (PRM) :在二元 RL 中,使用独立调用的裁判模型对 组合进行判断,通过多数投票输出标量奖励 。 后见之明引导的同策略蒸馏 (Hindsight-Guided OPD) : 提取提示:将下一状态信号 提炼为简明扼要的文本修正提示 (Hint)。 增强上下文:将该提示拼接至原输入形成增强上下文 。 Token级别优势计算:利用模型自身作为"知道答案的教师",计算优势 ,从而提供 Token 级别的调整方向。 混合奖励与目标函数 (PPO-style) :在个人智能体场景结合二元强化学习和 OPD 优势进行加权训练;在通用智能体场景融合终态结果奖励与逐步的过程奖励。
达到的效果
个人智能体场景:在模拟"学生写作业"和"老师改作业"的个性化场景中,通过结合 Binary RL 和 OPD 的优化,OpenClaw 仅需经过数次自然交互,评分即可在极短步数内(如 8 步/16 步)实现大幅跃升(学生场景得分从基线的 0.17 跃升至 0.81,老师场景从 0.22 跃升至 0.90),响应风格显著契合用户偏好。 通用智能体场景:框架成功扩展至 Terminal、GUI、SWE 和 Tool-call 场景的规模化 RL 训练中。在 Tool-call(250步)和 GUI(120步)这类长视野任务中,整合过程奖励的模型表现(精度分别为 0.30 和 0.33)明显优于仅使用结果奖励的模型(0.17 和 0.31)。
OpenClaw-RL 基础设施:面向个人和通用智能体的统一系统
本工作在一个统一的框架内实现了个人 OpenClaw 智能体的自动优化,以及涵盖终端、GUI、SWE 和工具调用设置的通用智能体的大规模 RL。
具有四个解耦组件的异步pipeline
OpenClaw-RL 的核心架构原则是完全解耦:策略服务、环境托管、PRM 裁判和策略训练作为四个完全独立的异步循环运行,它们之间没有任何阻塞依赖关系(图1)。
模型在为下一个用户请求提供服务的同时,PRM 正在对上一个响应进行评判,而训练器正在应用梯度更新;没有任何一个组件需要等待其他组件。正是这种设计使得从实时的、异构的交互流中进行连续训练成为可能:不需要为了适应另一个组件的调度而暂停或批处理任何数据流。
对于个人智能体,模型通过机密 API 连接以实现私密且安全的部署,这不需要对个人智能体框架进行修改,并且可以优雅地更新权重而不会中断推理。对于通用智能体的大规模训练,这种异步设计允许每个组件在不被阻塞的情况下继续进行,从而缓解了长视野 rollout 带来的长尾问题。
面向个人智能体的会话感知环境服务器
个人智能体的环境是用户的设备,它通过机密 API 连接到我们的 RL 服务器。每个 API 请求被归类为以下两种类型之一:
主线轮次 (Main-line turn) :智能体的主要响应和工具执行结果,这些构成了可训练的样本。 旁支轮次 (Side turn) :辅助查询、记忆组织和环境过渡,这些信息会被转发,但不产生训练数据。
这种分类允许 RL 框架精确地识别哪些轮次属于哪些会话,从而实现有针对性的训练。目前,本文仅对主线轮次进行训练。每一个新的主线请求的消息都包含了对前一轮次的反应,无论是用户的回复还是环境的执行结果。这就成为了用于前一轮次奖励计算的下一状态信号 。
可扩展性:从单用户个性化到大规模智能体部署
OpenClaw-RL 旨在跨越从单用户个人智能体到大规模多环境通用智能体部署的完整范围运行。对于个人智能体,环境是单个用户的设备,交互流是稀疏的、基于会话的且高度个性化的。建立在 slime 框架之上,OpenClaw-RL 继承了通用智能体的可扩展训练基础设施,本文进一步支持在多样化的智能体设置中在云端托管环境。在云服务上托管的数百个并行环境产生密集的结构化执行信号流,从而实现可扩展的 RL 训练。
支持多种现实世界场景
OpenClaw-RL 支持广泛的通用智能体场景,涵盖了本文开源实现中最常见的现实世界部署设置(表1)。终端智能体是计算机使用系统的核心组件:它们高效、易于扩展,并且天然契合 LLM 的基于文本的界面。GUI 智能体覆盖了终端智能体无法直接访问的能力,例如视觉界面和基于指针的交互,使其成为更通用的计算机使用任务的必需品。SWE 智能体代表了一类特别重要的编码智能体,其中环境通过测试、代码差异 (diff) 和静态分析提供了丰富的可执行反馈。工具调用智能体同样至关重要,因为外部工具能够提升推理能力和事实准确性。
非阻塞记录与可观测性
所有交互和奖励评估都实时记录为 JSONL 格式:完整的历史消息、提示词/响应文本、工具调用、下一状态内容、PRM单次投票得分、选定的提示 (OPD) 以及接受/拒绝决策。记录过程是非阻塞的,写入操作在后台线程中采用"即发即弃"(fire-and-forget) 模式,不会增加服务或 PRM 路径的延迟。日志文件在每次权重更新边界时会被清理,确保日志始终对应单一策略版本。
从下一状态信号中学习:跨交互类型的统一强化学习
本工作将异构交互流(包括个人对话、终端交互、GUI交互、SWE任务和工具调用追踪)中的下一状态信号转化为策略梯度。
面向个人智能体的二元强化学习
将评估性的下一状态信号转化为标量过程奖励。
通过多数投票构建 PRM 裁判
给定响应 和下一状态 ,裁判模型评估 的质量:
具体而言,PRM 根据用户的下一个响应或工具调用结果对每个动作进行评判。工具调用结果通常会得出明确的结论。用户的下一个响应可能包含满意或不满意的信号。如果没有明显的用户反应信号,模型也会根据场景进行估计,尽管通常鼓励用户提供更明确的反馈。对于通用智能体,裁判会推理环境的反馈是否指示了朝着任务目标取得的进展。本工作运行 次独立查询并采用多数投票 。
RL 训练目标
通过直接使用优势 ,训练目标是一个带有非对称边界的标准 PPO 风格的裁剪代理目标:
其中 ,,。请注意,这是一个实时的对话环境,因此没有 GRPO 那样的组结构可用于标准化。
面向个人智能体的后见之明引导的同策略蒸馏 (OPD)
将指导性的下一状态信号转化为 Token 级别的教师监督信号。
为何从下一状态信号中提取 Token 级别的监督信号?
二元 RL 将 的全部信息内容简化为一个标量 。然而,如果一个用户写道"你应该在编辑文件之前先检查它",这传达的信息远不止是这个响应错了,它还传达了哪些 token 应该被替换以及如何替换。这种指导性信息在标量奖励中完全丢失了。
OPD 通过将下一状态信号转化为 token 级别的训练信号来恢复这些信息。核心洞察在于,如果我们用从 中提取的文本提示来增强原始提示词,同一个模型会产生不同的 token 分布,一种"知道"正确响应应该是什么的分布。这种增强的提示分布与学生分布之间的 per-token 差异提供了一个方向性优势:在模型应提高权重的 token 处为正,在应降低权重的 token 处为负。这与 RLHF(使用标量偏好信号)、DPO(需要成对偏好)以及标准蒸馏(需要独立的、更强的教师模型)有本质的区别。
Token 级别的 OPD
第一步:后见之明提示提取。
如果 score ,裁判将在 [HINT_START]...[HINT_END] 中生成一个简明的提示。本文运行 个并行的裁判调用。一个关键的设计选择是:本工作不直接使用 作为提示。原始的下一状态信号往往是嘈杂的、冗长的,或者包含不相关的信息(例如,用户的回复可能同时包含一个修正和一个不相关的新问题)。裁判模型将 提炼为一个简明扼要、可操作的指令,分离出指导性内容,通常是 1-3 句话,侧重于响应本应以何种不同方式处理。
第二步:提示选择与质量过滤。 在提示内容长度 > 10 个字符的正向投票中,选择最长的(信息量最丰富的)那一个。如果不存在有效的提示,则完全放弃该样本,这是刻意为之的。OPD 用样本数量换取信号质量:只有那些下一状态信号带有清晰、可提取的修正方向的轮次才会进入训练。这种严格的过滤与二元 RL 形成了互补:二元 RL 用粗粒度信号提供广泛的覆盖,而 OPD 在较少的样本上提供有针对性的、高分辨率的监督。
第三步:增强教师上下文构建。 将该提示附加到最后一条用户消息之后,形式为 [user's hint / instruction]\n{hint},创建了一个增强的提示词 ,这相当于如果用户预先提供了修正,模型"本应该看到的"上下文。
第四步:Token 级别优势。 策略模型在 下使用原始响应 作为强制输入进行查询,计算每个响应 token 的对数概率。然后,我们得到同策略蒸馏中的 token 级别优势:
当 时:教师(已知该提示)赋予此 token 更高的概率——学生应当增加其概率。当 时:教师认为在给定提示的情况下此 token 不太合适——学生应当降低其概率。与推动所有 token 朝同一方向发展的标量优势不同,它提供了逐个 token 的方向性指导:在单个响应中,某些 token 可能被强化,而其他 token 则被抑制。训练过程遵循与公式相同的裁剪代理目标,但现在的优势信号在每个样本中携带了丰富得多的信息。
结合二元与 OPD 方法
发扬彼此的优势,弥补彼此的劣势。
二元 RL 和 OPD 方法是互补的,而非竞争的。二元 RL 接受每一个被计分的轮次,无需提示提取,且适用于任何下一状态信号,包括简短的隐式反应(用户直接重新提问)或结构化的环境输出(退出码、测试判定)。OPD 应当作为一种补充在交互流可能携带丰富指导内容的场景开启:给出明确修正的用户("不要使用那个库","先检查文件"),或产生详细错误追踪的环境(SWE代码差异,编译器诊断)。在实践中,本文建议同时运行两者:二元 RL 跨越所有轮次提供广泛的梯度覆盖,而 OPD 则在可获取指导性信号的子集轮次上提供高分辨率的 per-token 修正。
因此,本文建议通过加权损失函数将这两种互补的方法结合起来。请注意,它们共享相同的 PPO 损失,只有优势的计算不同。所以,我们可以直接使用以下优势:
其中,默认 。在实验中,本文展示了这种方法取得了显著的性能增益。
面向通用智能体强化学习的逐步奖励
如何整合结果奖励与过程奖励?
为什么过程奖励对智能体任务至关重要
在长视野的智能体任务中,仅有结果的奖励只在最终步骤提供梯度信号,而绝大多数轮次缺乏监督。PRM 根据下一状态信号为每轮分配奖励,在整个轨迹中提供密集的信用分配。近期的工作为此提供了强有力的实证证据。RLAnything 证明,将逐步的 PRM 信号与结果奖励整合,在 GUI 智能体、文本游戏智能体和编码任务中的表现始终优于仅使用结果的训练。OpenClaw-RL 直接建立在这一洞察之上:本工作中的 PRM 将实时的下一状态信号作为证据来评判每个轮次,并在实证部分 (§5.4) 证明这种密集的信号对长视野 RL 设置是有帮助的。
整合结果和过程奖励
可验证的结果是 RLVR 设置中的标准监督信号。遵循 RLAnything 的方法,本工作通过简单的累加将结果和过程奖励结合起来,使用 作为第 步的奖励,其中 是由 独立分配的。与 GRPO 不同,逐步奖励的存在使得计算优势不再那么直接。虽然前人将相似状态分组并在每组内进行标准化,但在诸如终端智能体等真实的场景中,状态不容易被聚类。因此,本文直接对具有相同步索引的动作进行分组,并在实证研究中发现这是有效的。
实验
本工作沿着共享相同基础设施和训练循环的两条互补轨迹对 OpenClaw-RL 进行了评估。§5.3 评估了个人智能体轨迹,证明会话型的下一状态信号能够实现针对个人用户偏好的持续个性化。§5.4 评估了跨终端、GUI、SWE 和工具调用设置的通用智能体轨迹,证明相同的基础设施支持跨多样化智能体场景的可扩展 RL,并且逐步奖励对长视野任务至关重要。
个人智能体设置
模拟结果证实了我们优化的有效性。
使用 OpenClaw 做作业的学生
——不想被发现使用了 AI 在这个设置中,本文使用一个 LLM 来模拟一个在个人电脑上使用 OpenClaw 完成作业,同时又试图避免被视为依赖 AI 的学生。响应是否看起来像人工智能生成的,完全取决于学生的个人喜好和写作风格。学生不断与 OpenClaw 互动并寻求作业帮助。作业任务提取自 GSM8K。此设置下使用的 OpenClaw 策略模型是 Qwen3-4B。本文将学习率设置为 ,KL 系数设置为 0,并在每收集 16 个训练样本后触发训练。
使用 OpenClaw 批改作业的老师
——希望评语具体且友好 学生在文件中完成作业后,老师也会使用 OpenClaw 对这些 AI 写的作业进行打分。老师希望对学生的评价是具体且友好的。OpenClaw 策略模型同样是 Qwen3-4B,并使用了相同的优化设置。
通用智能体设置
模型
在终端、GUI、SWE 和工具调用设置中,分别使用 Qwen3-8B、Qwen3VL-8B-Thinking、Qwen3-32B 和 Qwen3-4B-SFT。其中,Qwen3-4B-SFT 指的是在特定数据集上微调后的模型。GUI 和工具调用智能体的 PRM 分别是 Qwen3VL-8B-Thinking 和 Qwen3-4B。
数据集
分别使用 SETA RL数据、OSWorld-Verified、SWE-Bench-Verified 以及 DAPO RL 数据来训练终端、GUI、SWE 和工具调用智能体。GUI 智能体在训练集(排除了 chrome 和多应用任务)上进行评估。工具调用智能体在 AIME 2024 上进行评估。对于终端和 SWE 智能体,本文报告了一段 RL 步数窗口内的平均 rollout 任务准确率。
超参数
本文将学习率设置为 ,KL 系数设置为 0.01,下限裁剪比例为 0.2,上限裁剪比例为 0.28。对于 GUI 和 SWE 设置,每步采样 8 个任务,而对终端和工具调用设置,分别采样 16 个和 32 个任务。对于每个任务,独立抽取 8 个样本。GUI、SWE 和终端的最大交互步数分别为 30、20 和 10 步。
个人智能体轨迹:从对话信号中学习
核心结论 [Q1]:二元 RL 对比 OPD —— 它们各自何时更有效?本文发现组合方法实现了最有效的优化,同策略蒸馏 (OPD) 表现优于二元 RL,但由于训练样本的稀疏性,它需要更长的时间才能显现其效果(表3)。
为了对比不同方法,本文使用与用户模拟相同的 LLM(针对学生和老师设置)对 OpenClaw 生成的第一个解决方案进行量化个性化评分。报告了 GSM8K 中前 36 个问题的平均分。如表3所示,结合方法取得了最强的优化性能。由于训练样本稀疏,同策略蒸馏显示出延迟的增益,而仅使用二元 RL 只能提供边际改善。
核心结论 [Q2]:OpenClaw-RL 是否能随着时间推移改善个性化?本文发现,在组合优化方法下,OpenClaw 仅需学生设置中的 36 次解题交互,以及老师设置中的 24 次批改交互,即可实现显著且肉眼可见的改进(图2)。
本文还包含了一些具体的例子来说明优化的有效性及其起效速度。在经历了 36 次学生设置的解题交互后,该智能体学会了避免明显带有 AI 特征的短语,比如使用诸如"粗体"之类的词语或产生过度结构化、循序渐进的响应。相反,它转向了更自然、随意的风格。在老师设置的 24 次打分交互后,该智能体学会了写出更友好、更详细的反馈。
通用智能体:跨终端、GUI、SWE 和工具调用的统一强化学习
核心结论 [Q3]:OpenClaw-RL 作为通用的智能体强化学习框架是否具有竞争力?本文证明了我们的框架能够处理多种真实世界的设置,包括终端、GUI、SWE 和工具调用智能体,并支持跨越不同模型大小和模态的大规模环境并行化(图4)。
本工作跨越广泛使用的、真实的智能体设置(包括终端、GUI、SWE 和工具调用场景)开展了实验。大规模的环境并行化进一步提升了 RL 训练的可扩展性。具体来说,在强化学习训练期间,本文在终端智能体使用了 128 个并行环境,在 GUI 和 SWE 智能体中使用了 64 个,在工具调用智能体中使用了 32 个。
核心结论 [Q4]:过程奖励模型对长视野任务至关重要吗?结合结果与过程奖励的优化效果强于仅使用结果奖励的优化效果,尽管托管 PRM 需要额外的资源(表4)。
本文在工具调用(250 步)和 GUI(120 步)设置下开展了混合奖励的强化学习训练,发现结合结果奖励与过程奖励可以进一步提高性能(表4)。随之而来的代价是:相比仅依赖结果的优化,托管 PRM 会带来额外的资源开销。
结论
智能体的每一次交互都会产生一个下一状态信号,该信号编码了智能体的表现情况,往往还包含了它本应以何种不同方式采取行动的信息。OpenClaw-RL 建立在一个单一洞察之上:这些信号与所处的数据流环境无关,同一个策略能够同时从所有这些信号中进行学习。个人对话、终端执行、GUI交互、SWE任务以及工具调用追踪全部汇入同一个训练循环中。二元 RL 将评估性信号转换为标量过程奖励,而 OPD 将指导性信号转换为 Token 级别的优势监督信号。两者结合能产生显著的优化增益。最终呈现的是一个这样的系统:模型在持续个性化适应独立用户的同时,也在长视野通用智能体任务上不断进步,而所有这一切的训练,完全来源于模型当下正在进行的自然交互。
参考文献
[1] OpenClaw-RL: Train Any Agent Simply by Talking
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论