2026年2月14日星期六

Agent World Model合成千个可执行环境,赋能智能体强化学习训练

通过代码驱动与SQLite数据库确保状态一致,并利用MCP接口统一交互

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Zhaoyang Wang等

解读:AI生成未来
图片
  • 文章链接: https://arxiv.org/abs/2602.10090v2
  • 代码链接: https://github.com/Snowflake-Labs/agent-world-model
图片

亮点直击

  • 大规模合成环境:提出了 Agent World Model (AWM) ,这是一套全自动的合成环境生成pipeline,扩展生成了 1,000 个涵盖日常场景的独特环境。
  • 代码驱动与状态一致性:不同于基于 LLM 模拟的环境,AWM 生成的环境是代码驱动的(Code-driven),并由 SQLite 数据库支持,确保了状态转换的可靠性和一致性。
  • 支持大规模强化学习:环境完全可执行且支持并行,通过 Model Context Protocol (MCP) 统一接口,实现了针对工具使用智能体的大规模多轮强化学习训练。

解决的问题

  • 现有环境缺乏多样性与可靠性:训练处理复杂任务的智能体需要多样化的环境。真实环境(Real-world environments)难以扩展且交互成本高昂;现有的合成环境(Synthetic environments)往往缺乏多样性,或者依赖 LLM 模拟状态转换,导致"幻觉"问题且推理成本高。
  • 强化学习训练的瓶颈:现有的基准测试(如 -bench 等)仅包含极少数环境,不足以支持通用的 AI 智能体训练,限制了大规模强化学习的应用。

提出的方案

  • AWM 生成pipeline:模仿软件开发流程,从高层场景描述出发,逐步生成用户需求(任务)、数据库架构、MCP 接口代码以及验证逻辑。
  • 代码增强的验证机制:为了解决合成环境中的评估难题,设计了结合代码检查与 LLM 裁判(LLM-as-a-Judge)的混合验证机制,利用数据库状态差异提供可靠的奖励信号。

应用的技术

  • 部分可观测马尔可夫决策过程 (POMDP) :将环境形式化为 POMDP,包含状态空间(SQLite 数据库)、动作空间(MCP 工具调用)、观测空间(工具返回结果)和转换函数(代码逻辑)。
  • Model Context Protocol (MCP) :利用 MCP 协议标准化智能体与环境的交互接口,使得生成的 35,000+ 个工具能够被智能体统一调用。
  • 自修正生成 (Self-Correction) :在生成数据库架构、样本数据和代码时,引入执行反馈循环。如果生成的代码运行失败,会将错误信息反馈给 LLM 进行修正。

达到的效果

  • 强大的泛化能力:在三个分布外(OOD)基准测试(-bench, BFCLv3, MCP-Universe)上,仅在 AWM 合成环境中训练的智能体展现出了强大的泛化性能。
  • 优于模拟器训练:相比于在 LLM 模拟环境中训练的智能体,在 AWM 可执行环境中训练的智能体性能更优,且训练延迟显著降低。
  • 规模效应:实验表明,随着训练环境数量从 10 个增加到 526 个,智能体的性能持续提升,证明了环境多样性对 Agentic RL 的重要性。

Agent World Model(AWM)

图片

AWM工作将环境合成为适合智能体强化学习的部分可观测马尔可夫决策过程 (POMDP)。每个环境  由五个部分组成:状态空间 ,动作空间 ,观测空间 ,转换函数 ,以及针对环境任务集  中每个任务  的特定奖励函数 。智能体的目标是通过多轮工具交互来完成任务。

场景生成

该工作利用现代 LLM 的广博世界知识来生成多样化的场景描述(如网站、应用程序或常用工具集),最初由 100 个流行域名作为种子。与浏览静态内容网站(如新闻、维基)的通用网络智能体不同,本工作专注于需要数据库交互而非单纯信息检索的有状态应用程序(如电子商务、CRM、管理系统)。

为了确保质量,采用了一套过滤流程:一个基于 LLM 的分类器筛选出涉及核心 CRUD 操作(创建、读取、更新、删除)的场景,同时通过基于嵌入(Embedding)的去重机制确保多样性。此外,还对过度代表的类别进行了限制,防止集合坍缩为少数几种主导类型。这一过程产生了 1,000 个独特的场景,涵盖金融、旅游、零售、社交媒体等领域。

任务生成

遵循软件工程原则,该工作随后合成用户任务,作为环境的功能需求。这些任务将指导后续合成步骤中必要的数据库实体和 API 端点的生成。对于每个场景,提示 LLM 生成  个不同的任务 ,涵盖场景的各种功能。

设计实施了两项原则:(1) API 可解性,避免纯 UI 依赖的操作(如点击、页面导航);(2) 后认证上下文(Post-authentication context),假设登录已完成,以便专注于深层功能而非访问控制,因为在现实设置中认证通常由人类处理。这产生了 10,000 个可执行任务,用于驱动环境后端的合成。

环境合成

给定场景描述及其任务集 ,通过实例化 POMDP 组件来合成可执行环境 。首先,通过生成 SQLite 模式(Schema)并填充合成样本数据来构建状态空间  和初始状态,这些数据支持  隐含的实体和约束。然后,生成一个通过 MCP 暴露的 Python 接口层,该层将动作空间  定义为工具调用,将观测空间  定义为工具响应。调用工具会运行读写数据库的操作,从而实现环境转换函数 。最后,合成验证逻辑以定义特定于任务的奖励函数 

环境组件

数据库 (Database) : 数据库将每个环境建立在具体且持久的状态之上。与并发工作使用的简化 NoSQL 或键值存储不同,本工作使用 SQLite 作为结构化关系状态的后端。LLM 推断出使每个任务可行所需的实体/属性/关系,仅在任务需要时生成表。模式定义了状态空间 ,并通过显式键和约束限制所有转换。然而,仅有模式是不够的,许多任务需要查询或更新现有记录。因此,该工作合成了实例化现实初始状态  的样本数据,确保  中的每个任务从一开始就是可执行的。

接口 (Interface) : 智能体不能在不破坏抽象的情况下直接操作数据库。本工作引入了一个通过 MCP 暴露的 Python 接口层,定义了动作空间  和观测空间 。采用两阶段方法:先设计工具集模式,然后生成代码。LLM 推断出使每个任务可执行所需的最小操作集,仅在必要时生成端点。模式还通过摘要、类型参数和响应模式作为智能体的文档。随后生成一个可执行的 Python 文件,其中每个端点成为一个 MCP 工具,工具执行触发数据库操作,实现转换函数 

验证 (Verification) : 为了完成 POMDP 规范,定义任务特定的奖励函数  以启用 RL 训练。为每个任务  设计了一个关联的验证模块,该模块将评估建立在环境状态之上。具体而言,该模块检查智能体执行前后的数据库状态,提取任务相关的信号以及描述如何解释状态差异的成功或失败标准。

然而,由于环境是完全合成的,验证有时可能会受到环境缺陷的影响(如状态更新不完整、意外执行失败等)。为了提高奖励的鲁棒性,最终决定由 LLM-as-a-Judge 做出,它结合了智能体轨迹与结构化的验证信号。LLM-as-a-Judge 通过利用轨迹层面的上下文来补充基于代码的检查,这有助于缓解由不完美环境信号引起的误判。最终,验证步骤返回 {Completed, Partially Completed, Agent Error, Environment Error} 之一。

这里产生一个自然的问题:为什么不完全依赖代码驱动的验证? 虽然这种方法很有吸引力,但它假设任务成功是可以完全明确规定且仅从状态就能可靠观测到的。在实践中,这种假设是脆弱的。即使是现实服务也会因瞬时故障或部分执行表现出不完美的行为;合成环境也不例外。本工作提出的代码增强型 LLM-as-a-Judge 通过将代码验证的精确性与 LLM 推理的灵活性和上下文感知相结合来解决这一问题。

基于执行的自修正。在上述所有合成步骤中,我们都采用了一种简单的自修正机制来处理生成错误。在生成环境的每个组件后,我们会尝试在一个隔离的环境中运行它并测试其功能。如果发生任何错误(例如运行时异常),我们会捕获错误信息,并将其连同有问题的代码片段一起反馈给 LLM,提示 LLM 重新生成修正后的版本。该过程最多重复五次迭代,或直到组件成功执行为止。在实践中,我们发现这种轻量级的重试策略在修复生成代码方面非常有效,无需更复杂的修正机制。

Pipeline结果与分析

图片
图片

通过 AWM,我们合成了 1,000 个可执行环境以及 10,000 个任务。表 1 展示了合成过程的统计数据。该pipeline实现了超过 85% 的成功率,且自修正机制平均仅需 1.13 次迭代即可完成修复,这证实了pipeline设计的合理性。表 2 报告了合成环境的复杂度。这些统计数据进一步表明,每个阶段生成的产物都具有相当的复杂性(non-trivial),远超简单的"玩具"环境。表 3 将 AWM 与现有的环境集进行了比较。我们的方法实现了最大的规模,其环境数量是最接近的同期工作 EnvScaler的 5 倍,且除了提供 100 个场景名称外,几乎不需要额外的人工参与。这表明通过 AWM 进行可执行环境的大规模合成既可行又具有成本效益。

智能体强化学习

利用合成的环境,我们使用组相对策略优化 (Group Relative Policy Optimization, GRPO) 对工具使用智能体(tool-use agents)进行在线强化学习。智能体交互涉及包含交错的观测和工具调用的长视程轨迹(long-horizon trajectories),这既需要精细的奖励设计,也需要训练与推理之间的对齐。

奖励设计

纯结果导向的奖励在数学推理中已显示出成功;然而,在智能体环境中,它们可能不足以或难以规范工具使用行为。因此,我们采用了一种混合奖励设计,结合了步骤级格式正确性与任务级结果验证。在每一步 ,我们检查工具调用是否遵循所需格式(见附录 A.4)。任何违规行为都会触发轨迹(rollout)的提前终止,并给予即时负奖励。这既抑制了无效动作,又节省了长视程多轮设置中的计算资源。当轨迹正常终止后,我们通过代码增强型 LLM-as-a-Judge 评估任务级结果,将最终奖励定义为:

图片

步骤级奖励  遵循以下规则:如果在步骤  发生提前终止,;如果轨迹正常终止, 将广播到所有动作步骤;否则 。这种设计在鼓励语法上有效的工具使用的同时,保留了结果驱动的优化。

历史感知训练

在部署智能体时,历史上下文通常由专用框架管理,该框架会策略性地截断长交互历史,以避免注意力汇聚(attention sink)问题并提高效率。然而,现有的 RL 训练pipeline可能使用完整历史来优化策略,从而导致训练和推理之间的分布不匹配问题。

令  表示完整的交互历史。在实践中,许多 RL 框架为了效率,会在一次模型前向传播中优化已完成轨迹中的所有动作:

图片

其中  是由  参数化的智能体,掩码(mask)选择动作 token 而忽略观测。然而在推理时,智能体可能基于截断的历史  进行调节,如果训练总是使用完整历史,这会导致分布偏移。为了解决这个问题,我们在优化过程中应用相同的截断,从而使训练与推理对齐。在 GRPO 框架下,对于环境  中的每个任务 ,我们采样一组  个轨迹 ,其中 ,并优化:

图片

其中  是根据轨迹奖励  计算出的组相对优势。该目标函数将轨迹拆分为多个独立的子轨迹,每个子轨迹都以其自己的截断历史为条件,从而确保与推理时执行的一致性。

实验总结

实验设置: 研究人员在三个工具使用和 MCP 基准上评估了智能体,以测试分布外(OOD)的泛化能力:(1) -bench(包含航空、零售和电信场景的多轮对话任务);(2) BFCLv3(全面的函数调用能力评估);(3) MCP-Universe(涵盖位置、金融、网页搜索等现实世界 MCP 服务器的集合)。

基线对比: 对比了以下基线:(1) Base(无额外训练的原始 LLM);(2) Simulator(在 LLM 模拟环境中训练的智能体,使用 GPT-5 作为环境转换模型,与 AWM 使用相同的任务和工具集,以突出可执行环境的优势);(3) EnvScaler(并发工作,通过编程合成环境)。

主要结果: AWM 在所有基准测试中均展现了最强的泛化能力。在 BFCLv3 上,AWM 提升了所有模型规模的性能,8B 模型总分从 53.83 提升至 65.94,超越了 Simulator 和 EnvScaler。在 -bench 上,AWM 表现与 EnvScaler 相当,且持续优于 Simulator。在 MCP-Universe 上,AWM 取得了最佳的整体结果,特别是在金融和位置类别上提升巨大。这些结果表明,在合成环境上的训练建立的鲁棒工具使用能力可以迁移到现实场景中。与 Simulator 的对比表明,基于编程的状态一致性提供了比 LLM 生成交互更稳定的学习信号,同时大幅降低了 RL 延迟。

图片
图片
图片

分析

  • 验证设计分析:代码增强(Code-augmented)策略优于仅代码(Code-only)或仅 LLM(LLM-only)的验证。混合设计结合了结构化状态信号和 LLM 推理,既能提供有据可依的证据,又能容忍不完美的环境信号。
  • 环境规模曲线:训练环境数量从 10 增加到 100 带来了显著收益,扩展到 526 个环境继续提升性能。这种单调提升突显了环境多样性对 Agentic RL 的重要性。
图片
图片

结论

Agent World Model (AWM),一个可扩展的pipeline,通过模仿实际软件开发过程来合成可执行的智能体环境。利用 AWM,本文成功扩展生成了 1,000 个环境,包含 35,062 个工具和 10,000 个任务。这些环境是代码驱动的,并由 SQL 数据库支持,通过统一的 MCP 接口暴露,支持并行隔离实例以进行大规模智能体强化学习(Agentic RL)。

在三个基准测试上的实验表明,在本文合成环境上训练的智能体能够很好地泛化到分布外领域,性能优于 LLM 模拟训练和并发的合成方法。本文相信,AWM 的 1,000 个合成环境及其可扩展的pipeline是社区的宝贵资源。

参考文献

[1] Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

macOS离线索提词器Textream:1。5MB大小,支持中文语音追踪

Summary: 开源工具Textream仅1.5MB,完全离线运行,利用本地语音识别实时追踪台词高亮,支持中文,可隐藏悬浮窗,需macOS15,保护隐私且免费,降低内容创作门槛。 这两年,「超级个体」和「知识分享」全面爆发,无论是录制教程、做播客还是搞直播,大家对出镜表达的...