英伟达推出的DreamZero世界动作模型(WAM)基于14B参数视频扩散主干,通过联合预测视频与动作,在机器人任务中实现超过2倍的零样本泛化能力提升。该模型支持从多样化非重复数据中学习,无需大量专家演示,并展示了高效的跨本体迁移能力(仅需10-30分钟视频数据)。通过系统与模型优化,推理速度提升38倍,在2台GB200服务器上实现7Hz实时闭环控制。
Tags:
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Yunhao Ge等
论文链接:https://arxiv.org/abs/2602.15922 项目主页:https://dreamzero0.github.io/ 开源代码:https://github.com/dreamzero0/dreamzero
亮点直击
DreamZero,一个基于预训练视频扩散主干的14B参数 World Action Model (WAM),实现了超过 2× 的零样本泛化能力提升。相比当前最先进的 VLA(Vision-Language-Action)模型,DreamZero 在未见任务和环境泛化方面表现优异,平均任务进度提升超过一倍。
DreamZero 支持从多样化的非重复机器人数据中有效学习,打破了通用机器人策略需要多次重复演示的传统认知。实验表明,数据多样性对泛化能力至关重要,使用 500 小时多样化数据训练的模型比使用 500 小时重复数据的模型表现显著更好(33% → 50%)。
实现了 38× 的推理加速,通过模型级、系统级和实现级优化,使 14B 参数的模型能够在 2 台 GB200 服务器上实现 7Hz 的实时闭环控制。
展示了高效的跨本体迁移能力,包括从人类或机器人视频数据中学习(仅需 10-20 分钟数据即可带来超过 42% 的相对提升),以及仅用 30 分钟的玩耍数据实现新本体的少样本适应。
解决的问题
现有的 Vision-Language-Action (VLA) 模型虽然在语义泛化方面表现出色,但存在以下关键局限:
物理动作泛化能力不足:VLA 模型难以泛化到未见的物理动作和新环境。例如,VLA 可以成功执行"将可口可乐罐移到泰勒·斯威夫特附近"这样的任务(利用 VLM 预训练期间获取的网页知识来识别目标位置),但对于"解开鞋带"这样的任务,如果该特定技能不存在于机器人训练数据中,模型就会失败。
依赖于重复的专家演示:传统观点认为通用机器人策略需要针对每个任务收集大量重复演示,这种数据收集方式效率低下且难以扩展。
缺乏精确的空间感知和物理动态理解:虽然 VLM priors 在语义层面编码了"做什么",但缺乏与几何、动态和电机控制对齐的精确空间感知,无法理解动作应如何以精确的空间意识执行。
跨本体学习能力有限:从不同本体(如人类或不同机器人)的视频中学习能力受限。
提出的方案
本文提出 World Action Model (WAM) 架构,通过联合预测视频和动作,利用视频作为世界演化的密集表示来学习物理动态。具体方案包括:
联合视频-动作预测:训练一个端到端模型,以共享目标联合去噪视频和动作,确保模态之间的深度集成。这种设计使视频预测作为隐式视觉规划器来指导动作生成。
自回归架构:采用自回归架构并利用闭环设置——在每个动作 chunk 执行后,用真实观测替换预测帧到 KV 缓存中,消除误差积累,同时通过 KV 缓存实现高效推理并保持原生帧率以实现精确的模态对齐。
解耦的视频-动作去噪调度(DreamZero-Flash):通过在训练时将视频时间步偏向高噪声状态,使模型能够从噪声视觉上下文中预测干净动作,从而在推理时减少去噪步骤数量。
实时推理优化:配合系统级并行、缓存策略和低层次优化实现实时推理。
应用的技术
本文应用的主要技术包括:
Flow Matching 训练目标:采用 flow-matching 作为训练目标,在训练开始时视频和动作模态之间共享去噪时间步以实现更快的收敛 自回归 DiT 主干网络:使用 Wan2.1-I2V-14B-480P(14B 图像到视频扩散模型)作为主干网络 视频 VAE 编码:将视频编码为潜在向量 文本编码器:使用预训练的文本编码器处理语言指令 状态编码器:处理本体感知状态(proprioceptive state) Teacher Forcing 训练策略:模型被训练去噪当前 noisy chunk,条件是之前的 clean chunk KV 缓存:利用 KV 缓存实现高效推理 模型量化:在 Blackwell 架构上使用 NVFP4 量化 CUDA 内核调优:使用 cuDNN 后端进行注意力计算 异步执行机制:将推理与动作执行解耦 DiT 缓存:利用 flow matching 中速度向量的方向一致性来缓存计算结果
达到的效果
本文在 AgiBot 和 DROID 基准测试中取得了以下效果:
预训练泛化:DreamZero 在环境泛化和任务泛化方面相比 VLA 基线提升超过 2 倍(在 AgiBot G1 上达到 62.2% vs 27.4% 的平均任务进度) 后训练泛化保留:WAM 在后训练中保留泛化能力,在三项任务(衬衫折叠、水果包装、餐桌清理)上匹配或超越 VLA 基线 跨本体迁移:使用 10-20 分钟视频-only 数据即可带来超过 42% 的相对提升 少样本本体适应:仅需 30 分钟玩耍数据即可实现新本体的零样本泛化 推理速度:在 2 台 GB200 服务器上达到 7Hz 的实时闭环控制
DreamZero 架构方法
预训练视频扩散模型提供了来自网络规模数据的丰富时空先验,使其成为机器人策略的有吸引力的主干网络。然而,将这些模型转化为有效的 World Action Model (WAM) 面临三个关键挑战:
第一个挑战是视频-动作对齐问题。联合预测视频和动作需要视觉未来与电机命令的紧密耦合,但仅简单组合单独的视频和动作头会导致模态错位。
第二个挑战是架构设计问题。尚不清楚双向或自回归架构哪个更适合 WAM,这对模态对齐、误差积累和推理效率都有影响。
第三个挑战是实时推理问题。视频扩散模型需要跨高维潜在空间进行迭代去噪,使其对于闭环控制来说速度过慢。
DreamZero 通过三个设计选择来应对这些挑战。首先,本文训练一个端到端模型,以共享目标联合去噪视频和动作,确保模态之间的深度集成。其次,本文采用自回归架构并利用闭环设置:在每个动作 chunk 执行后,用真实观测替换预测帧到 KV 缓存中,消除误差积累,同时通过 KV 缓存实现高效推理并保持原生帧率以实现精确的模态对齐。第三,本文引入了一套系统级、实现级和模型级优化,实现了 38× 的推理加速,使实时控制达到 7Hz。
模型架构
问题定义。DreamZero 联合预测视频 和动作 ,条件包括语言指令 、本体感知状态 以及包括当前和过去历史的视觉观测 ,其中 是固定视野, 是从轨迹中随机采样的索引。注意,视频和动作的联合预测是以下两者的分解:(1)自回归视频预测;(2)来自逆动力学模型(IDM)的动作预测:
本文不使用两个单独模型(视频预测模型和逆动力学模型)来建模分解目标,而是用一个端到端的联合预测目标训练单个模型。本文相信这种端到端设计能够通过两种模态的深度集成实现更好的视频-动作对齐。由于预训练视频模型已经针对多样化网络规模数据优化了视频预测目标,DreamZero 只需要额外学习为机器人本体视频预测视频并从生成视频中提取相应动作。本文进一步假设,这比从 VLM 训练 VLA 的常规做法能鼓励更好的泛化,因为本方法明确地从用作条件输入和预测目标的视频帧中学习时间动态。
模型架构。模型架构如图 4 所示。为了保留视频模型的泛化能力,本文引入了最少的额外参数:状态编码器、动作编码器和解码器。对于包含多个视角的机器人训练数据,本文将所有视角拼接成单帧,而非对主干网络进行架构修改。
具体而言,DreamZero 被训练以自回归方式预测视频帧和相应动作。自回归生成具有以下优势:(1)通过利用 KV-cache 实现更快的推理速度;(2)策略模型可以利用视觉观测历史作为下一步生成的指导;(3)避免双向模型固有的模态对齐挑战(视频、动作和语言对齐)。通常,双向扩散需要处理固定长度序列,这常常需要视频子采样以扭曲原生 FPS,可能损害视频-动作对齐。另一方面,自回归生成利用 KV 缓存支持单次前向传递中的任意长上下文。这保留了原生帧率,确保视频帧和机器人动作之间的精确对齐。本文在附录 C 中提供了不同模态 QKV 注意力掩码策略的更多细节。
本文仅对视频模态引入自回归建模,以避免闭环动作预测中的误差传播。DreamZero 以 chunk 方式训练预测视频帧;每个 chunk 有固定数量的潜在帧 以匹配动作视野。Chunk-wise 生成能够在可变长度视频上进行训练,类似于语言模型在可变长度语言标记上的训练方式。
训练目标。与最近的视频扩散模型和 VLA 类似,本文采用 flow-matching 作为训练目标。与最近的 WAM 不同,DreamZero 在训练开始时在视频和动作模态之间共享去噪时间步以实现更快的收敛。此外,本文应用 teacher forcing 作为训练目标;模型被训练去噪当前 noisy chunk,条件是之前的 clean chunk。
形式上,给定 chunk 索引 和去噪时间步 ,本文将原始视频 的 noisy video latent 表示为 ,将归一化动作表示为 。同一 chunk 内的所有帧共享相同的时间步 ,而不同的 chunk 被分配独立的时间步。本文的模型对 和 进行去噪,定义为 clean 向量和随机高斯噪声之间的线性插值:
其中 ,, 和 分别是 clean video latent 向量和归一化动作。因此,之前 chunks 的 clean context 可以表示为 。
本文训练模型 使用以下 flow-matching 目标预测两种模态的联合速度:
其中 是 的预定义权重函数, 是文本条件, 是第 个 chunk 的本体感知状态,速度 。为了实现高效训练,本文执行轨迹级更新并应用注意力掩码,使当前 noisy chunk 能够关注之前 chunks 的 clean context。
模型推理。如图 4 所示,在推理过程中,DreamZero 联合去噪视频和动作 chunks,利用 KV 缓存提高效率。与纯视频生成不同,本文的闭环设置允许在每次动作执行后用真实观测替换 KV 缓存中的生成帧。这消除了自回归视频生成固有的误差累积问题——这是 WAM 独有的关键优势。此外,作为有状态策略,DreamZero 可以利用视觉历史来完成需要记忆的任务。
DreamZero 的实时执行
基于扩散的 WAM 从视频基础模型继承了强大的泛化能力,但其迭代去噪过程与响应式机器人控制之间存在根本性矛盾。本文回答两个问题:(1)什么阻止了 WAM 成为响应式策略?(2)如何解决以实现实时控制?
响应性差距
响应式策略必须在几十毫秒内响应环境变化。DreamZero 在单 GPU 上的朴素实现每个动作 chunk 需要约 5.7 秒,这是由于三个瓶颈:(1)平滑动作所需的 16 步迭代去噪;(2)14B 参数 DiT 主干网络的计算成本;(3)推理过程中阻塞机器人运动的顺序执行。这种延迟使闭环控制不可行。
异步闭环执行
解决这个问题的第一步是通过异步执行将推理与动作执行解耦。运动控制器不在等待每次推理完成,而是在推理同时对最新观测并发执行时连续执行最近的动作 chunk。这种结构将延迟约束从"推理必须在机器人移动之前完成"转变为"推理必须在当前动作 chunk 过期之前完成"。在实验中,本文以 48 步动作视野在 30Hz 控制频率(每 chunk 1.6 秒)部署双手机器人策略。因此,本文将推理延迟目标设定为低于约 200ms,以确保平滑、响应式控制的足够重叠。
系统级优化
给定异步执行结构,本文通过并行化和缓存优化推理吞吐量。
CFG 并行化:分类器-free 引导(Classifier-free guidance)需要两次前向传递(条件和无条件)。本文将这些分配到两个 GPU 上,将每步延迟减少 47%。 DiT 缓存:本文利用 flow matching 中速度预测的方向一致性。当连续速度之间的余弦相似度超过阈值时,本文重用缓存的速度,将有效 DiT 步骤从 16 步减少到 4 步,而动作预测质量损失最小。
实现级优化
本文通过编译器和内核增强进一步减少延迟。
Torch Compile 和 CUDA Graphs:本文应用 torch.compile 配合 CUDA Graphs 以消除 CPU 开销并融合算子。静态形状导致仅在第一条轨迹期间重新编译。 后训练量化:在 Blackwell 架构上,本文将权重和激活量化到 NVFP4,同时将敏感操作(QKV、Softmax)保持在 FP8,非线性操作保持在 FP16。 内核和调度器增强:本文将注意力用于 cuDNN 后端,并将调度器操作迁移到 GPU 以消除 CPU-GPU 同步停顿。
模型级优化:DreamZero-Flash
即使有系统优化,扩散步骤的数量仍然是主要的延迟瓶颈。然而,朴素地减少步骤会降低动作质量,因为残留的视觉噪声会传播到动作预测中。DreamZero-Flash 通过在训练期间解耦视频和动作噪声调度来解决这个问题。关键洞察是,在推理时,动作应该去噪到最终值,同时以当前 chunk 内仍然是噪声的视频表示为条件,因为步数很少(例如少于 4 步)时,生成的视频 token 可能仍然不准确,从而提供噪声条件信号。
标准 DreamZero 对两种模态采样共享时间步 。这造成了训练-测试不匹配:在训练期间,模型学习在视频和动作处于相同噪声水平时预测动作,但少步或单步推理需要在视频仍部分噪声时预测干净动作。
DreamZero-Flash 通过将视频时间步偏向高噪声状态来弥补这一差距,公式为 ,其中 且 。在实践中,本文使用 Beta(7, 1) 作为示例配置,期望 (主要为噪声),而动作时间步保持均匀分布(图5)。在训练期间,这使模型暴露于必须从噪声视觉上下文预测干净动作的配置,直接匹配少步或单步推理制度。结果是将扩散步骤从四步减少到一步,将推理从约 350ms 削减到约 150ms,而性能损失最小。此外,Flash 公式支持灵活的训练配置——例如改变视频和动作的噪声采样比——以更好地与不同的少步或单步推理制度对齐。在实践中,本文主要将 Flash 训练作为主要 DreamZero 模型训练之后的最终阶段应用。
动作 Chunk 平滑:为了抑制生成动作中的高频噪声,本文将 chunks 上采样到 2 倍分辨率,应用 Savitzky-Golay 滤波器,然后下采样到原始分辨率。
总结
表 1 总结了累积加速。系统和实现优化在 H100 上产生约 9× 加速,在 GB200 上产生约 16× 加速;加入 DreamZero-Flash 在 GB200 上达到 38× 加速,将延迟从 5.7 秒减少到 150ms。
实验设置
在两种机器人实体上验证了关于从多样化数据学习的主要假设:AgiBot G1移动双臂操作器和Franka单臂机器人。为每种实体单独进行预训练,将多实体训练留待未来工作。对于跨实体实验,利用YAM机器人和人类第一人称数据。AgiBot G1的实验设置如图7所示。
将DreamZero与两个最先进的视觉-语言-动作模型(VLA)进行比较:GR00T N1.6和 。对于每个基线,评估两种初始化策略:(1)从零开始,使用预训练的VLM权重但不进行先前的机器人数据训练,以便与DreamZero进行公平的对比;(2)从预训练开始,使用在数千小时跨实体机器人数据上预训练的官方检查点。然后,两种变体都在与DreamZero相同的数据上进行训练:为AgiBot G1收集的约500小时远程操作数据,以及用于Franka的DROID。通过匹配总批量大小和梯度步数来保持所有方法的计算预算相当。
预训练
数据:本工作的数据收集理念与现有VLA不同。虽然最近的工作表明VLA可以从中等规模的数据集中学习有效的策略,但这些方法通常依赖于结构化的、以任务为中心的演示来确保一致的行为。本工作假设,仅学习预测动作而不编码关于未来世界状态的知识,使得难以有效地利用高度异构的、非重复性的数据,因为模型必须从嘈杂的状态-动作对中隐式推断动态。相反,假设DreamZero的世界建模目标能够从多样化的演示中有效学习,使本工作能够在数据收集过程中优先考虑广度和实用性而非重复性。
使用AgiBot G1,收集了大约500小时的远程操作数据,涵盖22个独特的环境(见图15),包括家庭、餐厅、超市、咖啡店和办公室——优先考虑任务多样性和现实世界实用性而非特定任务的重复。如图6所示,每个回合平均约4.4分钟,包含大约42个子任务——明显比典型的机器人操作数据集具有更长的时域。技能分布反映了现实世界的部署需求:导航使工作空间之间的移动成为可能,而躯干调整允许与不同高度的物体(架子、柜子)进行交互。
还使用DROID在Franka单臂机器人上验证DreamZero,这是最异构的公开可用机器人数据集之一,用于展示WAM在多样化开源数据上的有效性,并在内部AgiBot数据集发布之前实现可复现性。本工作开源检查点和推理代码,以便在PolaRiS中运行一些DROID模拟评估。
训练:使用Wan2.1-I2V-14B-480P,一个14B图像到视频扩散模型,作为DreamZero的骨干网络。本工作对AgiBot训练100K步,全局批量大小为128;对DROID数据集训练100K步,全局批量大小为128。本工作更新所有DiT块、状态编码器、动作编码器和动作解码器,同时冻结文本编码器、图像编码器和VAE。
本工作尝试了LoRA,但发现它导致次优结果。
对于两个数据集,本工作过滤掉空闲动作,并使用相对关节位置作为默认动作表示。本工作还在第5.2节中进行了一些消融实验,从Wan2.1-I2V-5B-480P初始化以观察模型大小的影响(5B vs. 14B)。
评估协议:本工作在预训练后直接评估模型。本工作的默认评估设置是未见环境、未见物体——因为本工作的预训练和后训练数据是在与评估地点不同的地理位置收集的,每个基准测试本质上都是测试分布外泛化而非训练分布内的插值。本工作评估两个类别:已见任务和未见任务。本工作将任务的粒度定义为任务所需的运动和物体类型的组合。例如,如果训练数据包含折叠红色衬衫并且评估模型折叠不同尺寸的黑色衬衫,这被视为已见任务。另一方面,如果本工作评估模型折叠袜子,这被视为未见任务,因为折叠袜子所需的运动与折叠衬衫不同(样本见图7)。
AgiBot评估协议:对于已见任务,从预训练分布中选择10个任务,包括各种放取变体、堆叠、擦拭和折叠;在4台机器人上每个任务运行8次滚动评估,每台机器人在不同的环境和不同的物体中(每个检查点总共80次滚动评估)。本工作将10个已见任务分为三类:PnP-Easy(放取水果、清理混乱、从袋中取出水果)、PnP-Hard(放取叉子/勺子、将笔放入笔筒、将杯子放在杯垫上、成排堆叠碗/杯子)和接触丰富型操作(折叠衬衫、折叠短裤、堆叠衣物)。对于未见任务,本工作评估10个训练中不存在的任务——如熨烫、绘画、拉车、立方体堆叠、从人体模型上取下帽子、解开鞋带——在4台机器人上每个任务运行8次滚动评估(每个检查点总共80次滚动评估)。
DROID评估协议:本工作评估20个已见任务和20个未见任务(DROID中不存在的动词),每个任务执行2次滚动评估,每个检查点总共80次滚动评估,涵盖40个任务。将DreamZero与公开发布的和内部训练的GR00T N1.6-DROID检查点进行比较。物体位置在各检查点间固定以确保公平性。每次滚动评估的得分从0到1.0基于部分任务完成度计算;
后训练
除了预训练,还使用AgiBot机器人评估WAM是否改善任务特定数据上的微调性能。
数据:在三个下游任务上收集后训练数据:
衬衫折叠(33小时):通过5个连续阶段折叠一件平整的T恤。本工作在2种衬衫类型上随机化初始衬衫位置。 水果装箱(12小时):将10个水果从桌子上装入袋子。本工作随机化水果组合以及水果和袋子的位置。 餐桌收拾(40小时):将5件垃圾清理到垃圾桶中,将5件餐具(盘子、碗、叉子和勺子)清理到餐具箱中。本工作随机化物体类型、组合和位置。
训练:每个任务后训练50K步。与预训练一样,本工作更新除文本编码器、图像编码器和VAE之外的所有参数。
评估协议:测量每个任务10次滚动评估的平均任务进度。任务进度定义为:(1)衬衫折叠:完成的折叠阶段数(共5个阶段),(2)水果装箱:成功装箱的水果数(共10个)和(3)餐桌收拾:清理的物品数。按照Barreiros等人(2025)的方法,本工作对初始场景应用图像叠加以减少方差。
实验结果
主要结果
在PnP Easy、PnP Hard和接触丰富型任务上评估预训练模型的零样本泛化性能,并与基线模型进行比较,调查以下研究问题:
Q1. WAM是否能从多样化、非重复性数据中更好地学习?
本工作在预训练数据中存在的任务上评估预训练模型,但在未见环境的零样本设置下使用未见物体。结果如图8所示。
在AgiBot G1上,从零开始训练的VLA在所有类别上的任务进度得分接近零。即使在简单的放取任务(PnP Easy)上,VLA偶尔也会朝正确的物体方向移动,但无法准确地与未见环境中的未见物体进行交互。相比之下,DreamZero成功地从异构数据中学习,实现了62.2%的平均任务进度——比最佳预训练VLA基线(27.4%)高出2倍以上,尽管这些基线在继续训练本工作的数据混合之前,已经在数千小时的跨实体机器人数据上进行了预训练。在DROID-Franka上,本工作也展示了类似的结果;仅在DROID数据集上训练的DreamZero优于在多机器人实体数据上训练的预训练基线模型。
将这一差距归因于联合视频-动作公式:虽然VLA需要大量机器人数据来学习直接的观察到动作映射,但WAM利用视频生成作为动作预测的强先验,实现从多样化数据中有效学习并泛化到未见环境。值得注意的是,本工作观察到生成的视频与真实世界执行之间存在紧密的对齐,即使对于次优行为也是如此(图16)。大多数DreamZero的失败源于视频生成错误而非动作预测——策略忠实执行视频预测的任何轨迹。这表明改进视频骨干网络将直接转化为更好的WAM性能。
Q2. WAM能否泛化到未见任务?
图9评估了对10个完全不在预训练分布中的任务的泛化能力,包括解鞋带、熨烫、用刷子绘画和握手。
在AgiBot G1上,从零开始训练的VLA实现了接近零的任务进度(<1%),而DreamZero平均达到39.5%——在"从人体模型上取下帽子"(85.7%)和"握手"(59.2%)等任务上有强劲表现。DreamZero也显著优于预训练VLA基线(39.5% vs. 16.3%),尽管这些基线可能在跨实体预训练期间遇到过这些任务中的一些。在DROID-Franka设置上,DreamZero也显著优于其他预训练基线(49%任务进度,22.5%成功率 vs. GR00T N1.6的31%任务进度,12.5%成功率和的33%任务进度,7.5%成功率)。
在定性分析中,观察到预训练VLA经常朝物体方向移动并尝试抓取,无论指令如何,这表明它们过拟合到主导的训练行为(例如放取)而不是理解新任务的语义,这解释了它们尽管未能完成预期任务仍有部分任务进度。相比之下,DreamZero对未见任务进行视觉规划并成功执行,生成的视频与真实世界动作之间有很强的对齐。
除了结构化评估,本工作还通过自由提示进行100多个额外任务的自由形式测试,包括"戳破气球"和"按电梯按钮"。
Q3. WAM是否能改善后训练性能?
本工作调查WAM是否在任务特定数据微调后仍保持其泛化能力。图10显示了三个具有不同分布多样性的任务的结果。
DreamZero在所有任务上匹配或优于VLA基线:在衬衫折叠和餐桌收拾上性能相当,而在水果装箱上显著优于基线。与图8和图9的发现类似,从零开始训练的基线无法学习准确的运动来抓取目标物体;这意味着从零开始训练的VLA倾向于过拟合训练数据,无法泛化到本工作改变桌子高度、桌子距离、物体和物体放置的场景,主要是因为评估地点位于不同的地理位置(样本见图7)。尽管在多机器人实体上使用重复数据进行预训练在很大程度上提升了预训练基线的后训练泛化性能,但DreamZero仍然匹配或优于预训练VLA基线,而无需跨实体预训练。由于本工作仍在未见环境中进行后训练评估,这意味着DreamZero的环境泛化能力在后训练后得以保留。
Q4. WAM是否能实现到未见任务的强跨实体迁移?
在展示WAM能够泛化到未见任务(图9)之后,本工作现在调查是否可以通过利用执行相同任务的不同实体的视频数据进一步提升这种泛化能力。关键是,本工作仅对跨实体数据使用视频预测目标(无动作),同时对AgiBot预训练数据保持联合视频-动作目标;跨实体数据因此作为额外的视觉经验来加强世界模型对任务动态和预期行为的理解。
探索两种设置(图11):(1)使用双臂YAM机器人的机器人到机器人迁移,以及(2)使用第一人称人类演示的人到机器人迁移。对于每种设置,本工作收集9个未见任务的72个多视角轨迹(每个任务8个演示,YAM为20分钟,人类为12分钟)。然后本工作从DreamZero-AgiBot检查点开始,与预训练数据以1:1混合共同训练10K步。
对9个未见任务的结果(表2)显示,两种迁移设置都比基线DreamZero有所改进。机器人到机器人迁移产生了最大的提升(38.3% → 55.4%),可能是由于更窄的实体差距;YAM和AgiBot都是双臂平行夹爪。人到机器人迁移也改善了性能(38.3% → 54.3%),尽管存在更大的形态差距和动态的第一人称视角。
这些结果指向WAM的一个有前景的特性:与最近的VLA实体迁移方法不同,本工作的方法仅依赖视觉信息而无需动作标签。虽然当前成功率仍然适中,但仅10-20分钟的视频数据带来的持续改进提供了一个早期信号,表明跨实体视觉经验确实可以有意义地迁移。这开辟了一个潜在的扩展路径:丰富的人类视频数据——比机器人数据集大几个数量级——可以使WAM在没有动作注释的情况下获得多样化的技能,前提是进一步研究加强迁移机制。
Q5. WAM是否能实现少样本新实体适应?
本工作在新的双臂操作器(YAM机器人)上对DreamZero-AgiBot检查点进行后训练,仅使用11个独特任务中的55个轨迹(约30分钟数据)。如图12所示,尽管数据和多样性有限,后训练策略仍保持强大的语言跟随能力,甚至泛化到训练期间未见的新物体,包括南瓜、泰迪熊、笔、杯面和纸袋。即使数据量最小,本工作观察到紧密的视频-动作对齐,展示了非常高效的跨实体迁移。
假设有两个因素使这种效率成为可能:(1)AgiBot G1和YAM实体的视觉相似性(两者都配备双臂平行夹爪),以及(2)更根本的是,从预测视频中学习隐式IDM可能本质上比直接策略学习更具样本效率——模型只需要学习从视觉未来到动作的映射,同时利用预训练视频模型对物理动态的现有理解。与本工作的AgiBot发现一致,失败主要源于视频预测错误而非动作提取,这表明在后训练期间增加任务多样性可以进一步提升性能。
Q6. DreamZero-Flash是否能在更少去噪步骤下保持性能?
评估DreamZero-Flash是否能在激进的单步去噪下保持任务性能。如表3所示,将DreamZero从4个去噪步骤减少到1步会显著降低任务进度(83% → 52%)。相比之下,DreamZero-Flash在单步推理时实现更高的平均成功率(74%),仅比4步基线低9%,同时速度约快2倍。这表明解耦噪声调度为实时部署提供了更有效的速度-精度权衡。
模型和数据消融
由于计算限制,进行消融实验以隔离数据多样性、模型规模和架构的贡献。所有消融模型训练50K步,批量大小32,并在PnP Easy任务上进行评估以保持一致比较。
Q1. 数据多样性是否能改善泛化?
比较在500小时多样化数据上训练的DreamZero与在500小时重复数据上训练的版本,后者包含70个任务,每个任务有许多重复演示,使用相似的物体位置和配置。如表4所示,多样化数据显著改善泛化(33% → 50%),即使在简单的放取任务上也是如此。本工作假设这反映了WAM的学习动态:由于视频预测主要从预训练继承,关键挑战是学习逆动力学。稳健的IDM需要在不同上下文中获得多样化的状态-动作对应关系,而重复数据本质上缺乏这一点。
Q2. WAM性能是否随模型规模扩展?
对于VLA,扩展模型规模改善语义推理但不一定改善动作预测。发现WAM表现出更清晰的扩展行为:14B模型显著优于5B模型(50% vs. 21%),较小的模型更容易出现视觉幻觉,这些幻觉传播到错误的动作中。
为了确保公平比较,还将VLA基线扩展到匹配DreamZero的大小,从8B和32B预训练VLM初始化,截断到transformer块的前半部分,并按照附加基于DiT的动作模块。如表4所示,较大的VLA仍然无法从多样化数据中学习(0%任务进度),经常在物体附近悬停而不进行接触。这表明仅扩展模型容量并不能解决VLA对多样化数据分布的困难。
Q3. 自回归架构是否优于双向?
比较DreamZero的自回归(AR)架构与双向(BD)变体。虽然任务进度相似(表4),但AR模型产生明显更平滑的运动——通过整个动作序列的反向传播实现了更好的时间一致性。此外,由于KV缓存,AR推理速度快3-4倍。
总结
DreamZero,一个通过联合预测视频和动作来实现从多样化、非重复机器人数据有效学习的 14B WAM。与当前最先进的 VLA 相比,DreamZero 在未见动词和动作的零样本泛化方面实现了超过 2 倍的提升,同时保留了对物体和环境的泛化能力。本文还展示了实现 38× 推理加速的模型和系统优化,使实时闭环控制达到 7Hz。
在跨本体迁移方面,来自人类(12 分钟)或其他机器人(20 分钟)的视频-only 数据在未见任务上带来超过 42% 的相对提升,本文还引入了少样本本体适应——在 AgiBot G1 上预训练的 DreamZero 仅用 30 分钟的玩耍数据就能适应全新机器人(YAM),同时实现零样本泛化。据本文所知,这为数据高效的本体适应设定了新的基准。
本文在 AgiBot 评估中发现,数据多样性对泛化至关重要,自回归架构带来更平滑的运动,且视频生成质量与策略性能直接相关。本文的架构分析表明,更大的预训练视频扩散模型产生更高质量的视频预测,这直接转化为更优越的下游动作执行——表明策略性能从根本上与视频生成质量挂钩。
本文的工作表明,通过联合视频-动作建模,World Action Model 能够从视频扩散模型继承丰富的物理先验,从而解锁 VLA 之前无法实现的新兴能力。具体而言,这实现了三个能力:1)从异构机器人数据有效学习;2)对新任务的零样本泛化;3)从视频实现极高效的跨本体迁移。
参考文献
[1] World Action Models are Zero-shot Policies
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论