👇扫码免费加入知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Chen Li等
文章链接:https://arxiv.org/pdf/2510.05580
项目链接:https://stellar-neuron.github.io/metavla/
亮点直击
探索了一个尚未充分研究的方向:通过引入多样的辅助任务,以可忽略的优化开销提升后训练阶段的效率与泛化能力。 MetaVLA,一套可插拔的模块与训练方案,能够实现快速且可扩展的适应性训练,并具备强泛化能力。MetaVLA 工程实现友好,对主干架构和底层训练流程均保持无关性。 全面实验表明,MetaVLA 在显著提高效率的同时提供了更优的性能,通过减少模型数量和 GPU 训练时间来实现,同时保持快速的推理速度。
总结速览
解决的问题
当前的 Vision–Language–Action(VLA)模型虽有进展,但仍存在以下关键问题:
任务依赖性强:需要为每个下游任务单独微调(task-specific fine-tuning)。 计算成本高:如 OpenVLA 需 240K 步训练,GPU 时间极长。 泛化能力弱:在新任务或长时序任务(如 LIBERO-Long)上表现不稳定。 多任务训练不稳定:直接加入多样任务(naive multi-task SFT)会导致特征/动作空间不一致,引发优化不稳定。
提出的方案
提出 MetaVLA —— 一个统一、主干无关(backbone-agnostic)的后训练框架, 通过 Context-Aware Meta Co-Training(上下文感知元协同训练) 实现高效、可扩展的多任务对齐。
将多个目标任务整合进一个统一的训练阶段; 同时引入结构多样的辅助任务,通过元学习机制提升泛化能力; 避免逐任务微调带来的冗余和性能退化。
应用的技术
Attentive Neural Processes(ANP)派生的记忆增强模块: 注入辅助任务信息增益,不破坏目标任务优化。 Meta-learning Co-training(元学习协同训练): 通过跨任务梯度共享与上下文适应,提升有限数据下的学习效率。 Backbone-agnostic架构: 可无缝适配不同的 VLA 主干和训练范式(包括 SFT 与 RL)。
达到的效果
MetaVLA 显著提升了训练效率与泛化性能:
性能提升:在 LIBERO 基准上平均超越 OpenVLA 4.4%、多任务 SFT 3.1%, 在长时序任务(LIBERO-Long)上最高提升 8.0%。 效率提升: 训练步数:从 240K → 75K(减少约 69%) GPU 时间:从约 100 小时 → 24 小时(节省约 76%) 开销极低:额外推理延迟仅 0.3 ms/token。 统一性强:单一模型覆盖多个任务,提升维护与扩展性。
方法
任务定义与主干选择
本文目标是开发一种高效的通用 VLA 后训练范式,能够适应预训练期间未见过的多样化新任务。
采用 LIBERO 基准作为目标任务集,并使用 OpenVLA 作为主干模型。尽管如此,本文方法对主干架构保持无关性,并可无缝集成到其他预训练的 VLA 模型中。
MetaVLA
架构
为了在低数据任务适应中提升收敛速度与泛化能力,本文的架构基于 Attentive Neural Processes(ANP)——一种受高斯过程启发的元学习模型,它通过上下文与目标表征来建模函数分布。这些潜在编码同时捕获全局语义与任务特定语义,分别通过自注意力与交叉注意力进行聚合。
本文引入了一个紧凑模块 Meta-Action-Reasoner(MAR),并将其集成到 Llama2 动作解码器中。遵循原始 ANP 公式,MAR 首先在上下文样本间应用自注意力以提取全局先验,然后通过交叉注意力与目标查询融合,形成任务感知的混合表征。形式化地,给定目标特征 ,上下文特征-动作对 ,MAR 对给定全局与任务特定观测下的目标动作 的函数分布进行建模:
其中, 和 是通过自注意力从所有上下文数据对 聚合得到的每个上下文表征。 是目标查询 与上下文键 和取值 进行交叉注意力后的输出。
是所有 的均值,而 是从在上下文上计算的近似后验分布 中抽取的随机隐空间变量。 在训练过程中,额外生成一个压缩的目标表征 ,其计算方式与 相同,通过自注意力和均值操作得到,并使用真实配对 。
通过对高斯隐空间变量 进行重参数化,训练目标最大化变分下界:
这种形式使 MetaVLA 能够重建目标动作,并通过 KL 散度进行正则化,以防止目标分布偏离上下文分布过远。
不同于使用小规模神经网络的标准 ANP,集成了来自 OpenVLA 的预训练 Llama2 主干。MAR 同时生成随机与确定性的上下文潜在向量,并在最终输出层之前与 Llama 的隐藏状态进行拼接。组合后的表征随后通过语言模型头(LM head)产生输出 logits,从而可通过标准的 Llama 解码实现端到端训练。框架概览见下图2。
数据库
在设置中,存在两个数据库:上下文库(context bank)和目标库(target bank)。
对于上下文库,它充当外部记忆,由域内任务(在我们的案例中为四个 LIBERO 套件)和辅助任务组成。对于域内任务,四个 LIBERO 套件被划分为不重叠的上下文集与目标集。对于辅助任务,我们选择了部分开源的 GR00T 数据集。一个统一的上下文库随后聚合来自域内数据集的上下文集和从辅助数据中选取的任务。
目标数据库仅包含域内任务的目标集——在我们的案例中,即所有四个 LIBERO 套件的任务集。不同于标准的 VLA SFT(为每个套件分别训练独立模型),我们的元协同训练策略在所有目标套件上训练单一模型,从而提升了可扩展性、泛化性与效率。
训练协议
为确保广泛的上下文覆盖,每隔 个训练步刷新一次上下文集。具体而言,在每个 的倍数处,我们从每个上下文任务的数据集中随机采样 个样本,并在任务间保持 一致以简化设计。我们设置 以平衡训练速度与解码质量,并选择 以优化内存使用与性能。关于 的消融实验见第 4.4.1 节。
辅助任务选择
为增强上下文多样性并强化元学习,本文引入了一种辅助任务选择机制。具体而言,将 GR00T 数据集纳入上下文库,主要基于两个原因。首先,GR00T 在 OpenVLA 预训练期间完全未出现,是额外信息增益的有价值来源。其次,它在领域上与 LIBERO 部分相关,同时在结构上存在差异——在熟悉性与多样性之间取得平衡。
LIBERO 任务使用带有抓手的 Franka Emika Panda 机械臂,并主要采用正面摄像机视角。相比之下,选定的 GR00T 任务包括使用正面视角的双臂操作以及仅使用侧视角的单臂操作。这些差异被有意引入,以测试 MetaVLA 的鲁棒性与泛化能力。三类任务差异的示例见下图3。
不同于严格挑选与 LIBERO 高度相似任务的方法,本文的方法在上下文库中的数据多样性上限制更少,对辅助任务的多样性更具鲁棒性,我们认为这为更具可扩展性的适应性训练框架提供了更高的自由度。实验结果表明,配备此多任务协同训练设置的 MetaVLA 在所有 LIBERO 套件上相比基于 SFT 的协同训练获得了更高的成功率与更快的收敛速度。
实验
实验设置
在 LIBERO 基准上将所提方法与以往工作进行对比。LIBERO 是一个基于 Franka Emika Panda 单臂仿真的基准测试,包含四个不同的任务套件。该基准旨在评估模型在每个任务套件中针对 10 个任务、共 500 个专家示范变体的泛化能力。
LIBERO-Goal 保持物体与布局不变,仅在最终任务目标上变化;LIBERO-Spatial 保持物体与任务不变,仅重新排列布局;LIBERO-Object 使用相同的布局环境,但改变物体类型;LIBERO-Long(又称 LIBERO-10)包含长时序任务,综合了上述多种分布变化。
本文方法在所有四个套件上联合训练单一模型,同时引入来自 GR00T 数据集的最多 6 个异质辅助任务(基于带抓手的 Panda 机器人)。GR00T 是一个包含不同机器人和任务类型的仿真数据集。
遵循以往工作并采用成功率(Success Rate, SR)作为评估指标。得益于高效的协同训练,本文的方法仅需约 24 小时即可在 8 张 A100 80GB GPU 上完成所有四个 LIBERO 套件的微调。选择 OpenVLA 作为主干模型,因其完整性、成熟度以及稳健的开源代码与评估流程,已被学术界广泛采用。
为保证公平对比,在 LIBERO 仿真环境中重新评估了 OpenVLA 基线模型,使用来自 Hugging Face 的四个单任务微调模型作为基线。由于硬件差异与随机性,结果可能与原始报告略有不同。所有在 LIBERO 上报告的结果均在一张 24GB RTX-4090 GPU 上评估。
基础多任务 SFT 的效果
如下表1所示,在基础多任务 SFT(SFT-4LIBERO+辅助任务)中增加辅助任务会持续降低性能。随着任务数量的增加,退化现象愈发严重,表明模型难以处理领域偏移且无法收敛。一个可能的因素是每个任务的训练步数减少。例如,在 SFT-4LIBERO+5single+1bimanual(训练 75K 步)中,每个任务的步数从 SFT-4LIBERO 的 18.75K 降至 7.5K。为验证这一点,将训练步数增加至 187.5K。虽然性能略有提升,但仍显著低于 MetaVLA(无论是否包含辅助任务)。此外,如下图 6 所示,在 187.5K 步时,三项指标——Accuracy、Imitation Loss 与 L1 Loss——的训练曲线均显示其适应性不足。这支持了我们的观点:MetaVLA 具备更高的可扩展性,能在不出现优化不稳定的情况下有效利用辅助数据。由于计算限制,对该观点的更严格证明留待未来工作。
上下文感知元协同训练的效果
如下表 1 所示,MetaVLA(无论是否包含辅助任务)在所有 LIBERO 任务及平均性能上均优于所有基线模型,包括 OpenVLA 基线与 SFT-4LIBERO。引入六个辅助任务时,其性能相比 OpenVLA 提升 4.4%,相比 SFT-4LIBERO 提升 3.1%,尤其在 LIBERO-Long 上分别提升 8.0% 与 5.1%。此外,MetaVLA 将模型数量减少至 1 个,并将训练步数从 240K 降至 75K。
消融实验
上下文批大小的影响
如下图4所示,在设定下,成功率随批大小的增加而单调提升。相对较小的上下文批大小 能获得最佳性能,同时不会对内存占用造成额外负担。详细结果见表 5。
辅助任务选择的影响
如表1所示,MetaVLA 在所有三种辅助任务设置下均优于其 SFT-4-LIBERO 对应模型,表明其在相机视角、动作空间和上下文任务数量变化下具有稳健的泛化能力。这些结果突出了扩展上下文库的潜在机会。
参数规模变化的影响
为排除性能提升仅仅源于参数规模增加的可能性,本文进行了消融实验,其中架构保持不变,但上下文库被替换,仅包含来自 OpenVLA 预训练数据集(OpenVLA Contributors,2024)的任务——bridge orig 和 fractal20220817 数据。该结果在表1中被记为 MetaVLA-Pretrained-Context-ONLY。与 MetaVLA 相比,在所有 LIBERO 套件上均出现显著下降。这表明性能提升并非仅由于参数规模增加,而是源于完整的设计组合以及与多样且信息丰富的异质辅助任务的集成。
多任务协同训练机制的影响
为评估任务共享协同训练的影响,将 MetaVLA 的完整目标集(所有四个 LIBERO 套件)替换为一次仅包含一个套件。为简化起见,采用仅包含四个 LIBERO 套件且无辅助任务的精简上下文库——与表1中 MetaVLA 的设置一致。在该设置下,通过 SFT 独立训练四个模型,每个模型对应一个套件,并使用与 OpenVLA(OpenVLA Team,2024)相同的总训练步数(240K)。将此配置称为 MetaVLA-EACH。 在评估中,报告了 OpenVLA 基线和 MetaVLA-EACH 在 240K(最终步骤)和 120K(中期训练)下的结果,以突出 MetaVLA 的早期收敛优势。
下表2中的结果揭示了三个关键发现:(1) MetaVLA-EACH 在最终训练步骤上优于 Hugging Face OpenVLA 基线(OpenVLA Team,2024);(2) 它在所有套件中更早达到更高的成功率;(3) 在复杂套件(Goal,Long)上性能持续提升,而在较简单的套件(Spatial,Object)上更早收敛——表明任务多样性对更具挑战性的任务更有益。
这些发现突出了 MAR 在可扩展、基于记忆的元学习框架中的有效性。然而,与完整的 MetaVLA(表1)相比,MetaVLA-EACH 牺牲了统一泛化性和训练效率,需要四个模型和更多计算量(120K 对比 75K 步)。
随机学习的影响
如方程 中的 ELBO 下界所示,MAR 同时优化重构损失和 KL 散度项。在表1中,MetaVLA+Stochastic 包含该随机正则化,而 MetaVLA 未包含。随机变体在 Spatial 套件上提高了性能,在 Goal 和 Object 套件上表现相当,但在 Long 套件上表现较差。由于 KL 项鼓励上下文分布与目标分布之间的接近——而这一假设在更复杂的设置中可能不成立——假设 Long 任务中较大的领域偏移导致了性能下降。相比之下,确定性变体仅依赖重构损失,提供更精确的建模,因此在更具挑战性的任务中更为有效。基于此原因,随机模块在其他所有 MetaVLA 实验中均被禁用,以提高实用性。
效率讨论
在单个 RTX-4090 GPU 上使用批量推理对所有任务进行评估。由于该方法具有轻量化特性,在原始架构上仅增加了少量可训练参数,使推理延迟仅增加了 ,如下图9所示。此外,通过将训练步数从 减少到 ,总 GPU 训练时间减少了 ——从约 小时降至约 小时。它还将四个特定任务模型整合为一个,从而简化了部署与维护。
为什么我们的方法有效?
多任务协同训练促进了相关域内任务之间的知识共享,而 MAR 利用多样化的辅助数据来提升目标性能并缓解领域偏移带来的优化不稳定性。如下图5所示,MetaVLA 在所有三个收敛指标——Accuracy、Imitation Loss 和 L1 Loss——上均持续优于朴素的多任务 SFT。前两个指标评估生成离散标记的质量,而 L1 Loss 衡量机器人执行的连续动作结果。这些结果表明本文方法的有效性和稳定性。
随着上下文批量大小增大,性能单调提升;随着辅助任务多样性的增加,性能持续改善。尽管由于内存和计算限制,未能穷尽所有组合,但这些趋势表明了上下文扩展(Context Scaling)的潜力——增加上下文库的批量大小和任务多样性可能进一步提升目标任务性能。此外,鉴于 MetaVLA 对上下文多样性的鲁棒性,将网页级数据扩充至上下文库中——此前仅在预训练阶段探索过——可能带来额外收益。我们将此留待未来工作探讨。
结论
MetaVLA,一种轻量级、即插即用的框架,用于缓解 VLA 后训练中的低效与脆弱性。通过上下文感知元协同训练(Context-Aware Meta Co-Training),该方法在不破坏优化稳定性的情况下集成辅助任务,实现了更好的收敛性、效率与泛化能力。在 LIBERO 上,MetaVLA 优于逐任务微调与朴素多任务 SFT,同时降低了训练成本与模型数量。展望未来,计划将其扩展至更广泛的骨干网络、更大规模的数据集以及真实机器人部署,以推动高效、可扩展的通用 VLA 系统发展。
参考文献
[1] MetaVLA: Unified Meta Co-training For Efficient Embodied Adaption
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论