2026年2月3日星期二

国产开源双臂机器人LingBot-VLA:2万小时真实数据驱动,性能与效率双突破

LingBot-VLA是基于2万小时真实世界数据训练的开源视觉-语言-动作模型,采用高效架构与深度感知技术,在多项任务中性能显著优于基线模型,并验证了数据规模与模型效果的持续正相关关系。

    点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Wei Wu等

解读:AI生成未来
图片
图片

论文链接:https://arxiv.org/pdf/2601.18692
项目链接:https://technology.robbyant.com/lingbot-vla
代码链接:https://github.com/robbyant/lingbot-vla
模型链接:https://huggingface.co/collections/robbyant/lingbot-vla

图片

亮点直击

  • LingBot-VLA 视觉-语言-动作(VLA)基础模型,其核心亮点在于超大规模的真实数据验证与极高的训练效率。
  • 利用来自 9 个主流双臂机器人平台的约 20,000 小时真实世界数据进行预训练,并在 3 种不同的机器人平台上进行了系统的泛化性评估。
  • 构建了一个高度优化的训练代码库,在 8 卡 GPU 环境下实现了每秒 261 个样本的吞吐量,显著提升了大型 VLA 模型的开发效率。

解决的问题

目前视觉-语言-动作(VLA)模型领域面临两个核心痛点:一是缺乏关于机器人真实表现如何随预训练数据规模增长(Scaling)的深度实证研究;二是社区缺乏能够支持大规模数据高效训练的优化代码库。本工作旨在探究 VLA 模型在真实世界机器人数据上的缩放法则,并解决模型从实验室走向实际部署时的成本效率问题。

提出的方案

LingBot-VLA 采用了先进的视觉-语言模型作为语义骨干网络,并耦合了基于扩散(Diffusion-based)的动作头。本工作提出了一套统一的动作空间处理方案,并引入了自动标注与人工微调相结合的数据处理流水线。为了进一步增强空间感知能力,模型还可以集成 LingBot-Depth 模型,通过可学习的 Query 对齐方式提取丰富的空间先验信息。在架构上,该方案支持多种 VLM 基座(如 Qwen2.5-VL 和 PaliGemma),并采用 FSDP2 策略优化分布式训练。

应用的技术点

  • 多具身数据预训练:整合了 9 个平台、20,000 小时的多样化双臂操作数据,涵盖了如折叠毛巾、拧开锁具、剥柠檬皮等复杂任务。
  • 深度信息集成:利用 LingBot-Depth 模型并配合 Query-based 对齐机制,使模型在处理空间敏感任务时表现更佳。
  • 高效训练架构:开发了专为 VLA 优化的高性能代码库,支持 FSDP2 分布式训练,在多卡扩展性上接近理论线性极限。

达到的效果

  • 性能优越性:在 RoboTwin 2.0 模拟基准测试中,LingBot-VLA 在随机化场景下的成功率比  基准模型提升了 
  • 缩放法则验证:实证结果显示,随着预训练数据从 3,000 小时增加到 20,000 小时,任务成功率和进度率(Progress Rate)持续增长,且未见饱和迹象。
  • 训练速度提升:相比于现有的 StarVLA、DexBotic 等代码库,本工作实现的吞吐量提升了  到  倍。
  • 数据效率:在下游任务微调中,LingBot-VLA 仅需 80 条演示数据即可超越基准模型使用 130 条数据的表现。

预训练数据集

LingBot-VLA的预训练数据集规模庞大,包含了约20,000小时的真实世界操作数据。这些数据来自9种流行的双臂机器人配置,如下图2所示。这些机器人平台包括Agibot G1、AgileX Qinglong、Galaxea R1Lite、Galaxea R1Pro、ARX Lift2、Bimanual Franka、Realman RS-2、Leju KUAVO 4 Pro。每种机器人配置都旨在捕捉操作任务的独特变体,以促进模型的鲁棒性和通用性。数据的多样性是模型泛化能力的关键因素,确保模型能够适应不同的机器人硬件和任务场景。

图片

为了管理和处理如此大规模的数据集,本文开发了一个数据基础设施,支持高效的数据摄取、处理和检索。该基础设施能够处理不同机器人平台生成的多模态数据(视觉、语言、动作),并对其进行标准化以用于统一的训练管道。通过算法筛选和人工审查相结合的方式,对数据集进行严格的质量控制,以确保数据的高质量和相关性。

模型训练

VLA模型

LingBot-VLA的设计目标是实现视觉-语言-动作模态的有效融合。它将预训练的视觉-语言模型(VLM)Qwen2.5-VL与一个从头初始化的动作生成模块("动作专家")进行集成。整个系统通过MoT(Mixture-of-Transformers)架构组织,类似于BAGEL。在这种架构中,视觉-语言和动作模态通过不同的Transformer通路进行处理,但通过共享的自注意力机制实现层级统一的序列建模,如上图1所示。这种MoT框架确保了来自VLM的高维语义先验在所有层中提供持续指导,同时通过保持模态特定的处理来减轻跨模态干扰。多视角操作图像和相关任务指令通过VLM统一编码,以建立多模态条件,用于后续的动作生成。同时,机器人的本体感受序列,特别是初始状态和动作块,被输入到动作专家中以预测动作生成。

在LingBot-VLA中,VLM和动作专家通过共享的自注意力机制进行交互,从而促进统一的层级表示。因此,在时间步的联合建模序列被公式化为观测条件和动作块的连接。具体来说,观测上下文定义为:

图片

其中,包含来自双臂机器人的三视图操作图像的令牌、任务指令和机器人状态。相应的动作序列表示为:

图片

其中代表动作块长度,即预测轨迹的时间范围,在预训练阶段设置为50。因此,训练目标是通过条件流匹配来表征条件分布。对于流时间步,本文通过高斯噪声和真实动作之间的线性插值定义了一个概率路径,得到中间动作的条件分布公式为:

图片

动作专家通过最小化流匹配目标进行训练:

图片

其中,目标速度由线性概率路径导出的理想矢量场给出。

本文遵循的方法,采用块状因果注意力来建模联合序列。该序列可以划分为三个不同的功能块:。在这些块之间应用因果掩码,使得每个块中的令牌只能关注自身和前面的块。相反,同一块内的所有令牌都采用双向注意力并可以相互关注。这种配置确保了动作专家可以利用所有可用的观测知识,同时防止未来动作令牌的信息泄露到当前观测表示中。

为了显式捕捉操作环境中的空间感知,并进一步增强机器人的执行鲁棒性,本文采用了受近期工作启发的视觉蒸馏方法。具体来说,本文应用了与三视图操作图像对应的可学习查询。为了整合深度信息,这些查询由VLM处理,然后与来自LingBot-Depth的深度令牌对齐。本文通过最小化蒸馏损失来对齐VLM可学习查询和LingBot-Depth令牌:

图片

其中,是一个通过交叉注意力进行维度对齐的投影层。这种集成将几何信息注入到LingBot-VLA模型中,从而实现复杂操作任务的精确感知。

训练效率优化

考虑到动作数据本身是高频的,建立一个涵盖分布式训练和操作符优化的高效管道至关重要。本文的优化方法结构如下:

  • 分布式策略 (Distributed Strategy): 虽然VLA模型通常具有适度的参数计数,但实现GPU内存占用和训练吞吐量之间的最佳权衡仍然至关重要。本文采用Fully Sharded Data Parallel (FSDP)——PyTorch对Zero Redundancy Optimizer (ZeRO) 的高效实现——来分片优化器状态、模型参数和梯度,从而最小化内存占用。受VeOmni中提出的Hybrid Sharded Data Parallel (HSDP) 方法的启发,本文为动作专家模块构建了特定的"分片组"。这种策略有效地缓解了与过多参数分片相关的通信开销。此外,本文实现了混合精度策略:在torch.float32中执行归约以确保数值稳定性,同时使用torch.bfloat16进行存储和通信。
  • 操作符级别优化 (Operator-Level Optimization): 在本文的架构中,视觉、语言和动作的多模态融合本质上是一个稀疏注意力过程。为了解决这个问题,本文利用FlexAttention来优化计算。此外,本文应用操作符融合(通过torch.compile)来减少内核启动开销并最大化内存带宽利用率。

实验

对LingBot-VLA进行了大规模的实证评估,旨在严格评估其多实体泛化能力和真实世界鲁棒性。实验框架包括三个核心组成部分:

  • 硬件平台: 实验在AgileX、Agibot G1和Galaxea R1Pro这三个不同的机器人平台进行。所有三个实体都采用双臂配置,并配备平行抓取器。为了确保鲁棒的感知能力,每个机器人配备了多个摄像头:两个腕部摄像头和一个头戴式摄像头,以捕捉以自我为中心的人眼视角。所有任务都是基于桌面进行,实体底盘和腰部牢固固定。
  • 数据收集和处理: 对于每个GM-100任务,通过远程操作收集专家演示,遵循标准化协议以确保高质量数据和环境多样性。每个任务在三个平台共收集150条原始轨迹。其中,排名前130位的轨迹(根据执行质量,即任务完成度、运动平滑度和协议依从性)被保留用于训练。所有轨迹严格遵循GM-100任务规范。任务对象经过标准化处理,并根据GM-100材料规范获取,以确保跨站点的可重复性。在每次轨迹中,对象姿态(位置和方向)在工作空间内随机化,以防止对特定空间配置的过拟合,并鼓励学习任务相关的不变性。远程操作指南包括:(1) 在末端执行器和工作空间表面之间保持间隙以避免碰撞,(2) 在物体接触阶段降低速度以实现平稳操作,以及 (3) 确保在情节开始和结束时有清晰的图像观察,以实现可靠的策略训练。通过算法筛选程序自动排除出现技术异常的情节,人类审阅者使用同步的多视角视频流验证过滤后的数据集。如果情节包含无关物体或偏离任务协议,则将其移除。
  • 预训练数据集: LingBot-VLA的预训练数据集规模巨大,包含了约20,000小时的真实世界操作数据,这些数据来自9种流行的双臂机器人配置,如上图2所示。这些机器人平台包括:Agibot G1、AgileX Qinglong、Galaxea R1Lite、Galaxea R1Pro、ARX Lift2、Bimanual Franka、Realman RS-2、Leju KUAVO 4 Pro。数据的多样性是模型泛化能力的关键因素。
  • 数据标注: 为了获得精确的语言指令,本文进行了以下标注工作:(1) 视频分割。由机器人捕获的多视角视频,由人工标注员根据预定义的原子动作共同分解为剪辑。此外,为了减少视频中的冗余信息,在此阶段消除了视频开头和结尾的静态帧。(2) 指令标注。在获得包含机器人完整运动轨迹的视频和每个原子动作的视频剪辑后,本文使用Qwen3-VL-235B-A22B进行任务和子任务指令的精确标注,如上图1所示。
  • 基准测试和评估协议: LingBot-VLA与三种先进的VLA模型——、GR00T N1.6和WALL-OSS——进行系统比较,并在严格的实验控制下隔离架构性能。所有模型都使用相同的后训练流程从公开可用的预训练检查点进行微调。为了确保公平比较,应用了经过验证的数据集(每个任务130条过滤轨迹)和一致的超参数(即批量大小为256,训练周期为20)。为了消除硬件引起的差异,评估在数据收集期间使用的精确机器人单元上进行。所有模型以随机顺序在相同的硬件-任务对上进行顺序测试。例如,在"堆叠碗"任务中,所有模型都在AgileX、Agibot G1和Galaxea R1pro平台上对同一单元进行评估。测试条件遵循标准化协议,模拟数据收集程序,随机化对象位置和方向,同时保持一致的任务规范。这确保了对泛化而不是记忆的评估。每次模型在每个任务-机器人对上进行15次试验以确保统计鲁棒性。评估环境保持不变,并以rosbag格式记录全面的数据(例如,第三人称视图、机器人状态和模型预测),以提高透明度。这些记录将开源以建立可验证的基准。
  • 评估指标: 模型性能通过两个指标进行评估,这两个指标捕捉任务完成度和部分进展。成功率(SR)是指模型在3分钟时间限制内完成所有任务步骤的试验比例。该主要指标反映了模型在真实世界部署的可行性。进展分数(PS)通过跟踪顺序子任务检查点的进展来衡量部分任务完成度。例如,在一个6步的"堆叠碗"任务中,完成步骤1-4但在步骤5失败,则得分为。此诊断指标突出显示了失败模式并奖励部分成功。终止标准是:(1) 连续三次子任务失败,或 (2) 发生安全关键事件(例如碰撞)。进展根据终止前完成的子任务进行评分。本文报告了100个任务的总体SR和PS,以及按机器人类型分层的每个平台指标,以评估跨实体泛化。

实验结果

  • 真实世界基准测试: 如下表1所示,LingBot-VLA在所有平台上均显著优于基线模型。LingBot-VLA在GM-100基准测试中的平均成功率为17.30%,平均进展分数为35.41%,明显优于、GR00T N1.6和WALL-OSS。特别是在加入了深度信息的LingBot-VLA(w/ depth)版本,其平均成功率比提高了4.28%,平均进展分数提高了7.76%。值得注意的是,GR00T N1.6在Agibot G1和AgileX实体上的表现一般,但在Galaxea R1Pro平台上的SR和PS与相当。这归因于其预训练中大量包含了Galaxea R1Pro数据,表明预训练可以显著提升与高结构相似性下游任务的性能。
图片
  • 模拟评估: 如下表2所示,LingBot-VLA在RoboTwin 2.0套件中的50项代表性操作任务中表现出色。尤其是在随机场景下,LingBot-VLA (w/ depth) 相较于基线,绝对成功率提升了9.92%,表明其在复杂和不可预测环境中的强大鲁棒性。
图片
  • 训练吞吐量分析: 如下图4a和下图4b所示,本文的代码库在Qwen2.5-VL-3B-和PaliGemma-3B-pt-224-模型设置下均实现了最快的训练速度,并且随着GPU数量的增加,其扩展效率非常接近理论线性扩展极限。这验证了本文在计算效率方面的优化成果。
图片
  • 消融研究——数据量扩展行为: 如下图5a和图5b所示,预训练数据量从3,000小时增加到20,000小时时,模型的进展率和成功率都呈现出一致的上升趋势。值得注意的是,即使在20,000小时的标记处,这种扩展行为也没有出现饱和迹象,表明VLA性能持续受益于数据量的增加。这些结果提供了真实世界机器人学习中良好扩展特性的第一个实证证据,为未来的VLA开发和大规模数据整理提供了关键见解。此外,三个实体(即Agibot G1、AgileX和Galaxea R1Pro)的个体趋势与总体性能普遍一致,表明观察到的扩展法则具有鲁棒性,并非特定于单个平台。这些结果验证了本文的扩展方法在增强通用策略能力方面的有效性。
图片
  • 消融研究——数据效率分析: 如下图6所示,在数据效率分析中,遵循大规模真实世界基准测试协议,本文选择了GM-100数据集中的八个具有代表性的任务,在Agibot G1平台上进行数据高效的后训练实验。结果显示,在每个任务仅使用80个演示的有限预算下,LingBot-VLA的性能优于使用全部130个演示的,无论是在进展率还是成功率方面。值得注意的是,随着后训练数据量的增加,LingBot-VLA和之间的性能差距显著扩大,这展示了LingBot-VLA卓越的数据效率和可扩展性。
图片

结论

LingBot-VLAa,这是一种通过大规模真实世界数据和优化的代码库实现卓越泛化能力和训练效率的基础模型。本文对100项任务的全面评估表明,本文模型在与竞争对手的比较中展现出明显的优势,展示了其强大的性能和广泛的泛化能力。为了促进开放,本文发布了代码、模型和基准数据。未来的研究将侧重于通过整合单臂和移动机器人数据来扩展模型的通用性,为在无约束环境中实现更多样化和移动操作能力铺平道路。

参考文献

[1] A Pragmatic VLA Foundation Model

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

Kimi K2。5升级,AI自动化处理Excel/Word/PPT/PDF,大幅提升办公效率

Kimi K2.5实现AI办公自动化突破,能深度处理Excel数据建模、自动审阅Word合同并批注、辅助生成PPT逻辑框架与排版,将繁琐工作从数小时缩短至分钟级,解放人力专注决策与创意。 Kimi K2.5炸场,打工人翻身了 大家好,我是指挥官,专注用AI工具提高工作效率,欢...