如您有工作需要分享,欢迎联系:aigc_to_future
BAAI·EI²: Endless Innovation in Embodied Intelligence
01
前言
近年来,多模态大语言模型(MLLMs)的快速发展显著推动了通用人工智能(AGI)的研究进程。通过利用互联网上的海量多模态数据并结合自监督学习技术,MLLMs 在视觉感知和理解人类语言指令方面展现出卓越的能力。然而,尽管 MLLMs 在通用任务中表现出色,其在具身场景中的应用仍面临巨大挑战,尤其是在长程操作任务(long-horizon manipulation tasks)中。
在具身场景中,长程操作任务是机器人执行复杂任务的核心能力之一。这类任务通常涉及多个步骤和长时间的交互,例如"在厨房中准备一杯茶"或"在仓库中完成物品分拣"。这些任务不仅要求机器人能够理解抽象指令,还需具备将指令转化为具体动作的能力。具体而言,长程操作任务的成功执行依赖于以下三种核心能力:
任务规划能力(Planning)
机器人需要将复杂的抽象指令分解为可执行的子任务,例如"提起茶壶并将水倒入杯子"需要分解为"接近茶壶并提起"、"将茶壶移动到壶嘴对准杯子的位置"以及"倾斜茶壶倒水"等步骤。
可操作区域感知能力(Affordance Perception)
机器人必须准确识别对象的可操作区域,例如茶壶的把手或壶嘴,以确保动作的精确性。
轨迹预测能力(Trajectory Prediction)
机器人需要根据任务指令预测从起点到目标位置的完整路径,例如从当前位置到茶壶把手的移动轨迹。
然而,现有 MLLMs 在这些方面存在显著不足。例如,面对"提起茶壶并将水倒入杯子"的任务,MLLMs 可能无法准确分解任务步骤,或无法识别茶壶的可抓取区域,甚至无法预测从起点到目标位置的完整路径。这些局限性主要源于当前缺乏专门为MLLMs和机器人长程操作任务设计的大规模、细粒度数据集。
为了填补这一空白,我们提出了ShareRobot——一个专门为机器人操作任务设计的高质量异构数据集。ShareRobot 标注了多维信息,包括任务规划、对象可操作区域和末端执行器轨迹,为机器人能力的提升提供了坚实基础。基于ShareRobot,我们开发了 RoboBrain,这是一个从抽象指令到具象表达的统一具身多模态大脑模型,旨在增强机器人在长程操作任务中的能力。通过精心设计的数据比例、多阶段训练策略以及长视频和高分辨率图像输入,RoboBrain 实现了从抽象任务指令到具象动作表达的认知跨越,展现了其在机器人实际应用中的潜力。
我们的主要贡献总结如下:
1. 我们提出了RoboBrain,一个为机器人操作设计的统一具身多模态大脑模型,实现了任务规划-可操作区域感知-轨迹预测的三维能力融合,通过将抽象指令(如"准备一杯茶")映射为具象动作序列(如抓取、对准、倾倒与相应的可操作区域与轨迹),增强了其在具身长程操作任务中的能力。
2.我们精心设计了机器人数据与通用多模态数据的训练数据比例,采用多阶段训练策略,并结合长视频和高分辨率图像输入,使RoboBrain具备了长历史帧记忆和高分辨率图像感知能力,进一步增强了其在场景感知和操作规划中的能力。
3.我们提出了ShareRobot,一个大规模、高质量、细粒度的异构数据集,包含102个场景、跨12种机器人本体、107种原子任务以及百万级问答对,标注了包括任务规划、对象可操作区域和末端执行器轨迹的多维信息,填补了现有数据的不足。
4. 综合实验结果表明,RoboBrain 在多种具身场景基准测试中实现了最先进的性能,展现了其在机器人实际应用中的潜力。
图2 ShareRobot数据集的生成过程。我们的数据集标注了多维信息,包括任务规划、对象可操作区域和末端执行器轨迹。任务规划首先通过原子任务进行标注,然后通过构建问答对进行增强。可操作区域和轨迹根据具体指令在图像上进行标注。
02
ShareRobot:具身大脑的数据基石
为了实现具身大脑从抽象任务指令到具象动作表达的转化能力,我们开发了名为 ShareRobot的一个大规模、高质量、细粒度的异构数据集,专门用于机器人操作任务,旨在提升具身大脑在任务规划、可操作区域感知和轨迹预测方面的能力。
ShareRobot具备了以下的特点:
大规模。ShareRobot 包含1,028,060 个问答对,是当前最大的开源任务规划、可操作区域感知和轨迹预测数据集,能够支持机器人模型从抽象任务指令到具象动作表达的深入理解。
高质量。在从Open-X-Embodiment 数据集中筛选数据时,我们制定了严格的筛选标准,包括高分辨率、准确的描述、任务执行成功状态、可见的可操作区域以及清晰的运动轨迹。基于这些标准,我们验证了51,403 个实例,确保了数据的质量。
细粒度。与Open X-Embodiment 数据集仅提供高层任务描述不同,ShareRobot 中的每个数据点都包含与单帧图像关联的详细低层规划指令。这种细粒度标注增强了模型在正确时刻精确执行任务的能力。
多样化。与RoboVQA等数据集有限的场景相比,ShareRobot 包含 102 个场景、12 种机器人形态和 107 种原子任务类型。这种多样性使MLLMs能够从多样化的现实场景中学习,增强其在长程任务规划中的鲁棒性。
易扩展。我们的数据生成流程设计具有高度可扩展性,能够随着新机器人形态、任务类型和环境的发展轻松扩展,确保 ShareRobot 数据集能够支持日益复杂的操作任务。
图3 ShareRobot数据集的多样性。我们的数据集包括 (a) 23个数据源,(b) 12种跨本体数据和 (c) 107种原子任务类型。
03
RoboBrain:具身多模态大模型
我们的目标是让具身多模态大脑模型能够理解抽象指令,同时具备任务规划、输出对象可操作区域和操作轨迹的能力,从而促进模型实现从抽象任务指令到具象动作表达的认知跨越。因此,我们基于ShareRobot和其他机器人数据,以及大规模的开源多模态数据,采用多阶段训练策略来开发这样一种具身多模态大模型RoboBrain。
3.1 模型架构
RoboBrain由三个模块组成:用于任务规划的基座模型、用于可操作区域感知的A-LoRA模块和用于轨迹预测的T-LoRA模块。在推理时,模型首先会感知视觉输入并根据输入的指令,分解为一系列可执行的子任务,然后执行可操作区域感知和轨迹预测。我们的RoboBrain的推理流程如图4所示。
基座模型。我们利用LLaVA作为RoboBrain的基础架构,主要包括三个模块:视觉编码器(ViT)、投影层(Projector)和大语言模型(LLM),我们采用SigLIP、MLP和Qwen2.5-7B-Instruct。给定图像或视频作为视觉输入,ViT将其编码为视觉特征,然后通过Projector映射到LLM的语义空间,生成视觉标记序列。最后,LLM基于人类语言指令和视觉标记序列以自回归方式生成可执行的子任务序列。
图4 RoboBrain的模型架构。单图、多图和视频结合文本指令输入到我们的模型中,以训练基座大脑模型。此外,我们通过A-LoRA和T-LoRA对RoboBrain进行微调,以赋予RoboBrain可操作区域感知和轨迹预测的能力。在推理时,模型首先会感知视觉输入并根据输入的指令,分解为一系列可执行的子任务,然后执行可操作区域感知和轨迹预测。
A-LoRA模块。我们将可操作区域建模为2D边界框,表示末端执行器与物体接触的区域。我们在基座模型的基础上添加了针对可操作区域感知的LoRA模块,以赋予模型基于指令输出2D边界框的能力。
T-LoRA模块。我们将轨迹定义为一系列2D坐标,表示末端执行器或手在整个过程中的运动路径。我们在基座模型的基础上添加了轨迹预测的LoRA模块,以赋予模型基于指令输出一系列2D坐标点的能力。
图5 RoboBrain每个训练阶段的详细配置
3.2 模型训练
我们将训练过程分为两个阶段:Phase1和Phase2。Phase1专注于通用多模态能力的训练,旨在开发一个具备强大多模态数据理解和指令跟随能力的基础多模态大语言模型;Phase2则专注于增强具身大脑的三大核心能力,即任务规划能力(Planning)、可操作区域感知能力(Affordance Perception)和轨迹预测能力(Trajectory Prediction)。
在Phase1中,我们构建了一个具备通用多模态理解和视觉指令跟随能力的基础模型,这为增强模型在Phase2的三个核心能力奠定了基础。首先,我们利用 LCS-558K 数据集的图像-文本数据训练Projector,以对齐视觉特征和语言模型的语义特征。接着,我们使用400万高质量的图像-文本数据对模型进行整体训练,以提升其多模态通用知识理解能力。最后,我们进一步使用320万单图像数据和160万来自 LLaVA-OneVision的数据进行训练,旨在增强 RoboBrain 的指令跟随能力,并提升其对高分辨率图像和视频的理解能力。
在Phase2中,我们在Phase1构建的强大基础模型之上,进一步开发了一个更强大的机器人操作规划模型。具体来说,我们希望RoboBrain能够理解复杂的抽象指令,支持历史帧信息和高分辨率图像的感知,并输出对象可操作区域,同时预测潜在的操作轨迹。为此,我们收集了130万条机器人数据,以提升模型的机器人操作规划能力。这些数据主要来源于 RoboVQA-800K、MMScan-224K、3RScan-43K、ScanQA-25K、SQA3D-26K以及本文提出的ShareRobot-200K子集。这些数据集包含了大量场景扫描图像数据、长视频数据和高分辨率数据,能够提升模型感知多样化环境的能力。此外,ShareRobot数据集中细粒度的高质量规划数据进一步增强了RoboBrain的机器人操作规划能力。为了缓解灾难性遗忘问题,我们从Phase1中筛选了约170万条高质量的图像-文本数据,并与Phase2收集的机器人数据混合进行训练,从而对模型进行整体微调。随后,我们进一步增强了模型根据指令感知对象可操作区域和预测操作轨迹的能力,利用ShareRobot数据集中标注的可操作区域和轨迹数据,通过引入 LoRA 模块进行训练,以实现模型感知可操作区域和预测轨迹的能力。
通过这一系列精心设计的训练策略,RoboBrain在任务规划、可操作区域感知和轨迹预测方面展现出了强大的能力,为具身大脑的实际应用提供了有力支持。
04
实验结果
任务规划。我们选取了RoboVQA、OpenEQA以及从ShareRobot数据集中提取的测试集作为任务规划能力的评估基准,并与当前6个领先的MLLMs进行对比,包括GPT-4V,Claude3,LLaVA1.5,LLaVA-OneVision-7b,Qwen2-VL-7b和RoboMamba。实验结果表明,RoboBrain在3个基准中均超越了所有基线模型,尤其在OpenEQA和ShareRobot上表现尤为突出,这得益于RoboBrain在机器人理解任务和长视频感知中的优秀能力。在RoboVQA中,RoboBrain的BLEU-4分数超过第二名18.75分,展示了其在复杂长程任务规划中的能力。
可操作区域感知。我们采用平均精度(AP)指标来评估模型的可操作区域感知性能,该指标综合了不同阈值设置下的精度-召回曲线。在AGD20K可操作区域感知测试集上,RoboBrain的表现显著优于其他模型,分别超越Qwen2-VL和LLaVA-NeXT14.6分和17.3分,验证了其在理解指令和物体物理属性方面的能力。
轨迹预测。为评估真实轨迹与预测轨迹之间的相似性,我们采用了离散 Fréchet 距离(DFD)、Hausdorff 距离(HD)和均方根误差(RMSE)三项指标进行综合评估。通过对模型不同变体的比较,RoboBrain 在 DFD、HD 和 RMSE 指标上均表现出显著改进,尤其是最终模型的误差较基线模型分别下降了 42.9%、94.2% 和 31.6%,进一步验证了其在轨迹预测任务中的高精度和稳定性。
总体而言,RoboBrain 在任务规划、可操作区域感知和轨迹预测等多个评估任务中均展现了卓越的性能,充分证明了其在机器人操作规划中的强大能力。这些实验结果不仅凸显了 RoboBrain 的技术优势,也为其在具身场景中的广泛应用提供了有力支持,展现了其在未来机器人领域的巨大潜力。
图6 RoboBrain在3个具身任务规划基准中均超越了所有基线模型,展示了其在复杂长程任务规划中的能力。
图7 RoboBrain在可操作区域预测上的性能。RoboBrain 的表现显著优于其他模型,分别超越 Qwen2-VL 和 LLaVA-NeXT 14.6分和17.3分,验证了其在理解物体物理属性方面的能力。
图8 RoboBrain在轨迹预测上的性能。最终模型的误差较基线模型分别下降了 42.9%、94.2% 和 31.6%,进一步验证了其在轨迹预测任务中的高精度和稳定性。
05
可视化
图9展示了RoboBrain在多轮对话中的推理过程。RoboBrain能够解读人类指令和视觉图像,以生成基于实时图像反馈的行动计划和评估。此外,它还可以预测每一步的轨迹并感知相应的可操作区域。
图9 RoboBrain在多轮对话中的推理过程。
图10展示了 RoboBrain 在多个机器人任务中的任务规划结果,包括"浇灌植物(Water plants)""将锅放入抽屉(Put the pot in the drawer)"以及"将相同颜色的积木分类到不同角落(Cluster blocks of the same color into different corners)"三个任务。RoboBrain成功完成了详细且正确的规划,不仅为每个任务生成了详细的规划步骤,还为每一步提供了相应的解释和推理依据。
从这些案例中可以看出,RoboBrain 能够有效利用环境信息和交互对象的状态——无论是从第一人称还是第三人称视角捕捉的图像——生成针对不同类型机器人操作任务的任务规划。以"将相同颜色的积木分类到不同角落"任务为例,RoboBrain 不仅在第1步和第2步中分析了桌面上每种颜色积木的数量,还在第3步"将积木移动到指定位置形成集群"中提供了详细的子步骤规划。具体来说,它将四种不同颜色的积木分别规划到"左上角""右上角""左下角"和"右下角"四个目标位置。这一任务规划案例充分展示了 RoboBrain 在任务泛化能力上的卓越表现,同时也验证了我们提出的 ShareRobot数据集以及多阶段训练策略的有效性。
图10 RoboBrain在任务规划中的案例。
图11展示了 RoboBrain在可操作区域感知方面的可视化结果。每个子图下方的文字描述了任务指令,而红色边界框则代表 RoboBrain 模型预测的可操作区域。结果表明,RoboBrain 能够基于人类指令和视觉信息,有效地提供合理的可操作区域。例如,在"用瓶子喝水(drink with the bottle)"的指令下,RoboBrain 能够判断瓶盖处于关闭状态,从而为瓶盖区域提供可操作信息。这充分体现了 RoboBrain 在理解抽象指令方面的强大能力。
图11 RoboBrain在可操作区域感知中的案例
在图12中,我们展示了RoboBrain基于起点生成的轨迹预测可视化结果。图中,红色到紫色的渐变曲线代表真实轨迹,而绿色到蓝色的渐变曲线则表示 RoboBrain 预测的轨迹。为清晰起见,图中省略了路径点。这些案例表明,无论末端执行器的轨迹复杂度如何,RoboBrain 都能基于视觉观察和任务指令准确预测 2D 轨迹。这些预测与真实轨迹的结构高度一致,且具备可执行性。
此外,RoboBrain的预测通常能够捕捉轨迹的关键特征,从而生成比真实轨迹更平滑、更高效的路径。这种优化可能源于机器人实际轨迹中存在的固有性质,例如在类似操作场景下可能包含冗余路径点。通过从大规模具身数据集中学习,并结合大语言模型的推理能力,RoboBrain 能够推断出高效且优化的执行路径。第三行的可视化结果进一步表明,RoboBrain 避免了过拟合问题,能够在不同场景中表现出良好的泛化能力,生成既可行又合理的轨迹。
图12 RoboBrain在轨迹预测中的案例
06
结论
在本文中,我们针对MLLMs在具身场景中的局限性,特别是长程操作任务的挑战,提出了ShareRobot——一个高质量、细粒度的异构数据集。ShareRobot 涵盖了任务规划、对象可操作区域以及末端执行器轨迹等多维信息的精细标注,为机器人能力的提升提供了坚实基础。基于这一数据集,我们开发了RoboBrain,这是一个能实现从抽象指令理解到具象动作表达的统一具身多模态大脑模型。RoboBrain通过融合通用多模态数据和机器人数据,采用多阶段训练策略,并结合长视频和高分辨率图像输入,显著增强了机器人在复杂任务中的感知和规划能力。
RoboBrain 的核心创新在于其实现了任务规划、可操作区域感知和轨迹预测的三维能力融合。通过将抽象指令(如"准备一杯茶")映射为具象动作序列(如抓取、对准、倾倒及相应的可操作区域与轨迹),RoboBrain 在具身长程操作规划任务中展现了卓越的性能。此外,我们精心设计了机器人数据与通用多模态数据的训练比例,采用多阶段训练策略,使 RoboBrain 具备了长历史帧记忆和高分辨率图像感知能力,进一步提升了其在场景感知和操作规划中的表现。
大量实验结果表明,RoboBrain 在多种具身场景基准测试中均实现了最先进的性能,充分验证了其在机器人实际应用中的潜力。未来,我们将进一步优化 RoboBrain 的各项能力,提升其作为具身大脑模型的泛化性和鲁棒性,并将其应用于更广泛的真实场景中,为机器人技术的发展提供更强有力的支持。
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论