现场直播机器人"思考"过程
星海图团队 投稿
量子位 | 公众号 QbitAI
仅凭少量后训练微调,机器人就能完全自主、连续不断地完成床铺整理任务。
而它的每一步思考与动作实时投放在大屏幕上。
在本届2025WRC上,星海图将G0模型带到展会现场,让观众直观看到"机器人在想什么、怎么做",刷新现场展示任务难度,稳定完成长程、柔性、全身移动操作任务。
现在,星海图正式发布端到端双系统全身智能VLA模型——星海图G0,该模型将大规模开放世界真机数据集与双系统视觉-语言-动作(Vision-Language-Action)架构结合,旨在提升机器人在非结构化环境中的泛化能力与任务适应性。
报告的两大核心贡献是构建了真实世界开放数据集Galaxea Open-World,以及提出了基于"系统1(System 1)/系统2(System2)"理论的双系统G0架构,并通过分阶段训练策略验证了其有效性。
G0模型评测结果全面优于π0完整模型,作为全球首个开放场景下的高质量真机数据集,即将面向所有具身智能开发者全面开源。
△星海图端到端双系统全身智能VLA模型G0
全球首个开放场景高质量真机数据集
星海图开放世界数据集(Galaxea Open-World Dataset)在真实的人类生活与工作场景中完成采集任务,覆盖住宅、厨房、零售和办公室等50种环境,总计包含500小时高质量移动操作数据,涵盖超过150种任务、1600多种操作对象以及58种操作技能。
星海图开放世界数据集基于统一的机器人平台(星海图R1 Lite)采集,硬件配置正装双6自由度机械臂、3自由度躯干、可全向移动的底盘,以及多视角RGB-D摄像头。
统一硬件设计保证了所有数据具有一致的动作空间和感知输入,使模型能够在不同任务和场景中保持动作参数的一致性。
此外,Galaxea Open-World Dataset在采集过程中特别强调多视角覆盖和自然光照条件,确保感知信息更加接近真实部署环境,减少领域适配成本。
△Galaxea Open-World Dataset使用星海图R1 Lite单一本体采集
这些任务既包括常见的桌面整理、物体抓取与家电操作等短时序动作,也包含如铺床等需要全身协调和多步推理的长时序任务,显著增加了数据集中任务分布的多样性和复杂性。
数据多样性统计:(a)总交互时间的分布显示在四个主要场景类别中:住宅、零售、餐饮和办公。(b)轨迹数量呈现了丰富的对象子类别,这些子类别被归类为更广泛的类别,如电子产品、家居用品和家具等,用以展示数据集中广泛的可交互物品范围。
数据集任务统计,时间特征和结构特征:(a)任务完成时间的分布显示,大多数任务的时长处于中等范围,但数据集中也包含大量复杂且长时间跨度的任务。(b)任务复杂度(以每个任务所包含的子任务数量衡量)呈现出较大差异,涵盖了从简单动作到复杂多步骤流程的广泛范围。
动作数据统计:(a)按身体部位使用情况划分的交互时间分布,展示了动作类型的多样性,从单纯的"仅手臂"操作到协调的"全身"动作。(b)技能的长尾分布凸显了数据集中丰富的动作词汇,既涵盖了高频、基础的动作(如"抓取"、"放置"),也包括了大量更为专业化的技能。
在标注体系方面,Galaxea Open-World Dataset对每个任务进行了子任务级语言标注,即将一个完整任务分解为多个具有明确语义的动作步骤,并精确对齐对应的感知与执行数据。
这种细粒度标注不仅支持动作级别的监督学习,还为训练高层任务规划模块提供了可直接利用的序列化知识。此外,数据集在对象类别上实现了从日常家居物品到工业工具的覆盖,为跨领域任务迁移提供了更丰富的训练样本。
与大多数在模拟环境或受控实验室采集的数据集相比,Galaxea Open-World Dataset在场景真实性、任务多样性和动作复杂度上均有显著优势。它能够直接反映机器人在非结构化环境中面临的感知噪声、对象遮挡、动作冗余和任务干扰等实际挑战,从而为模型的泛化性和稳定性提供更有价值的训练信号。
这些特性使Galaxea Open-World不仅适合作为具身智能模型的预训练数据源,也能够作为评估移动操作与多模态任务规划能力的高标准基准。
双系统全身智能模型:慢思考、快执行
G0模型采用双系统结构,将机器人控制分为高层思考与低层动作两个模块。
高层的G0-VLM是一个视觉语言模型,负责解析自然语言任务指令,进行多模态推理并分解为可执行的子任务,相当于"系统2(System2)"的推理与决策功能。
低层的G0-VLA则是视觉-语言-动作模型,以高频率执行具体动作并进行闭环控制,对应"系统1(System1)"的快速反应能力。
两者异步运行:G0-VLM以2Hz的频率输出子任务指令,G0-VLA则以15Hz的频率执行动作和200Hz进行控制,从而实现全局规划的智能性与局部执行的高响应性。
△星海图G0-VLA模型架构图
三阶段学习训练策略:渐进提升性能以掌握复杂技能
为了同时提升跨平台泛化能力和目标平台的适配性,G0模型的训练分为三个阶段:
第一阶段跨本体预训练(Stage-1),在多种机器人形态的大规模无标注数据上训练G0-VLM模块,获取通用的感知-动作先验。
第二阶段单本体预训练(Stage-2),利用Galaxea Open-World Dataset在目标机器人平台上训练全模型,强化语言与动作的精确对齐,并适配平台的动力学与运动学特性。
第三阶段任务后训练(Post-training),使用少量高质量的示范数据进行微调,以掌握特定的复杂技能。实验表明,单实体预训练对于长时序全身控制任务至关重要,例如在铺床任务中,该阶段训练显著提升了底盘与躯干的协同控制精度,而仅进行跨实体预训练的模型在该类任务上的表现甚至不如从零训练的模型。
该策略通过跨本体预训练获取通用知识、单本体预训练适配目标平台、任务后训练精通特定技能,逐步优化模型性能,最终实现对复杂技能的掌握。
模型评测全面超越π0:全身动作、长续任务、柔性操作、语言理解优势突出
报告在桌面整理、微波炉操作、铺床和积木堆叠四个基准任务上评估了模型性能,这些任务涵盖精确抓放、双臂协调、设备操作、全身运动控制以及语言指令跟随等多种能力。
在仅使用100条任务轨迹进行微调的条件下,结合跨本体与单本体预训练的G0(Full)模型在平均进度得分上表现最佳,全面超越Benchmark模型π-0,尤其在物体拾取与放置任务中优势明显。
少样本迁移实验显示,单本体预训练可显著提升适应性,仅用20条轨迹即可在新任务中实现平稳、连贯的执行。针对G0-VLM的任务特定指令微调(SFT)进一步提升了指令-动作对齐的准确率,增幅超过 50%,在基准测试中任务分解的正确率接近100%。
△不同预训练VLA模型在多任务及平均进度的任务完成度对比,G0(Full)等表现突出。
△不同预训练VLA模型在餐桌清理、微波炉操作任务及平均进度表现对比,G0(Full)等Stage-2相关模型多有优势。
△不同预训练VLA模型在铺床任务各子技能及平均进度的表现对比,G0(Stage-2)相关模型多占优势。
实验证明,我们的模型准确率比基线模型提升超过50%。尤其是在经过专门训练后,指令能够被VLA模型精准执行,证明了机器人需要专业的领域适应性训练。
Galaxea Open-World Dataset与G0双系统VLA模型的结合,为具身智能的训练与部署提供了高保真、可扩展的技术路径。通过真实世界大规模数据采集、规划与执行分离的架构设计,以及分阶段课程学习策略,机器人在非结构化环境中展现了更强的泛化性与稳定性。
随着数据与模型的开源,将为全球开发者搭建起一座跨越技术鸿沟的桥梁,加速具身智能从实验室创新迈向普惠性社会价值的转化。这背后,是星海图向全球开发者敞开技术生态、汇聚集体智慧的赤诚,让每一份创新都能融入具身智能突破的浪潮,共同书写机器人真正服务人类、赋能世界的未来篇章。
论文链接:
https://opengalaxea.github.io/G0/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟
没有评论:
发表评论