如您有工作需要分享,欢迎联系:aigc_to_future
作者:Kaijun Wang等
解读:AI生成未来
论文链接:https://arxiv.org/pdf/2508.08240
项目链接:https://kaijwang.github.io/odyssey.github.io/
亮点直击
引入了一种分层视觉-语言规划器,用于桥接第一视角感知与语言条件任务,将长时序指令分解为可执行的动作; 提出了首个能够在复杂地形上泛化的全身控制策略,实现了行走与操作的协同控制; 构建了首个面向长时序移动操作的基准测试,涵盖了广泛的真实室内外场景; 进一步展示了高层规划器与低层控制策略在现实环境中的成功迁移,表现出强大的泛化能力与鲁棒性。 将具备行走能力的移动操作机器人部署于非结构化环境是可行且实用的,为通用型机器人助手的发展铺平了道路。
总结速览
解决的问题
语言引导的长时序移动操作在以下三个方面面临重大挑战:
受限的感知与执行范围:现有系统多局限于桌面场景,难以适应移动平台在感知和执行范围上的限制,无法有效处理第一视角下的复杂任务。 操作策略泛化能力不足:当前方法在面对开放世界中多样化的物体配置时缺乏足够的泛化能力。 缺乏协同控制机制:在非结构化环境中,如何同时实现高机动性(如四足行走)与末端执行器的精确控制,仍是未充分研究的问题。
提出的方案
为应对上述挑战,提出了 ODYSSEY 框架——一个面向灵巧四足机器人的统一移动操作系统,具有以下核心设计:
分层视觉-语言规划器:结合视觉-语言模型,实现从语言指令到可执行动作的长时序任务分解。 新型全身控制策略:支持在复杂地形中实现行走与操作的协同控制,提升机器人在非结构化环境中的适应性。 端到端系统集成:将高层任务规划与低层运动控制无缝整合,支持从感知到执行的完整闭环。 构建综合性基准测试:涵盖多种真实室内外场景,用于系统性评估长时序移动操作能力。
应用的技术
ODYSSEY 系统集成了以下关键技术:
视觉-语言模型(Vision-Language Models):用于理解语言指令并结合第一视角视觉信息进行规划。 分层任务规划(Hierarchical Planning):将复杂任务拆解为可执行的子任务,提升指令执行的准确性与效率。 全身运动控制(Whole-body Control):在四足机器人平台上实现行走与操作的动态协调。 仿真到现实迁移(Sim2Real Transfer):通过策略泛化与鲁棒性设计实现从仿真环境到现实世界的平滑迁移。 多场景基准测试平台:用于系统性评估模型在多种真实环境中的性能表现。
达到的效果
ODYSSEY 在多个方面取得了显著成果:
强泛化能力:系统在多种室内外真实场景中展现出稳定的规划与控制性能,具备良好的任务泛化能力。 高鲁棒性:在复杂地形与非结构化环境下实现稳定运行,展现出卓越的鲁棒性。 成功的仿真到现实迁移:系统从仿真环境顺利迁移至现实部署,验证了其实际可用性。 推动通用机器人发展:证明了具备移动能力的操作机器人可在现实环境中执行复杂动态任务,为通用型机器人助手的发展提供了可行路径。
方法
ODYSSEY是一个统一框架,涵盖了长时序任务规划、全身控制以及用于移动操作的标准化评估。该框架包含三个关键组件:
粗到细的任务规划器:一个分层规划器,在基础模型的引导下执行自顶向下的任务调度。 四足全身策略:一个基于强化学习的全身控制器,能够泛化至多样化地形并克服仿真到现实的差距。 移动操作基准测试:首个可扩展评估套件,用于在多样化真实场景中评估长期任务表现。
长时序任务规划器
为了弥合以往工作在建模语义推理驱动的导航与细粒度、可泛化操作之间复杂依赖关系方面的不足,本文的分层框架被明确设计为确保这两个模块的可靠性,并强化它们之间的相互依赖性,以实现连贯的长时序任务执行。
具备地图感知的任务级规划 为了支持基于第一视角观测的长时序任务规划,首先构建了一个全局规划器,并集成了一个轻量级多模态感知模块作为插件组件。具体而言,融合机载 RGB 和 LiDAR 流,形成场景的统一空间-语义表示。借助一组预训练的基础模型,构建了一个实例图,编码了用于符号任务推理的物体几何与语义信息。
如下图 2 所示,给定实例级语义地图,使用 GPT-4.1 将无模板的自然语言指令分解为一系列来自预定义集合的原子动作:、、 和 。每个动作都配有语言描述,用于追踪任务进度并为局部规划提供指导。
对于涉及空间位移的动作(如 、),模型还会输出一个粗略的目标航点以引导规划。本文将该目标投影到通过 LiDAR 扫描累计构建的在线 SLAM 所生成的二维占据图上。随后在投影点附近执行局部搜索,识别一个无碰撞的目标姿态,避开物体边界框与结构性障碍物。该过程生成一个在全球语境下对齐且在物理约束下可行的任务规划。
几何约束下的局部操作 对于需要近距离操作的原子动作,使用安装在手腕上的深度观测,引导视觉-语言模型生成精确的末端执行器姿态。尽管不同动作在物理性质上差异较大,本文通过一个统一的视觉运动接口来执行它们,避免了对每个动作使用启发式规则的需求。
具体而言,给定一张 RGB 图像和当前原子动作的文本描述,使用 Qwen2.5-VL-72B-Instruct 模型(具备像素级对齐能力)来推理图像空间中与任务相关的接触点 。
该接触点被投影到对齐的深度图上,从而恢复其在机器人坐标系中的三维位置,记作 。本文进一步提示模型生成末端执行器的朝向 ,通过确定夹爪的闭合方向(x 轴)与接近方向(z 轴),其需满足以下几何约束:
轴对齐约束:当目标物体或接触区域呈现主轴 时,末端执行器的 x 轴与 z 轴应同时与其正交:
表面法线约束:如果物体附着在具有法向量 的平面表面上,则末端执行器的 z 轴应与该表面法线对齐,同时不违反第一个约束:
通过利用 Qwen-VL 的强表达性语义对齐能力,并通过可解释的几何约束限制输出位姿,本文系统实现了对交互密集型操作基元的可靠局部引导。据本文所知,这是首个无需第三人称观察或脚本策略的细粒度操作规划系统,标志着向可扩展部署于移动、真实环境中的重要一步。
全身控制策略
为了有效执行高层规划器的指令并适应多样化地形,全身控制策略至关重要。本工作提出了一种两阶段的学习型策略,利用神经网络从一组观测中生成期望的关节位置。为增强策略的鲁棒性,训练过程中引入了精心设计的、与地形无关的末端执行器采样策略以及全面的领域随机化。最终得到的控制器在多种环境交互中表现出强健性,并可直接部署于物理机器人上。首先定义该策略,随后讨论其训练方法。
移动操作策略 移动操作策略 被构建为一个单一网络,它将一个综合观测向量映射为目标动作 ,如公式(4)所示。观测包括:
运动指令 , 六维末端执行器目标 , 局部地面高度图 , 投影重力向量 , 上一时刻的动作 , 本体感知状态 (关节位置 和速度 )。
所有指令和目标均在机器人底座坐标系中表达。
为稳定策略输出并减少仿真到现实的差距,动作 被表示为相对于默认关节配置 的偏移量。最终目标为:
该目标随后通过比例-微分(PD)控制器转换为力矩。
为增强训练的鲁棒性并避免在大动作空间搜索中陷入局部最优,本文采用了如下图 3 所示的两阶段课程学习方法。
阶段 1 在该阶段中,机械臂关节被固定,以将训练重点放在静载荷下的行走控制上,从而提高探索效率。受启发于 (Mittal et al. 2023),本文在底座跟踪奖励的基础上引入了步态奖励,以结构化机器人的步态。此外,还引入了一种新颖的频率奖励,用于调节步态的节奏。
步态奖励 鼓励特定的同步(例如,对角)和异步(例如,侧向)足部接触模式,奖励函数 和 的详细定义见附录 B.1。频率奖励 根据与目标频率 的误差来调节步态的节奏。步态频率 是连续两次足部接触地面的时间间隔的倒数()。该奖励函数定义如下:
阶段 2 在完成 2000 次训练迭代后,流程进入第二阶段。在该阶段中,策略控制全部 18 个关节,包括机械臂和四条腿。因此,奖励函数在先前描述的移动奖励基础上扩展,加入了末端执行器的跟踪项 ,以引导策略的训练。
地形不变的末端执行器采样 为了确保在多样地形中的鲁棒性能,本文的方法采用了一种地形不变的末端执行器采样策略。该过程从一个以机器人机械臂基座为中心、定义在世界坐标系中的球形区域中采样一个目标位置。该策略的关键在于,目标的 z 轴高度在世界坐标系中是固定的,然后再将该坐标转换为相对于机器人移动基座坐标系的笛卡尔目标位置。相比于直接在机械臂局部坐标系中采样,该方法的显著优势在于能有效解耦末端执行器目标与由于机器人基座俯仰变化或地形高度变化引起的扰动。因此,这种解耦在任务执行过程中提高了交互精度。
领域随机化 为弥合模拟与现实之间的差距,整个训练过程中采用了领域随机化策略。为了确保对不同负载的适应性,在训练过程中还对末端执行器的质量进行随机化,从而提升策略处理未知重量物体的能力。
模拟基准测试
为了评估导航、操作与全身控制的统一系统,本文提出了首个针对室内外环境中长时序移动操作的模拟基准测试。
资产与场景库 为支持真实且多样的评估环境,本文整理了一套多样化的资产集,包括物体实例和全尺度 3D 场景。物体资产来源于先前的开源数据集、公开可用的物体库以及手工创建的模型。
物体资产:本文整理了四类交互式物体,总计如下:50 个刚体物体(如常见可抓取物品)、15 个容器(如带有注释容纳区域的碗和箱子)、30 个关节结构(如柜子和门)以及 10 个可拖动物体(如推车和椅子)。
环境:本文的基准测试包含 10 个真实场景,包括 5 个室内住宅、2 个超市、1 个餐厅以及 2 个带有坡道和楼梯的户外庭院。所有环境均支持四足机器人完全通行,并设有多个初始化区域,以支持大规模任务的采样与空间变化。
丰富的领域风格变化 为确保泛化能力,本文在仿真过程中引入了四个维度的变化:
在语义约束下,每个 episode 中的物体布局发生变化,以促进交互的多样性; 每个 episode 中重新采样物理属性,包括质量、摩擦系数和关节活动范围,以引入动态变化; 随机化环境条件,如光照、材质纹理和杂物元素,以模拟感知噪声; 在户外场景中变更地形复杂度,以评估运动鲁棒性。
多阶段任务集 本文基准测试包括两类任务:从 ARNOLD 中合并的短时序操作技能任务,以及反映实际日常场景的长时序移动操作任务。
短时序 ARNOLD 任务 本文整合了 ARNOLD 基准中的四个单步操作任务:PICKUPOBJECT、REORIENTOBJECT、OPENCABINET 和 CLOSECABINET。
在保留其原始目标状态定义和场景配置的同时,调整了空间布局和物体位置,以适应本文四足机器人平台的运动学和工作空间,确保评估的公平性和一致性。
长时序移动操作任务 为评估系统的具身推理、导航与序列操作能力,构建了 8 个多阶段任务,涵盖多样的室内外场景。每个任务包含 2–3 个子目标,总共包含 246 个室内和 58 个户外变体,涵盖物体类型、空间布局与交互模式。
本文的任务池强调涵盖广泛技能,包括抓取、重定向、容器放置、关节结构操作以及复杂地形上的长期导航。短时序与长时序任务的结合,使得基准测试能同时评估低层操作与高层规划能力。
模块化评估协议 本文评估整体任务成功率与每个动作的成功率。例如,在 CARTDELIVERY 任务中,本文定义了如下子任务:nav to object、pick object、nav to cart、place object、drag cart 和 nav to goal。
本文通过监控机器人与推车的世界位姿,以及物体与推车之间的相对位姿来判断动作是否成功。若某一子任务在任务时限内满足其对应的目标条件,则视为完成。该评估协议同时捕捉执行精度与规划一致性。
实验
高层规划器性能
为以模块化和可扩展的方式评估高层规划器的性能,本文基于前文所述的基准测试开展实验。首先,本文在数千个单步测试案例中测试了本地规划器,重点评估其精度与一致性。其次,本文集成全局规划器,并在数百个长时序移动操作任务上评估所提出的方法。此外,还对每个任务中分解出的原子动作完成率进行了详细分析。
ARNOLD 短时序任务 在进入长时序评估之前,本文首先在相对受限的空间中进行了实验,以展示本文框架的细粒度操作精度与泛化能力。本文从 ARNOLD 中迁移了四个短时序任务,并忠实复现了其目标状态的持续监控系统。
其评估协议将五个数据划分为两类:
Seen:包含打乱的已见数据; Novel:包含一个未见组件(物体、场景或目标状态)。
本文与其最强的基线模型 PerAct 进行了对比。PerAct 是一种端到端的模仿学习范式,在大规模人类轨迹上训练,利用来自五个外部摄像头的观测实现精确的空间感知。
如下表 1 所示,本文方法在整体上取得了显著提升,展现了优越的细粒度操作能力,同时仅依赖单个第一视角摄像头。此外,尽管他们的方法在 novel 划分上的性能显著下降,本文的方法在所有数据集上均保持稳定表现,展现出应对 O.O.D(分布外)物体配置的泛化能力。
ODYSSEY 长时序任务 下表 2 总结了本文系统在八个长时序移动操作任务中的表现,报告了整体任务成功率以及分解后的原子动作成功率。
值得注意的是,ODYSSEY 在所有任务中整体成功率始终达到或超过 40%,并且在每一类原子技能中均保持超过 60% 的成功率,展示了在通用长时序任务中稳健的协调能力。在此基础上,从系统性能的不同角度强调了几个关键发现:
低层能力: 在室内与室外环境中,即便存在不规则地形,成功率依然保持一致,验证了本文的地形自适应全身控制策略所实现的可靠运动能力与高效位姿跟踪。大多数控制相关失败源于与超出机器人可达范围的物体交互。
细粒度动作: 基于视觉语言模型(VLM)的语义定位能力使得所有任务中抓取与放置的成功率较高,展现出在识别与定位语义目标方面的强大能力。大量失败来自于夹爪对齐不佳,表明模型在物体几何结构的空间推理方面存在一定局限。此外,涉及更复杂交互的任务(如拖拽与拉动)偶尔因定位不准确而失败,尤其是在处理细柄或部分遮挡物体时。
任务级规划: 全局任务规划器在实例图上的符号推理能力表现强劲,能够可靠地进行多阶段任务分解。同时,基于 SLAM 的路径规划器确保了安全且稳定的导航。这些组件协同工作,使得所有任务中的导航成功率较高。
低层策略性能
本文将所提出的全身控制策略与基线方法 RoboDuet进行了对比评估,后者同样采用两阶段训练流程。与 RoboDuet 基于底座中心采样的双策略(运动与操作)方法不同,本文的方法采用了统一策略,并引入了一种新颖的地形不变末端执行器采样策略。
评估设置: 本文在模拟器中实例化了 4096 个并行 agent,每个 agent 收集 5 个数据样本。
指标定义
为在模拟器中定量评估性能,本文定义了以下指标:
底座跟踪误差(Base Tracking Error):指令与实际底座速度之间的误差,包含线速度 与角速度 分量; 末端执行器位置误差(End-Effector Position Error):当前与指令末端执行器在世界坐标系下位置之间的欧几里得距离 ; 末端执行器姿态误差(End-Effector Orientation Error):当前姿态 与目标姿态 之间的四元数测地距离,计算公式为:
模拟结果 本文方法在静态(站立)与动态(移动)条件下均进行了评估。由于机器人结构限制,采样到不可达位置会导致自碰撞,从而对训练过程产生负面影响。为缓解这一问题,本文在训练期间有意识地缩小了采样空间的体积。为确保公平比较并测试泛化能力,两个方法均在相同且更大的工作空间中进行评估,具体设置详见下表 4,对比结果见下表 3。
评估结果表明,本文策略在底座速度跟踪方面表现更佳(第1至第3行),这一改进归因于策略观测中引入了地形数据,从而增强了机器人的状态估计能力。末端执行器位姿跟踪性能与基线方法相当(第4至第5行)。值得注意的是,本次评估的一个关键点在于,本文策略是在一个刻意缩小的末端执行器工作空间中训练的,并且能够适应不同地形(例如台阶)。这表明本文的方法在受限训练域中具备较强的泛化能力。
模拟到现实的性能
本文进行了真实环境实验,以验证本框架的模拟到现实(sim-to-real)性能,该框架将高层的粗到细任务规划器与低层的全身控制策略集成在一起。
机器人系统设置 如下图 4 所示,本文机器人平台结合了一个 12 自由度的 Unitree Go2 四足机器人与一个 6 自由度的 Arx5 机械臂。Go2(重量 15kg,负载能力 8kg)配备了内置的 Unitree L1 激光雷达,3.35kg 的 Arx5 机械臂安装在其背部,设置类似于(Ha et al. 2024)。在高层感知方面,该平台配备了一个用于定位的 MID-360 激光雷达和两个 RealSense 相机:一个安装在头部的 D435i 用于获取 RGB 图像,另一个安装在夹爪上的 D405 用于获取 RGB-D 数据。控制策略以 50 Hz 的频率运行,PD 控制器以 200 Hz 的频率下发电机命令。
真实环境实验 ODYSSEY 框架在两个长时序任务("导航至抓取"和"抓取与放置")上进行了评估,使用了五种不同的物体。整个系统在任务规划与执行方面实现了成功的模拟到现实迁移,如下图 4 所示。
尽管取得了成功,但仍存在一些模拟到现实的差距。例如,由于末端执行器跟踪和视觉感知的不准确,机器人偶尔在抓取小物体时失败。通过这些实验,本文的方法展示了解决长时序移动探索与操作任务的显著潜力,同时也明确了实现无缝现实部署所需解决的主要挑战——稳健的感知能力与高精度控制。
结论与未来工作
ODYSSEY —— 一个统一的开放世界移动操作框架,集成了分层任务规划与适应地形的全身控制。本文方法在多样环境与长时序任务中展示了稳健的模拟到现实迁移能力及泛化能力。
未来工作将把本文的基准扩展为一个面向视觉语言模型(VLMs)与移动操作机器人的综合评估范式,从而实现对语义推理与行走-操作协调能力的跨形态评估。
此外,还计划探索主动感知的涌现能力,在该能力中,动态场景理解与自适应运动协同工作,以实现更高效的现实世界交互。该方向有望在杂乱、非结构化环境中激发新的行为方式,进一步弥合高层规划与低层控制之间的差距。
参考文献
[1] ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论