AI I024: CVPR 2025 I 机器人双臂操控新突破！KStar Diffuser如何解决自碰撞与运动约束世纪难题？

文章链接：https://arxiv.org/pdf/2503.10743

亮点直击
与现有方法仅在笛卡尔空间中优化末端执行器姿态不同，提出了一种新颖的时空机器人图，显式地建模机器人物理配置，以指导生成动作的去噪过程。
引入了一种运动学正则化器，通过引入关节空间监督来增强NBP（Next-Best Pose）学习目标。该正则化器利用前向运动学提供符合运动学约束的参考姿态，有效引导扩散过程以符合运动学约束。
大量实验表明，本文提出的KStar Diffuser在仿真和实际场景中均表现优异，成功率超过基线方法10%以上。

总结速览

解决的问题

物理结构约束：现有方法在预测末端执行器姿态时，往往忽略了机器人的物理结构，导致自碰撞或干涉。
运动学约束：现有方法在预测末端执行器姿态时，未充分考虑运动学限制，导致预测的姿态可能超出机器人关节的实际限制。

提出的方案

提出了Kinematics enhanced Spatial-TemporAl gRaph Diffuser (KStar Diffuser) 框架，具体包括：

动态时空图：根据物理双机械臂关节运动构建动态时空图，作为机器人结构条件用于去噪动作预测。
可微分运动学模块：引入可微分运动学，为优化KStar Diffuser提供参考，使策略预测更可靠且符合运动学约束的末端执行器姿态。

应用的技术

图卷积网络 (GCN) ：用于编码动态时空图，提供显式的物理约束。
可微分运动学：通过可微分前向运动学将预测的关节位置映射到参考末端执行器姿态，确保生成的动作符合运动学约束。

达到的效果

物理结构信息利用：有效利用物理结构信息，生成符合机器人结构的动作。
运动学感知动作生成：在仿真和实际应用中生成符合运动学约束的动作，提高了动作的可靠性和可行性。

方法

任务定义

给定包含语言指令 l 和RGB-D观测 o 的数据集 D，本文的目标是学习一个策略，该策略能够预测动作 a。其中，a 由轨迹和夹爪开合动作组成，T 表示轨迹长度，。n 表示机器人关节的数量。在双机械臂操作中， n 通常为12或14，因为每个机械臂具有6或7个自由度。参考先前的工作 [15, 17, 49, 64]，在所有轨迹点上训练策略是低效的。因此，采用关键帧发现方法提取一组个关键帧索引，预测动作为关键帧的末端执行器姿态集合。

KStar Diffuser

概述

主流方法 [17, 23, 65] 训练策略以预测动作，但很少考虑决定其运动的机械机器人结构。因此，我们提出了一种时空图来建模静态物理结构和动态历史运动信息。此外，为了减少末端执行器姿态的运动学不可行预测，引入了一个可微分运动学模块，为策略网络提供运动学感知的参考。本文提出的运动学增强时空图扩散器（KStar Diffuser）的概述如下图所示。

骨干网络

给定语言指令和多视角 RGB-D 观测图像，首先采用基于Transformer的编码器分别提取其特征和。然后，这些特征通过层 FiLM 模块进行融合，以获得隐藏状态。每一层都与一个上采样 2D 卷积层结合。

其中，且由初始化。

本文的骨干网络使用最后的隐藏状态 ) 作为条件，引导扩散头去噪并生成双机械臂末端执行器姿态。需要注意的是，我们附加了 n 个历史观测图像，以提供更多信息来捕捉运动趋势。根据 Chi 等人的方法，让策略在训练期间预测接下来的 ( m ) 个动作，以缓解多模态问题。将 n 和 m都设置为2。动作预测如下：

学习目标为：

时空机器人图

物理架构影响整个机器人的运动，决定其是否能完成任务。同时，历史空间信息对未来运动也很重要。因此，我们提出了一种时空图方法，用于建模每一步的机器人架构和连续时间步的机器人运动，以表示静态空间信息和动态运动特征。

空间结构图构建
为了表示机器人结构，我们首先解析统一机器人描述格式（URDF）文件，该文件通常用于描述机器人的静态物理结构，如关节类型、关节限制和连杆长度。然后，我们基于关节和连杆配置将双臂系统定义为一个无向图。其中，和分别表示关节的节点集和连杆的边集，表示关节数量。我们使用表示第个节点的特征值，它由以下三个属性组成：

关节坐标：我们使用笛卡尔坐标系中的向量表示第个关节的绝对坐标。该向量根据工作空间边界进行归一化，以确保模型训练的稳定收敛。
关节距离：为了衡量节点与其他节点之间的空间关系，计算和之间的欧几里得距离：

其中，表示欧几里得范数。

身体标签：为了区分节点的来源，使用一个独热向量作为其特征之一。它还可以帮助策略捕捉不同机器人手臂的运动模式，例如对称性。

将、和拼接起来，形成完整的特征，其中表示节点特征的维度。

时空图学习
在相同的指令和观察条件下，不同的历史机器人姿态会导致不同的预测结果。因此，结合时间运动信息构建空间结构图。具体来说，通过结合历史时间步的构建时空图，其中表示历史步数。在中，节点集包含来自历史静态空间图的。此外，添加边连接不同时间步的相同关节节点，以建立连续时间关节运动的相关性。其公式如下：

通过这种方式,得到了完整的时空图。随后，采用图卷积网络（GCN）在图中传播和聚合节点特征。GCN 层通过聚合每个节点邻居节点的特征来更新节点特征，从而捕捉机器人手臂的关系和结构信息。我们使用最后一层编码器的节点特征作为机器人结构的表示，以指导去噪过程。

运动学正则化器

为了有效控制末端执行器，生成的姿态轨迹必须通过逆运动学（IK）求解器进行处理，该求解器计算关节配置以实现指定的姿态。然而，由于预测轨迹的生成未考虑机器人运动学约束，它常常超出 IK 求解器的可行范围，导致执行过程中失败率较高。为了解决这一限制，在末端执行器姿态学习目标中引入了运动学正则化器。该正则化器将预测姿态与机器人运动学约束对齐，确保生成的轨迹保持在 IK 求解器的可解空间内，从而提高轨迹执行的可靠性。

可微运动学
给定关节配置，相应的末端执行器姿态可以通过正向运动学计算，表示为映射。这种从关节空间到末端执行器空间的映射是可微的，即可微正向运动学（DFK），使得我们可以利用梯度来优化控制策略。借助 DFK，我们的策略学习预测下一个关节配置，并从中计算中间末端执行器姿态。通过使用作为参考，我们指导去噪过程生成精确且可执行的末端执行器姿态。

将结构特征与最后一个隐藏状态结合，投影到关节空间，并使用 DFK 获得参考，如下所示：

为了确保预测关节角度与实际关节角度之间的一致性，最小化关节损失：

基于运动学的扩散过程条件化
为了强化运动学一致性，将扩散过程条件化于参考表示，这是一个编码运动学约束的辅助输入。这使得预测的姿态轨迹保持在可行空间内。给定公式（9）和公式（10）中的扩散步骤，有：

将可微正向运动学（DFK）引入扩散过程，使得姿态损失的梯度能够通过运动学函数反向传播，确保每个去噪步骤都符合关节约束，从而优化末端执行器的控制精度和鲁棒性。

训练与推理

训练
使用条件动作生成模式来训练 KStar Diffuser，其被建模为条件去噪扩散。损失函数定义为均方误差（MSE），如下所示：

其中通过前向扩散过程获得，是、和的组合，是权衡系数。

推理
从高斯噪声中采样，策略执行次迭代，逐步将随机噪声去噪为无噪声动作：

实验

数据集与评估设置

数据集
双机械臂操作任务对两个机械臂之间的协调性、同步性和对称性提出了更高的要求，因此比单臂任务更具挑战性。为了评估 KStar Diffuser 在这些方面的能力，使用 RLBench2 基准测试进行了全面的实验。RLBench2 是 RLBench 的扩展版本，专为双机械臂操作设计，包含与真实场景高度相似的任务。

评估设置
为了评估策略性能，采用成功率作为主要指标。尽管策略在执行过程中会生成多个连续动作，但我们主要关注最终目标的实现，而非中间步骤。每个任务都有其目标状态定义的成功标准。为了全面评估策略的能力，我们在训练过程中使用不同数量的演示（20 和 100）进行实验。下图 3 展示了我们的实验设置，包括仿真环境和 Cobot Agilex ALOHA 机器人。仿真任务和真实世界实验设置的详细描述见附录 B。

基线方法

系统地评估了 KStar Diffuser 与以下两类最先进方法的对比：

基于 Transformer 的方法：

动作分块 Transformer (ACT) ：采用条件变分自编码器（CVAE）架构，包含用于关节角度序列预测的编码器-解码器框架。
机器人视角 Transformer 领导者跟随 (RVT-LF) ：以 RVT 为骨干，结合多视角 Transformer 进行跨视角信息聚合和图像重渲染，并通过领导者跟随机制进行动作预测。
感知-动作领导者跟随 (PerAct-LF) ：基于 PerAct 的领导者跟随范式，利用感知 Transformer 编码指令和体素观察，以生成最优体素动作。
PerAct2：通过为双机械臂动作实现统一特征空间并结合自注意力机制进行同步双机械臂动作预测，增强了 PerAct。

基于扩散的方法：

基于关节的扩散策略 (DP-J) ：在模仿学习框架中采用扩散模型进行机器人操作，专注于关节角度预测。
基于末端执行器的扩散策略 (DP-EE) ：重新实现了 Diffusion Policy，以预测末端执行器姿态而非关节角度，提供了一种替代控制范式。
3D 扩散策略 (DP3) ：通过结合点云进行关节角度预测，增强了 3D 感知能力。

与 SOTA 方法的对比结果

RLBench2 上的实验结果
如下表 1 所示，KStar Diffuser 显著优于其他最先进的基线方法，在 20 和 100 个训练演示的情况下，整体性能均提高了 20% 以上。

类似于学习单臂策略，学习双机械臂策略的过程可以快速适应并实现较高的成功率，前提是任务轨迹分布相对一致。例如，在"推箱子"任务中，目标是让两个机械臂沿固定轨迹将箱子推向指定目标，KStar Diffuser 和其他基线模型表现良好。然而，随着任务复杂性的增加，成功率会下降。例如，在"举球"任务中，两个机械臂必须同时举起一个大球才能完成任务。任何运动的不同步都可能导致不稳定，使球滑落并最终导致任务失败。KStar Diffuser 通过显式建模两个机械臂之间的空间和运动关系，在此类双机械臂任务中实现了稳健的性能，比其他方法高出 6% 以上。
与单臂系统不同，双机械臂系统具有协作操作的能力。直接从单臂操作适应到双机械臂操作的方法在任务中表现出较高的失败率，例如"拿笔记本电脑"任务，因为它们缺乏对机械臂之间空间和运动关系的考虑。具体来说，如图 4 所示，该任务涉及从柜子表面拿起一个平放的笔记本电脑。由于笔记本电脑完全贴合桌面，机械臂无法直接抓取。相反，有效的策略是控制一个机械臂将笔记本电脑从柜子向外推一小段距离，使另一个机械臂能够拿起它。KStar Diffuser 的成功率比其他方法高出约 9%，展示了其捕捉双机械臂协作操作所需协调运动模式的能力。

真实世界实验结果
为了全面评估策略的有效性，我们基于仿真基准在真实世界中构建了 2 个任务。真实世界任务的表现如下表 2 所示。

与仿真结果类似，未考虑双机械臂场景的策略（如 ACT、DP 和 DP3）在所有双机械臂任务中表现有限，平均成功率约为 20%。尽管 PerAct2 通过将双机械臂动作映射到共享学习空间来设计双机械臂任务，但它未能捕捉双机械臂系统的空间结构，导致执行过程中机械臂协调无效。此外，我们还发现 PerAct2 在其预测的末端执行器姿态上存在显著的逆运动学问题，包括关节配置冲突和不可达位置，如下图 4 所示。这可能是由于 PerAct2 在捕捉双机械臂系统中复杂空间约束和运动学关系方面的能力有限。相比之下，KStar Diffuser 实现了卓越的双机械臂协调能力，比其他方法高出 10% 以上，因为它成功捕捉了双机械臂之间的运动模式并预测了可行的末端执行器姿态。

消融实验

模型组件的影响
为了系统评估 KStar Diffuser 中每个组件的贡献，在仿真和真实环境中对"传递物品"任务进行了消融实验。我们设计了一个逐步消融的过程：首先移除可微正向运动学（DFK）模块，同时保留时空图（ST Graph），然后完全禁用时空图和运动学正则化器（KR）。下表 3 中的实验结果展示了每个组件的关键作用。移除 KR 导致成功率显著下降，在真实场景中尤为明显。这种性能下降可归因于仿真环境和真实环境之间的根本差异。仿真环境保持一致的、无噪声的输入，而真实场景引入了各种扰动（如传感器噪声和光反射），在没有 KR 正则化作用的情况下，策略更容易违反运动学约束。进一步移除 ST Graph 和 KR 会导致所有实验设置中的性能大幅下降。这一观察结果说明了两个关键点：首先，ST Graph 有效地捕捉了关节之间的时空依赖性，这对于协调机械臂之间的相对位置和交互至关重要；其次，图结构对机器人物理架构的显式编码通过保持空间和时间一致性，增强了策略对意外扰动的鲁棒性。我们对动作分块大小、历史长度和权衡系数进行了广泛的消融研究。

定性分析

在前面图 4 中进一步展示了定性分析。分别比较了 KStar Diffuser 与 DP3 和 PerAct2 在仿真和真实环境中执行双机械臂操作任务的表现。

在仿真任务中，由于笔记本电脑平放在柜子上，直接抬起是不可行的。一个机械臂开始向前推，创造空间，而另一个机械臂同时抓取并抬起笔记本电脑。KStar Diffuser 有效地建模了这种双机械臂协调，生成了精确的同步动作轨迹。相反，从单臂策略适应到双机械臂配置的 DP3 未能实现有效协调。具体来说，在执行推动动作后，右臂没有停止，阻碍了左臂的抬起过程。

在真实世界任务中，KStar Diffuser 生成了左右机械臂之间可执行的物品传递轨迹，整个任务过程中没有发生碰撞，体现了其强大的环境适应性和碰撞避免能力。相反，PerAct2 在传递过程中发生了碰撞（用红色标记），表明其对动态真实世界变量的处理能力较弱，且缺乏对机器人运动的运动学感知。

结论

本文提出了一种新颖的运动学增强时空图扩散模型（KStar Diffuser），它将机器人结构和运动学显式地结合到双机械臂运动生成过程中。该模型包括一个时空机器人图，显式建模机器人物理配置以指导生成动作的去噪过程，以及一个运动学正则化器，通过引入关节空间监督来增强 NBP 学习目标。大量实验表明，KStar Diffuser 在仿真和真实世界任务中均大幅优于基线方法。

局限性与未来方向
虽然通过 GNN 建模和运动学约束探索了机器人结构的影响，但末端执行器姿态预测和逆运动学的核心控制逻辑仍然存在。未来，我们计划利用神经网络直接建模关节运动，将机器人运动空间与人类世界的笛卡尔空间对齐。

参考文献

[1] Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

AI I024

2025年3月19日星期三

CVPR 2025 I 机器人双臂操控新突破！KStar Diffuser如何解决自碰撞与运动约束世纪难题？