AirExo：野外学习整臂操作的低成本外骨骼框架-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/142373887

23年9月来自上海交大和上海AI实验室的论文“AirExo: Low-Cost Exoskeletons for Learning Whole-Arm Manipulation in the Wild”。

虽然人类可以使用手臂而不是手的其他部位进行收集和支撑等操作，但机器人是否能够有效地学习和执行相同类型的操作仍相对未知。由于这些操作需要关节级控制来调节机器人的完整姿势，AirExo 开发一种低成本、适应性强且便携的双臂外骨骼，用于远程操作和演示收集。由于收集遥控数据既昂贵又耗时，利用 AirExo 大规模收集廉价的野外演示。在野外学习框架下，仅通过 3 分钟的遥控演示，再加上 AirExo 收集的多样化和广泛的野外数据，机器人就可以学习一种策略，该策略可与从持续 20 多分钟遥控演示中学习的策略相媲美甚至更好。实验表明，该方法使模型能够在任务的各个阶段学习更通用、更稳健的策略，即使存在干扰，也能提高任务完成的成功率。

机器人操作已成为机器人学习界的一个重要领域，并引起了研究人员的极大关注。随着深度学习等技术的稳步发展，机器人操作已超越了传统的抓取 [9, 11, 33] 和拾取和放置任务 [32, 44]，涵盖了各种复杂而精细的操作 [2, 5, 10, 48]。

目前，大多数机器人操作研究都集中于仅通过机器人的末端执行器与环境交互，这些末端执行器相当于人类的手。然而，作为人类，也可以使用手臂的其他部位来完成或协助日常生活中的各种任务。例如，用小臂握住物体，用肘部关闭冰箱门等。

为了与涉及末端执行器的经典操作区分开来，这些动作被称为全臂操作。由于大多数全臂操作任务需要双肢的协调配合，将其形式化为双手操作问题的框架。虽然全臂操作对人类来说是自然而简单的，但对机器人来说却很有挑战性。首先，全臂操作通常意味着机械臂与周围环境的广泛接触，导致操作过程中存在碰撞风险。其次，全臂操作需要整个机器人姿势的精确移动，而不是像传统方法那样只达到目的地的末端执行器姿势。解决这两个挑战的一种直观方法是调整机器人的关节级控制。

最近，赵[47]介绍了一种开源低成本 ALOHA 系统，该系统展示了通过真实世界的遥控数据进行关节级模仿学习的能力。 ALOHA 系统利用两个几乎完全相同的小型、简单且模块化的双手机器人 ViperX [37] 和 WidowX [40]，为远程操作建立了领导者-跟随者框架。由于机器人的有效载荷有限，它们更注重细粒度操作。此外，它们的硬件无法无缝适配到通常用于实验室研究或工业用途的其他机器人。同样，虽然一些文献 [8、15、17、19、46] 也为某些人形机器人或机械臂设计了特殊的外骨骼，但其外骨骼跨机器人的可移植性仍然是一个挑战。

演示数据在机器人操控中起着重要作用，特别是在基于模仿学习的方法中。为了方便后续的机器人学习，这些演示数据通常在机器人领域内收集。收集此类演示的一种自然方法是人类遥操作 [24]，即人类操作员远程控制机器人执行各种任务。根据控制目标，遥操作方法大致可分为两类：一类旨在操控机器人的末端执行器 [2, 7, 10, 16, 30, 45]，另一类侧重于调节整个机器人的完整姿势，例如外骨骼 [8, 15, 17, 35, 46] 和一对领导-跟随的机器人 [41, 47]。对于整臂操控任务，需要控制机器人的完整姿势，在这种情况下，外骨骼是一个相对有利的选择。

与昂贵的机器人演示相比，野外操作演示通常价格低廉且易于获得，能够方便地收集大量此类演示。通常，在野外学习操作存在两个主要领域的差距：（1）人类操作图像与机器人操作图像之间的差距，（2）人类运动学与机器人运动学之间的差距。前者可以通过多种方法解决：利用与机器人末端执行器相匹配的专用末端执行器 [19, 43]；通过首先使用野外数据进行预训练，随后使用机器人数据进行微调 [6, 33]；或通过应用特殊的图像处理技术来生成与智体无关的图像 [1]。后者的差距目前通过应用运动恢复结构（SfM）算法 [33, 43]、采用运动跟踪系统 [6, 28] 或训练姿势检测器 [1, 38] 来提取所需的姿势来解决。然而，这些方法不适用于全臂灵巧操作，因为运动跟踪通常侧重于末端执行器，而姿势检测器容易受到视觉遮挡的影响并且不能映射到机器人运动学。

本文开发了一种低成本且便携的外骨骼 AirExo，作为人类运动和机器人运动之间的桥梁。它不仅可以应用于机器人的遥操作，还可以作为学习野外操作的有力工具。

外骨骼的5个关键设计目标：（1）可负担性；（2）适应性；（3）便携性；（4）稳健性；和（5）维护简单。

如图所示低成本外骨骼 AirExo。它使人类操作员不仅可以控制双臂机器人来收集遥控演示，还可以直接记录野外演示。除了常用的遥控演示外，该学习框架还在策略学习中利用了广泛而廉价的野外演示，与使用更多遥控演示进行训练相比，其产生了更通用、更强大的策略。

请添加图片描述

如图所示适用于不同类型机器人的 AirExo 模型。注：关节的内部结构是标准化的，只有连杆经过改变适应不同的机械臂配置：Flexiv Rizon arms [12]、UR5 [36]、Franka [13] 和 Kuka [20]。

请添加图片描述

AirExo 由两个对称的手臂组成，其中每个手臂的初始 7 个自由度 (DoF) 对应于机械臂的 DoF，最后一个 DoF 对应于机械臂的末端执行器。设计一个具有 1 个 DoF 的两指夹持器作为每个手臂的可选末端执行器。总体而言，AirExo 能够模拟机器人整个工作空间的运动学，而且模拟末端执行器的打开和关闭动作。

对于野外全臂操作学习，在 AirExo 的相机支架上安装了一个相机（或多相机设置下的多相机），其位置与机器人上的相机大致相同。使用这种配置，遥控演示和野外演示的图像都表现出相对相似的结构，这有利于策略学习。

用 AirExo 在野外学习全臂操作的方法如图所示。为了解决图像之间的领域差距，提出一个两阶段的训练过程。在第一阶段，用野外人类演示和外骨骼编码器记录的动作对策略进行预训练。在此阶段，策略主要从大规模和多样化的野外人类演示中学习高级任务执行策略。随后，在第二阶段，带有机器人动作的遥控演示对策略进行微调，根据先前获得的高级任务执行策略改进动作。

请添加图片描述

采用最先进的双手模仿学习方法 ACT [47] 进行策略学习。实验表明，它确实可以通过预训练过程学习高级策略，并显著提高机器人的评估性能和昂贵遥控演示的样本效率。

如图所示远程操作、野外演示收集和实验的硬件设置。 (a) 英特尔 RealSense D415 RGB-D 摄像头。此摄像头仅用于从带窗帘的架子上抓取任务。 (b) 英特尔 RealSense D415 RGB-D 摄像头。此摄像头用于两个任务。 © Flexiv Rizon 双臂机器人。 (d) Robotiq 2F-85 夹持器。 (e) 可调节摄像头支架。 (f) 人类操作员。 (g) AirExo 中的外骨骼。

请添加图片描述