通用操作界面：没有野外机器人，教野外机器人技能

硅谷秋水

于 2024-09-07 00:14:26 发布

阅读量551

点赞数 16

分类专栏：智能体计算机视觉机器学习文章标签：机器人人工智能计算机视觉深度学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/141950720

版权

机器学习同时被 3 个专栏收录

233 篇文章 2 订阅

订阅专栏

智能体

136 篇文章 0 订阅

订阅专栏

计算机视觉

122 篇文章 0 订阅

订阅专栏

24年3月来自斯坦福大学、哥伦比亚大学和TRI的论文“Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots”。

通用操作界面 (UMI) 是一个数据收集和策略学习框架，允许将技能从野外人类演示直接转移到可部署的机器人策略。UMI 采用手持式夹持器和精心设计的界面，实现便携式、低成本和信息丰富的数据收集，用于具有挑战性的双手和动态操作演示。为了促进可部署的策略学习，UMI 结合精心设计的策略界面，具有推理时间延迟匹配和相对轨迹动作表示。由此产生的学习策略与硬件无关，可部署在多个机器人平台上。配备这些功能后，UMI 框架解锁机器人操作新功能，只需更改每个任务的训练数据，即可实现零样本可泛化动态的、双手的、精确的和长范围的行为。现实世界的实验，展示 UMI 的多功能性和有效性，其中 UMI 零样本学习的策略，在不同的人类演示进行训练时，可以推广到新环境和新目标。

如何演示复杂的操作技能让机器人从中学习？该领域的尝试主要从两个方向来解决这个问题：通过远程操作收集实验室内有针对性的机器人数据集，或利用非结构化的野外人类演示视频数据。不幸的是，无论是硬件还是专家操作员，人类演示视频都与机器人操作存在很大的差距。

最近，使用带传感器的手持式夹持器作为数据收集接口 [41, 50, 36] 已成为一种有前途的中立替代方案——同时最小化具身差距，同时保持直观和灵活。尽管这些方法具有潜力，但它们仍然难以平衡动作多样性和可迁移性。虽然理论上用户可以用这些手持设备收集任何动作，但大部分数据无法迁移到有效的机器人策略中。因此，尽管在数百种环境中实现了令人印象深刻的视觉多样性，但收集到的动作仅限于简单的抓取 [41] 或准静态拾取和放置 [50, 36]，缺乏动作多样性。

是什么阻碍了动作迁移？主要是一些微妙但关键的问题：

视觉上下文信息不足：虽然使用腕戴式摄像头是对齐观察空间和增强设备便携性的关键，但它限制了场景的视觉覆盖范围。摄像头与被操纵物体的距离，通常会导致严重遮挡，从而无法为动作规划提供足够的视觉上下文。
动作不精确：大多数手持设备依靠单目运动恢复结构 (SfM) 来估计机器人动作。然而，由于尺度模糊、运动模糊或纹理不足，这种方法通常难以恢复精确的全局动作，这严重限制了系统可用的任务精度。
延迟差异：在手持数据收集过程中，观察和动作记录没有延迟。然而，在推理过程中，系统内会出现各种延迟源，包括传感器、推理和执行延迟。未意识到这些延迟差异的策略，将遇到分布外（OOD）的输入，进而产生不同步的操作。这个问题对于快速和动态的操作尤其突出。
策略表示不足：以前的工作通常使用带有动作回归损失的简单策略表示（例如 MLP），这限制了它们捕获人类数据中固有复杂多模态动作分布的能力。因此，即使精确恢复了演示动作并消除了所有差异，生成的策略仍然可能难以准确地拟合数据。当更多演示者增加动作多模态性的同时，这进一步阻碍大规模分布式人类演示数据的收集。

UMI 演示界面设计如图所示：左图是手持式夹持器用于数据收集，GoPro 是唯一的传感器和记录设备；中图是GoPro 155° 鱼眼视图的图像；以绿色突出显示的物理侧视镜，提供隐立体视觉信息；右图是与 UMI 兼容的机器人夹持器和摄像头设置得到类似于手持式夹持器的观测视图。

请添加图片描述

按上图那样，仅需在手持式夹持器上安装一个腕式摄像头，便可证明 UMI 能够仅更改每个任务的训练数据（如下图所示，UMI 是一种便携、直观、低成本的数据收集和策略学习框架）来实现涉及动态、双手、精确和长范围动作的广泛操作任务。此外，在使用不同的人类演示进行训练时，最终策略表现出对新环境和新目标的零样本泛化能力，在分布外测试中实现了 70% 的成功率，这种泛化水平在其他行为克隆（BC）框架中很少见。

请添加图片描述

相关工作

模仿学习从专家演示中学习策略。行为克隆 (BC) 利用遥控机器人演示，因其直接可迁移性而脱颖而出。然而，遥控真实机器人进行数据收集带来了重大挑战。以前的方法利用 3D 空间鼠标 [9, 54]、VR 或 AR 控制器 [35, 3, 13, 19, 31, 51, 12]、智能手机 [44, 45, 22] 和触觉设备 [38, 47, 43, 26, 4] 等界面进行遥控操作。这些方法要么非常昂贵，要么难以使用，因为延迟高且缺乏用户直观性。ALOHA [53, 15] 和 GELLO [46] 等领导者-追随者（即木偶操作）设备的最新进展，虽然它们有望提供直观且低成本的界面，但在数据收集过程中对真实机器人的依赖限制了系统可以访问的“野外”数据采集环境类型和数量。外骨骼（Exoskeletons） [14, 20] 消除了数据收集过程中对真实机器人的依赖，但需要使用遥控真实机器人数据进行微调才能部署。此外，上述设备产生的数据和策略是特定于具体实施例的，无法重复用于不同的机器人。

有一项独特的工作致力于从自然视频数据（例如 YouTube 视频）中进行策略学习。最常见的方法是从各种被动的人类演示视频中学习。利用被动人类演示，以前的工作学习任务成本函数 [37, 8, 1, 21]、affordance函数 [2]、密集的目标描述符 [40, 24, 39]、动作对应关系 [33, 28] 和预训练的视觉表示 [23, 48]。

然而，这种方法面临三大挑战。1）首先，大多数视频演示缺乏明确的动作信息，这对于学习可推广的策略至关重要。为了从被动人类视频中推断动作数据，以前的工作求助于手势检测器 [44, 1, 38, 28]，或将人类视频与域内遥控机器人数据相结合以预测动作 [33, 20, 34, 28]。2）其次，人类与机器人之间明显的具身差距阻碍了动作迁移。弥合差距的努力，包括学习人与机器人动作映射和手势重定向 [38, 28] 或提取与具身无关的关键点 [49]。尽管进行了这些尝试，但固有的具身差异，仍然使人类视频到物理机器人的策略迁移变得复杂。3）第三，这项工作中具身差距引起的固有观察差距，导致训练/推理时间观察数据之间不可避免地不匹配，恶化了所得策略的可迁移性，尽管努力将演示观察与机器人观察相结合 [20, 28]。

手持式夹持器 [41, 50, 10, 32, 27, 25] 最大限度地减少了操作数据收集中的观测具身差距，为野外高效收集数据提供了可迁移性和直观的界面。然而，从这些设备中准确而稳健地提取 6DoF 末端执行器 (EE) 姿势，仍然具有挑战性，阻碍了从这些数据中学习的机器人策略在细粒度操作任务上的部署。

先前的研究尝试通过各种方法解决这个问题，例如 SfM [50, 25] 存在尺度模糊性；RGB-D 融合 [41] 需要昂贵的传感器和板载计算；外部运动跟踪 [32, 27] 仅限于实验室设置。由于 EE 跟踪精度低和稳健性低，这些设备仅限于准静态动作，通常需要笨重的机载计算机或外部运动捕捉 (MoCap) 系统，从而降低了它们在野外数据收集方面的可行性。相比之下，UMI 将最先进的 SLAM [6] 与 GoPro 内置的 IMU 数据相结合，准确捕捉全球范围内的 6DoF 动作。高精度数据使训练有素的 BC 策略能够学习双手任务。通过彻底的延迟匹配，UMI 进一步为投掷等动态动作实现了现实世界可部署的策略。

Dobb-E [36] 提出一种安装在 iPhone 上的“延伸器-抓取器”工具，用于收集 Stretch 机器人的单臂演示。然而，Dobb-E 仅演示了准静态任务的策略部署，并且需要针对特定环境进行策略微调。相反，仅使用 UMI 收集的数据可以使训练有素的策略零样本推广到新的野外环境、未见过的物体、多个机器人具身，实现动态、双手、精确和长范围任务。

UMI 消除了数据收集过程中对物理机器人的需求，并为教会野外机器人技能提供了更便携的界面，提供可迁移到不同机器人实施例（例如，6DoF 或 7DoF 机械臂）的数据和策略。

使用 UMI 收集的数据在动作和观察空间中都表现出最小的具身差距，这是来自于教学和测试期间强大的视觉惯性相机跟踪以及共享鱼眼腕戴式相机所做的精确操作动作提取。因此，这使动态的、双手的、精确的和长范围操作任务的野外零样本策略迁移成为可能。

通用操作接口 (UMI) 是一种手持式数据收集和策略学习框架，允许野外的人类演示直接迁移到可部署的机器人策略。它在设计时考虑了以下目标：
便携。手持式 UMI 夹持器可以带到任何环境中，并以接近于零的设置时间开始数据收集。
能力。能够捕捉和传输自然和复杂的人类操作技能，而不仅仅是拾取和放置。
充足。收集的数据应包含足够的信息来学习有效的机器人策略，并包含最少阻止迁移的具身-特定信息。
可重复。研究人员和爱好者应该能够一致地构建 UMI 夹持器并使用数据来训练自己的机器人，即使用不同的机器人手臂也是如此。

以下是6点技术设计：

腕戴式摄像机作为输入观察。在机器人上部署 UMI 时，将 GoPro 摄像机放置在与手持夹持器相同的 3D 打印手指位置。这种设计具有以下好处：

最大限度地减少观测具身差距。得益于硬件设计，腕戴式摄像机中观察的视频，在人类演示和机器人部署之间几乎没有区别，从而使策略输入对实施的敏感度降低。
机械稳健性。由于摄像机相对于手指是机械固定的，因此将 UMI 安装在机器人上，不需要摄像机-机器人-世界标定。因此，该系统对机械冲击的稳定性更高，易于部署。
便携式硬件设置。无需外部静态摄像机或额外的板载计算，大大简化数据收集设置，整个系统高度便携。
摄像机运动可实现自然数据多样化。从实验中观察的一个附带好处是，在使用移动摄像机进行训练时，策略会学习将焦点集中在与任务相关的目标或区域上，而不是背景结构（效果类似于随机裁剪）。因此，最终策略在推理时自然会变得更加稳健，抵御干扰。
避免使用外部静态摄像机也会给下游策略学习带来额外的挑战。例如，策略现在需要处理非平稳和部分观察。

用于视觉背景的鱼眼镜头。在腕戴式 GoPro 相机上使用 155 度鱼眼镜头附件，它为各种任务提供了足够的视觉背景。作为策略输入，直接使用原始鱼眼图像而不进行失真处理，因为鱼眼效果可以方便地保留中心的分辨率，同时压缩外围视图中的信息。相比之下，校正后的针孔图像表现出极端的扭曲，由于视场宽，不适合学习。除了通过增加视觉特征和重叠来提高 SLAM 鲁棒性 [52] 之外，鱼眼镜头通过提供必要的视觉上下文来提高策略性能。

请添加图片描述

用于隐式立体的侧视镜。为了缓解单目相机视图缺乏直接深度感知的问题，在相机的外围视图中放置了一对物理镜子，从而在同一图像中创建隐式立体视图。如图 (a) 所示，镜子内的图像相当于从沿镜面反射的其他相机中看到的图像，而无需额外的成本和重量。为了利用这些镜像视图，在镜子中数字反射图像的裁剪（如图 © 所示）可获得最佳的策略学习结果。注：如果没有数字反射，通过侧视镜看到物体的方向与主摄像头视图中的方向相反。

请添加图片描述

IMU-觉察跟踪。UMI 利用 GoPro 内置的功能将 IMU 数据（加速度计和陀螺仪）记录到标准 mp4 视频文件中，从而以绝对尺度捕捉快速运动 [18]。通过联合优化视觉跟踪和惯性姿势约束，基于 ORB-SLAM3 [7] 的惯性单目 SLAM 系统，即使由于运动模糊或缺乏视觉特征（例如低头看桌子）导致视觉跟踪失败，也能在短时间内保持跟踪。这使 UMI 能够捕捉和部署高度动态的动作，例如抛掷。此外，联合视觉-惯性优化允许直接恢复真实度量尺度，这对于动作精度和夹持器间姿势的本体感受很重要：这是实现双手策略的关键因素。
连续夹持器控制。与先前研究中使用的二值开-合动作 [41、44、54] 相比，连续控制夹持器宽度可显著扩展平行钳口夹持器可执行的任务范围。例如，抛掷任务需要精确的时间来释放物体。由于物体的宽度不同，二元夹持器动作不太可能满足精度要求。在 UMI 夹持器上，手指宽度通过基准marker [16] 连续跟踪。使用串联弹性末端执行器原理 [42]，UMI 可以通过连续控制夹持器宽度来调节软手指的变形，从而隐式记录和控制抓握力。
基于运动学的数据滤波。虽然数据收集过程与机器人无关，但应用简单的基于运动学数据滤波为不同的机器人具身选择有效轨迹。具体而言，当机器人的基本位置和运动学已知时，通过 SLAM 恢复的绝对末端执行器姿势允许对演示数据进行运动学和动力学可行性滤波。对过滤后的数据集进行训练，可确保策略符合具身-特定的运动学约束。

总之，UMI 夹持器重 780 克，外部尺寸为 L310mm×W175mm×H210mm，手指行程为 80mm。3D 打印夹持器的物料清单成本为 73 美元，而 GoPro 相机和配件总计 298 美元。可以为任何机器人手臂配备兼容的夹持器和相机设置。

如图所示UMI 策略接口设计。 (b) UMI 策略采用一系列同步观测（RGB 图像、相对 EE 姿势和夹持器宽度）并输出一系列所需的相对 EE 姿势和夹持器宽度作为动作。 (a) 将不同的观测流与物理测量的延迟同步。 © 提前发送动作命令以补偿机器人的执行延迟。

请添加图片描述

利用收集的演示数据，可以训练视觉运动策略，该策略接收一系列同步观察（RGB 图像、6 自由度末端执行器姿势和夹持器宽度）并产生一系列动作（末端执行器姿势和夹持器宽度），如上图 (b) 所示。所有实验都使用了扩散策略 [9]，而其他框架（如 ALOHA平台的ACT [53]）可以作为替代。

UMI 策略界面设计的一个重要目标是确保界面与底层机器人硬件平台无关，以便在一个数据源（即手持式夹持器）上训练的最终策略可以直接部署到不同的机器人平台上。为此，旨在解决以下两个关键挑战：

特定于硬件的延迟。各种硬件（流摄像头、机器人控制器、工业夹持器）的延迟在系统部署中变化很大，范围从个位数到数百毫秒。相比之下，得益于 GoPro 的同步视频、IMU 测量和基于视觉的夹持器宽度估计，UMI 夹持器捕获的所有信息流相对于图像观察的延迟为零。
特定于具身的本体感受。常用的本体感受观察（例如关节角度和 EE 姿势）仅针对特定的机械臂和机器人底座位置进行明确定义。相比之下，UMI 需要跨不同环境收集数据，并可推广到多个机器人实施例。

以下是三种解决这些挑战的策略接口设计。

推理时间延迟匹配。虽然 UMI 的策略接口假设同步观测流和立即执行动作，但物理机器人系统并不符合这一假设。如果不小心处理，训练和测试之间的时间不匹配，可能会导致需要快速移动和精确手-眼协调的动态操作任务的性能大幅下降。分别处理观察和动作方面的时序差异：

1.1) 观察延迟匹配。在实际机器人系统中，不同的观察流（RGB 图像、EE 姿势、夹持器宽度）由分布式微控制器捕获，从而导致不同的观察延迟。对于每个观测流，单独测量它们的延迟。在推理时，将所有观测与具有最高延迟的媒体流（通常是相机）对齐。具体而言，首先将 RGB 相机观察结果在时间下采样到所需频率（通常为 10-20Hz），然后使用每个图像的捕获时间戳来线性插入夹持器和机器人本体感受流。在双手系统中，通过查找最近邻帧来软同步两个相机，这些帧最多可以相差 1 秒。结果是符合 UMI 策略的同步观察序列，如上图 (a) 所示。

1.2) 动作延迟匹配。UMI 策略假设输出为同步 EE 姿势和夹持器宽度的序列。然而，在实践中，机器人手臂和夹持器只能跟踪所需的姿势序列，直到执行延迟，而不同的机器人硬件会有所不同。为了确保机器人和夹持器在所需的时间（由策略给定）达到所需的姿势，需要提前发送命令以补偿执行延迟，如上图 © 所示。在执行过程中，UMI 策略从观察的最后一步 tobs 开始预测动作序列。由于观察延迟 tinput − tobs 、策略推理延迟 toutput − tinput 和执行延迟 tact − toutput ，预测的前几个动作会立即过时。只是丢弃过时的操作，并且只在每个硬件的 tact 之后执行具有所需时间戳的操作。

相对末端执行器姿势。末端执行器 (EE) 姿势对于 UMI 的观测和动作空间都至关重要。为了避免依赖具身/部署特定的坐标，将所有 EE 姿势表示为相对于夹持器当前 EE 姿势。

2.1) 相对 EE 轨迹作为动作表示。动作空间选择对任务性能有显著影响 [9]，实验证据显示绝对位置动作优于增量动作。然而，相对轨迹表示（定义为从 t0 开始的动作序列，表示相对于 t0 初始 EE 姿势的 t 姿势的 SE(3) 变换序列），可使系统更能抵抗数据收集和相机位移期间的跟踪误差。

2.2) 相对 EE 轨迹作为本体感受。类似地，将历史 EE 姿势的本体感受表示为相对轨迹。当观察范围设置为 2 时，此表示有效地为策略提供了速度信息。结合腕戴式摄像头的观测空间，相对轨迹使系统无需标定。在执行过程中移动机器人底座不会影响任务性能，只要物体仍在可及范围内，这样 UMI 框架也适用于移动机械手。

2.3) 相对夹持器间本体感受。在双手设置中使用 UMI 时，为策略提供两个夹持器之间的相对姿势，对于双手协调和任务成功至关重要。当两个摄像头之间的视觉重叠较小时，夹持器间本体感受的影响特别大。夹持器间的本体感受由“地图后定位”数据收集方案实现，该方案构建场景级全局坐标系。对于每个新场景，首先收集一个视频，为该场景构建一个地图。然后，将在此场景中收集的所有演示重新定位到同一张地图，因此共享相同的坐标系。尽管每个夹持器的视频都是单独重新定位的，但可以使用它们共享的坐标来计算每个时间步骤中两个夹持器之间的相对姿势。

如图所示相对轨迹作为动作表示。UMI 使用的相对轨迹，是相对于每个推理步骤相同的当前 EE 姿势的一系列末端执行器 (EE) 姿势。相比之下，增量动作表示相对于其紧接前一个动作的每个动作步，因此累积误差。绝对动作需要所有动作的全局坐标系，这对于野外数据收集来说很难定义。

请添加图片描述

硅谷秋水

关注

16
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
通用操作界面：没有野外机器人，教野外机器人技能

24年3月来自斯坦福大学、哥伦比亚大学和TRI的论文“Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots”。
复制链接

扫一扫

专栏目录