将机器人带回家: 系统 Dobb·E 和工具 Stick

最新推荐文章于 2024-09-25 08:24:29 发布

硅谷秋水

最新推荐文章于 2024-09-25 08:24:29 发布

阅读量754

点赞数 10

分类专栏：智能体机器学习计算机视觉文章标签：机器人深度学习人工智能机器学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/142137067

版权

机器学习同时被 3 个专栏收录

276 篇文章 2 订阅

订阅专栏

智能体

216 篇文章 0 订阅

订阅专栏

计算机视觉

166 篇文章 1 订阅

订阅专栏

23年11月来自NYU和Meta的论文“On Bringing Robots Home”。

历史上人类已成功将各种机器融入家中。洗碗机、洗衣机、立式搅拌机和机器人吸尘器只是最近几个例子。然而，这些机器只擅长有效地执行单一任务。家庭中的“通用机器”概念——能够适应和学习人类的需求，同时又保持成本效益的家庭助手——长期以来一直是机器人技术的目标，几十年来一直稳步在追求。这项工作引入 Dobb·E ，一种价格合理但用途广泛的通用系统，用于在家庭环境中学习机器人操作。多亏用廉价零件和 iPhone 制作的演示收集工具（“The Stick”），Dobb·E 只需用户五分钟的演示就可以学会一项新任务。用 Stick 在纽约市的 22 个家庭中收集 13 小时的数据，并训练家庭预训练表征 (HPR)。然后，在一个新家庭环境中，通过五分钟的演示和十五分钟的 HPR 模型调整，Dobb·E 可以可靠地解决 Stretch 上的任务，Stretch 是一种市场上随处可见的移动机器人。在纽约市及其周边地区的家庭中进行大约 30 天的实验中，在 10 个家庭中测试了系统，在不同环境中总共执行了 109 项任务，最终实现了 81% 的成功率。除了成功率之外，实验还揭示了实验室机器人技术中缺失或忽略的大量独特挑战。这些挑战包括强阴影的影响以及非专家用户的不同演示质量。

请添加图片描述

开源 Dobb·E 软件堆栈和模型、数据以及硬件设计：https://dobb-e.com/

自从脱离游牧生活方式以来，家庭一直是人类生存的基石。技术进步使家庭生活更加舒适，从简单的热水器等公用设施到先进的智能家居系统，各种创新层出不穷。然而，整体自动化的家庭助理，即使在流行文化中有着重要的代表性 [1]，仍然难以捉摸。

目标是制造能够在现实世界中不同的家庭中执行各种简单家务的机器人。这样的努力需要从流行的范式转变——目前的机器人研究主要在工业环境或学术实验室中进行，两者都包含精心挑选的目标、场景，甚至照明条件。事实上，即使是简单的目标拾取 [2] 或点导航 [3] 任务，机器人算法在家庭中的表现也远低于实验室算法的表现。如果寻求构建能够解决更难的通用任务机器人系统，需要重新评估实验室机器人技术中的许多基本假设。

Dobb·E，是一个在家中教育机器人的框架，体现了三个核心原则：效率、安全性和用户舒适度。为了提高效率，采用了大规模数据和现代机器学习工具。为了提高安全性，当机器人面临新任务时，它会从少量人类演示中学习，而不是反复试验。为了提高用户的舒适度，开发了一种符合人体工程学的演示收集工具，能够在不熟悉的家中收集特定任务的演示，无需直接操作机器人。

为了创建 Dobb·E，一方面从基本原理构建新机器人系统，另一方面整合最先进的技术。

从高层次来看，Dobb·E 是一个行为克隆框架 [10]。行为克隆是模仿学习的一个子类，模仿学习是一种机器学习方法，其中模型通过观察和模仿人类或其他专家智体的动作和行为来学习执行任务。行为克隆，涉及训练模型以模仿演示的行为或动作，通常是通过使用标记的训练数据将观察结果映射到所需的动作。方法中，在家庭演示数据集上预训练了一个轻量级的基础视觉模型，然后在新家中，给定一个新任务，收集一些演示并微调模型来解决该任务。然而，行为克隆的许多方面都是从头开始创建的，或者从现有解决方案中重新设计的，符合对效率、安全性和用户舒适度的要求。

该方法可以分为四个大阶段：（a）设计一个硬件设置，帮助收集演示并将其无缝转移到机器人身上，（b）使用硬件设置在不同的家庭中收集数据，（c）在这些数据上预训练基础模型，（d）将训练的模型部署到家庭中。如图所示：

在这里插入图片描述

硬件设计的理念是将移动控制器的多功能性与机器人物理移动的直观性结合起来。其没有让用户移动整个机器人，而是使用一个可以在网上轻松购买的廉价 25 美元抓取器制作了 Hello Robot Stretch 末端执行器的复制品，并用 3D 打印的 iPhone 支架对其进行增强。这个工具称为“Stick”，这是之前工作中使用工具的自然演变。如图是设计的硬件照片，包括 (A) Stick 和 (B) 用于 Hello Robot 相同 iPhone 支架: Stretch wrist。从 iPhone 的角度来看，两种设置的夹持器看起来完全相同。

请添加图片描述

Stick 使用现成的 Record3D 应用程序通过安装的 iPhone 收集演示数据。Record3D 应用程序能够保存从摄像头记录的 1280×720 像素 RGB 数据、从激光雷达传感器记录的 256×192 像素深度数据以及从 iPhone 内部里程计和陀螺仪记录的 6D 相对平移和旋转数据。以 30 FPS 的速度将这些数据记录到手机上，然后导出并处理这些数据。

所有系统都部署在 Hello Robot Stretch 上，这是一款单臂移动机械手机器人，已在公开市场上出售。在所有实验中都使用 Stretch RE1 版本，其灵巧的手腕附件赋予机器人 6D 运动能力。之所以选择这款机器人，是因为它价格便宜、重量轻（仅重 51 磅，23 公斤），并且可以使用电池运行长达两个小时。此外，Stretch RE1 还配备英特尔 NUC 计算机，可以以 30 Hz 的频率运行学习策略。

在 Stick 和 Hello Robot 手臂上创建并使用匹配的支架来安装 iPhone，在这两种情况下，iPhone 都充当相机和传感器。使用此设置收集数据的主要优势之一是，从相机的角度来看，Stick 夹持器和机器人夹持器看起来完全相同，因此收集的数据以及对此类数据的任何训练表示和策略都可以直接从 Stick 传输到机器人。此外，由于设置仅使用一个安装在机器人上的摄像头，不必担心拥有和标定一个第三人称、在环境中安装的摄像头，这使设置能够保持对相机标定问题和安装相关环境变化的鲁棒性。

作为对标准伸手抓取器以及 Hello Robot Stretch 末端执行器的细微修改，将夹持器的带衬垫吸盘式尖端，替换为小圆柱形尖端。这种替换有助于系统操纵更精细的物体，例如门和抽屉把手，而不会被卡住或阻塞。圆柱形尖端更适合此类操作，尽管这会使拾取和放置等任务稍微困难一些。

HoNY 数据集是在 22 个不同家庭志愿者的帮助下收集的，它包含 5620 个演示，总共 13 小时的录制时间，总计近 150 万帧。要求志愿者专注于总共八个定义的广泛任务类别：开关按钮、开门、关门、打开抽屉、关闭抽屉、拾取和放置、抓握手柄和游戏数据。对于游戏数据，要求志愿者收集用这种棍子在家里做任何任意事情的数据。这种好玩的行为在过去已被证明对表征学习有希望 [21, 24]。
如图是HoNY数据集的统计分布情况：

请添加图片描述

虽然 iPhone 可以得到末端执行器的姿势，但无法轻易获得夹持器本身的打开或关闭状态。为了解决这个问题，训练了一个模型来跟踪夹持器尖端。从数据集中提取了 500 个随机帧，并在这些帧上用像素坐标标记了两个夹持器尖端的位置。在该数据集上训练了一个夹持器模型，这是一个 3 层 ConvNet，它试图将夹持器尖端之间的距离预测为 0 到 1 之间的标准化数字。该模型在保留评估集上获得 0.035 MSE 验证误差（在 0-1 的范围内），然后用来将数据集中其余的帧标记为 0 到 1 之间的夹持器值。

以 30 Hz 的频率收集演示中的 RGB 和深度数据以及摇杆的 6D 运动。为了在模型中使用，将图像和深度缩放并重塑为 256×256 像素。对于动作，以 30 Hz 的频率存储 iPhone 的绝对 6D 姿势。在模型训练或微调期间，将相对姿势变化计算为运行时在所要频率下的动作。

只考虑简单的视觉模仿学习算法，每次只考虑一个步骤。虽然这不可避免地限制了系统的功能，但将时间扩展的策略作为想要在家庭机器人上探索的未来方向。策略由两个简单的组件组成：一个视觉编码器和一个策略头。

用 ResNet34 架构作为主要视觉编码器的基础。虽然自 ResNet34 以来还开发了其他新架构，但它满足了对高性能的需求，同时又足够小，可以在机器人的机载计算机上运行。用 MoCo-v3 自监督学习算法在收集的数据集上对视觉编码器进行 60 个 epoch 的预训练。将此模型称为 Home Pretrained Representation (HPR) 模型，部署的所有策略都是基于该模型进行训练。

在每个新任务中，都会根据视觉编码器和捕获的深度值学习一个简单的操作策略。对于该策略，输入空间是一个 RGB-D 图像（4 个通道），形状为 256×256 像素，输出空间是一个 7 维向量，其中前 3 个维度是相对平移，接下来的 3 个维度是相对旋转（以轴角表示），最后一个维度是 0 到 1 之间的夹持器值。策略是学习以 3.75 Hz 预测一个动作，因为这是对轨迹进行子采样的频率。

策略架构仅由应用于 RGB 通道的视觉表征模型和应用于深度通道的中值池化组成，然后是两个完连接层，将 512-维图像表征和 512-维深度值投影到 7 维动作。在这个监督训练期间，网络学习从观察映射到动作，不会冻结任何参数，以 3 × 10-5 的学习率训练 50 个epochs。用 MSE 损失训练网络，并在计算损失之前将每个轴的动作归一化为零均值和单位标准差的分布。

如图所示：对预训练的 HPR 模型进行微调，学习将机器人的 RGB 和深度观察映射到机器人动作的模型，6D 相对姿势和夹持器开合值。

在这里插入图片描述

一旦有了 Stick 来收集数据、数据集准备脚本和用于微调预训练模型的算法，最后一步就是将它们组合起来并部署到家庭环境中的真实机器人上。这项工作专注于解决主要涉及操纵环境的任务，因此假设机器人已经导航到任务空间并开始面对任务目标（例如，可能是要打开的电器或要操纵的物体）。

在一个新家中，为了解决新任务，首先要收集一些有关该任务的演示。通常收集 24 个新演示作为经验法则，实验表明，这对于简单的五秒钟任务来说已经足够了。实际上，收集这些演示大约需要五分钟。但是，有些环境需要更长的时间来重置，在这种情况下收集演示也可能需要更长的时间。为了赋予机器人策略一些空间泛化能力，通常从任务设置前面的各种位置开始收集数据，通常是在一个小的 4×6 或 5×5 网格中，如图所示：

在这里插入图片描述

收集数据后，大约需要 5 分钟将 R3D 文件中的数据处理成定义的数据集格式。然后，在现代 GPU（RTX A4000）上，进行 50 个 epoch 的训练平均需要大约 20 分钟。因此，平均而言，从数据收集开始 30 分钟内，就能得到一个可以在机器人上部署的策略。

在机器人板载 Intel NUC 计算机上运行该策略。用安装在手臂上的 iPhone 和 Record3D 应用程序通过 USB 将 RGB-D 图像传输到机器人计算机。在输入图像和深度上运行策略以获得预测动作。使用基于 PyKDL 的逆运动学求解器在机器人末端执行器上执行预测的相对动作。由于该模型预测了相机坐标系中的运动，在机器人的 URDF 中为连接的相机添加一个关节，因此可以直接执行预测动作，无需精确计算从相机坐标系到机器人末端执行器坐标系的变换。对于夹持器关闭，应用可能因任务而异的阈值对预测的夹持器值进行二值化。观察、命令机器人执行策略预测的动作并等待机器人完成下一次观察中要采取的动作，在机器人上同步运行策略。通常对每个机器人任务使用 10 个初始起始位置。这些起始位置会改变机器人夹持器在垂直和水平方向上的起始位置。在这 10 次试验之间，我们会手动重置机器人和环境。