A New Path: Scaling Vision-and-Language Navigation withSynthetic Instructions and Imitation Learnin

最新推荐文章于 2024-10-04 22:36:54 发布

帅你一脸的臭宝

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量792

点赞数 25

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/weixin_45800242/article/details/136437868

版权

摘要

最近的视觉和语言导航（VLN）研究训练强化学习智能体在逼真的环境中执行自然语言导航指令，这是向能够遵循人类指令的机器人迈出的一步。然而，由于人类指令数据的稀缺和训练环境的多样性有限，这些智能体仍然在复杂的语言基础和空间语言理解方面遇到困难。对来自网络的大型文本和图像文本数据集的预训练已经被广泛探索，但改进是有限的。我们研究使用合成指令进行大规模增强。我们采用密集采样的 360° 全景图中捕获的 500 多个室内环境，通过这些全景图构建导航轨迹，并使用高质量的多语言导航指令生成器 Marky [63] 为每个轨迹生成基于视觉的指令。我们还使用图像到图像的 GAN [27] 从新颖的角度合成图像观察结果。生成的 4.2M 指令轨迹对数据集比现有的人工注释数据集大两个数量级，并且包含更广泛的环境和观点。为了有效地利用这种规模的数据，我们通过模仿学习来训练一个简单的变压器代理。在具有挑战性的 RxR 数据集上，我们的方法优于所有现有的 RL 代理，将最先进的 NDTW 在已见环境中从 71.1 提高到 79.1，在未见测试环境中从 64.6 提高到 66.8。我们的工作指出了改进指令执行代理的新途径，强调对接近人类质量的合成指令进行大规模培训

介绍

开发遵循人类指令的智能代理是人工智能领域的一项长期而艰巨的挑战[66]。最近解决这个问题的一个焦点是视觉和语言导航 (VLN) [3, 9]。导航是研究指令遵循的理想测试平台，因为该任务可以按比例逼真地模拟，并且评估也很简单。然而，捕捉真实人类教师的语言多样性和特质的数据集很小，而且收集起来很昂贵。

其他视觉和语言任务的人工注释训练数据短缺问题已通过在多达数十亿个图像文本对上进行预训练 Transformer 得到部分解决。这支撑了图像字幕 [65, 70]、视觉问答 [59]、短语基础 [26, 35]、文本到视频检索、视频问答 [32] 和文本到图像合成 [ 49、69]。然而，这些都是静态图像或视频任务，而 VLN 代理则与 3D 环境交互。在 VLN 中，大型图像文本和纯文本数据集的预训练已得到彻底探索 [21,22,40,45]，但改进较为有限。可以说，VLN 的进展已经趋于稳定，但机器和人类的表现之间仍然存在很大差距 [73]。我们假设静态图像文本和纯文本数据集（尽管其规模很大）缺乏有效 VLN 预训练所需的空间基础和面向动作的语言。考虑来自 Room-across-Room (RxR) 数据集 [30] 的指令，它说明寻路需要理解非中心和自我中心的空间表达（靠近你身后的灰色控制台桌）、动词（爬楼梯）、祈使句和否定（不要进入前面的房间）和时间条件（步行直到看到左边的入口）。这样的表达在图像文本数据集中很少找到。尽管在纯文本语料库中也发现了类似的表达，但它们与物理世界相关的含义很难仅从文本（没有感觉运动上下文）中推断出来[6]。

为了解决这个问题，我们研究了使用合成域内数据进行大规模增强，即使用先前开发的组件为现实 3D 环境中的轨迹模型生成导航指令 [27, 63]。我们使用 Marky [63] 构建了一个大型数据集，它生成接近人类教练质量的 VLN 指令。 [63] 发布了位于 61 个 Matterport3D [7] 环境中的 1M Marky 指令轨迹对。为了增加环境的多样性（以及其中可用的场景和对象），我们自动注释了 Gibson 数据集中的额外 491 个环境 [67]。由于缺乏通过密集采样的 360° 全景图指示可导航轨迹的导航图，Gibson 环境在之前的 VLN 工作中并未得到充分利用。我们训练一个模型，对 Matterport3D 的可导航方向进行分类，并使用它来构建缺失的导航图。我们从这些图中采样了 320 万条轨迹，并用 Marky 对其进行注释。为了进一步增加轨迹的可变性，我们使用图像到图像的 GAN [27] 从新的角度合成图像观察结果。生成的数据集比现有的人工注释数据集大两个数量级，并且包含更广泛的场景和观点。我们发布了 Gibson 导航图和 Marky-Gibson 数据集。

通过更多数量级的训练示例和环境，我们通过模仿学习（IL）探索 VLN 代理的性能，即行为克隆和 DAGGER [53] IL 可以利用 T5 [48] 等高吞吐量变压器框架，从而有效地根据 4.2M 条指令进行训练（积累超过 700M 步的经验）。这与大多数先前在低数据环境中的 VLN 工作不同，例如[10] 报告称，与使用 IL 和在线强化学习 (RL) 算法（例如 A3C）训练的智能体相比，纯 IL 的成功率低 8.5% [44]。然而，在具有足够训练数据的相关任务中，IL 的表现优于 RL [50]。在线强化学习还需要在每一步中与环境进行交互；这妨碍了有效的数据预取和并行预处理，因此与 IL 相比，产生了不可避免的开销。根据经验，我们确认，如果不进行彻底的重新设计，在 4.2M 指令上训练 HAMT [10] 等现有模型是不可行的，尽管我们确实发现将 10K 条额外的合成指令合并到 HAMT 训练中可以适度提高性能。 IL 训练符合通过监督学习训练的大规模多任务视觉和语言模型的趋势；它们具有统一的任务，包括视觉问答、图像字幕、对象检测、图像分类、OCR 和文本推理 [12]，并且将来可能包括 VLN。

实验上，在详细的消融研究中，我们表明添加gibson环境、从新的角度合成额外的图像观察结果、增加transformer的容量以及使用 DAGGER 进行微调都可以提高代理性能。在具有挑战性的 RxR 数据集（包含中位轨迹长度为 15m 的多语言指令）上，我们仅使用模仿学习的最佳代理优于所有先前的 RL 代理。通过评估可见环境 (ValSeen) 中的新颖指令轨迹，我们比最先进的技术提高了 8%，达到 79.1 NDTW。在新的、未见过的环境（测试）中，我们提高了 2%，达到 66.8 NDTW。我们还表明，在新环境中使用合成指令进行自我训练（仍然没有人工注释）可以将性能额外提高 2%，达到 68.6 NDTW。总体而言，我们的 RxR 结果指出了改进指令跟踪代理的新途径，强调对接近人类质量的合成指令进行大规模培训。也许令人惊讶的是，在纯英语 R2R 数据集 [3] 上，我们的 IL 代理取得了强劲但不是最先进的结果。 Marky 接受过 RxR 训练，因此我们将其归因于 R2R 和 RxR 之间的域差异，强调了合成指令的域依赖性。

相关工作

vision and language navigation

通过导航到指定位置来遵循指令的智能体最初是在需要有限感知或不需要感知的简单设置中进行研究的，使用的指令通常是程序生成的[4,5,8,42,43]。最近的工作使用 Matterport3D [7] 和 Streetview [41] 等环境探索了逼真的 3D 设置和自然语言指令 [3, 9]。这个问题的实例化被称为视觉和语言导航（VLN），提出了将模拟到现实转移到物理机器人的前景[2]，并鼓励进一步的数据集探索对话[17, 62]、对象搜索[ 46]和多语言说明[30]。

pretraining and transfer

VLN 中真实图像和语言的使用，再加上收集人类指令注释的成本，导致人们自然而然地关注预训练和迁移学习，以提高性能。马宗达尔等人。 [40]将 VLN 表述为指令轨迹对齐问题，并使用预训练的 BERT 权重 [13] 初始化 Transformer 模型，然后对来自 Conceptual Captions [57] 的图像文本对执行额外的预训练。李等人。 [36] 也使用 BERT 模型，尽管最近的方法更倾向于通过使用掩码语言模型 (MLM) 和指令轨迹数据的相关目标进行预训练来从头开始学习文本编码器 [10, 18]。在图像表示方面，早期工作 [15] 使用在 ImageNet [54] 上预训练的 ResNet 特征 [19]，尽管也探索了预训练的对象检测器 [22,33,40]（通常是 Faster-RCNN [51]）。最近，陈等人。 [10]使用视觉变换器（ViT）[14]，当前最先进的代理[34,58]使用 CLIP [47]，与在 ImageNet 上预训练的类似大小的编码器相比获得了改进。然而，尽管对大型文本和图像文本数据集的预训练和迁移学习已经进行了彻底的探索，但与人类的表现仍然存在显着差距。

data augmentation

弗里德等人。 [15] 第一个证明可以通过使用合成（模型生成的）指令增强训练来提高遵循人类指令的性能。人们已经研究了各种其他数据增强方法，包括在生成新指令之前修改现有环境 [34, 60]、对使用在线租赁列表生成的路径指令对的合成数据集进行训练 [16]，以及使用生成模型进行训练填充和覆盖室内环境的空间扰动全景，以生成新的观察结果 [27, 28]（我们也在第 5 节中使用它）。尽管有这些贡献，先前结合合成指令的工作仍受到指令质量和规模的严重限制。在人类寻路评估中，所使用的指令 [15, 60] 表现出惊人的薄弱，缺乏依据，并且大多数人无法遵循 [72]。最近提出的 Marky 模型 [63]（一种用文本对齐的视觉地标对应训练的指令生成器）解决了这一限制，在看不见的环境中在 R2R 式路径上实现了接近人类的质量。我们通过开发一个自动化管道来解决第二个限制（规模），用于将导航图扩展到 500 多个新环境，我们用 320 万条指令对其进行注释，并使用比以前多两个数量级的数据来训练代理。使用这种方法，我们使用纯粹的模仿学习代理在 VLN 设置中获得了最先进的结果。相比之下，最近的 VLN 工作主要集中在 RL 代理上。 DUET [11] 是一个例外，它将模仿学习与基于拓扑图的全局动作空间结合使用。