Scaling Data Generation in Vision-and-Language Navigation

题目:扩展VLN导航中的数据生成

摘要

最近对语言引导视觉导航的研究表明,对可穿越环境的多样性和训练通用智能体的监督数量有很大的需求。为了解决现有视觉和语言导航数据集中常见的数据稀缺问题,我们提出了一种生成大规模学习数据的有效范例,该范例应用来自 HM3D 和 Gibson 数据集的 1200 多个逼真环境,并使用网络上完全可访问的资源合成 490 万个指令轨迹对。重要的是,我们研究了该范例中每个组件对智能体性能的影响,并研究如何充分应用增强数据来预训练和微调智能体。得益于我们的大规模数据集,通过简单的模仿学习,现有智能体的性能可以提升(相对于之前的 SoTA 绝对提高 11%),在 R2R 测试分割上达到 80% 的单次运行成功率的全新最佳水平。在见过环境和未见过环境中进行导航的长期泛化差距也减少到不到 1%(而之前的最佳方法为 8%)。此外,我们的范式还促进不同的模型在连续环境中的 CVDN、REVERIE 和 R2R 上实现新的最SOTA的导航结果

本文针对VLN任务中数据稀缺的问题,提出了生成大规模导航数据的一种方法,并且利用增强的数据进行了预训练和fine-tune智能体,fine-tune的智能体在连续的环境中也取得了SOTA的效果。

引言

视觉和语言导航(VLN)[10]是一项具有挑战性的任务,需要智能体在逼真的环境中导航,遵循人类自然语言指令,例如“走下楼,走向餐桌,左转到厨房,然后停在冰箱前面。” 解决 VLN 在很大程度上依赖于正确解释指令、感知环境以及从交互中学习,这需要大量不同的视觉语言数据进行学习。最近的研究表明,扩大环境的多样性和训练 VLN 代理的演示数量有望提高对未见过场景的泛化能力 [17, 37]。与以前通过增强代理观察[47, 72]或采用使用来自网络的图像文本数据预先训练的大型视觉语言模型[27,31,53,70,71]来解决数据稀缺问题的方法相比,利用额外的可遍历环境允许智能体从域内视觉语言数据和空间中的物理交互中学习。

鉴于此,最近创建了包含数百个交互场景的大型数据集 [20, 65, 81],并收集了大量用于学习视觉导航的人类演示 [45, 66],从而在智能体的表现上产生了显著的效果。然而,这种大规模训练的过程涉及解决一系列关键子问题,例如如何构建导航图 [10, 30, 37],如何恢复损坏的渲染图像 [8, 43],以及如何生成导航指令 [23,25,76,80],这显著影响收集数据的质量。同时,能够理解人类自然语言并在真实环境中导航的智能体是一个复杂的模块化系统,研究如何有效地利用大规模数据让智能体进行充分的训练。

在本文中,我们提出了大规模视觉和语言导航(VLN)训练的有效范例,并定量评估了pipeline中每个组件的影响。具体来说,我们利用 HM3D [65] 和 Gibson [81] 数据集中的环境,基于 Habitat 模拟器 [69] 为环​​境构建导航图采样新轨迹并生成相应的指令 [72],并训练智能体 [ 16, 18] 用于解决下游导航任务 [10, 35, 44, 59, 73]。与之前的方法(例如 AutoVLN [17] 和 MARVAL [37])不同,我们遵循[30]的方法,使用过多的视点采样和聚合算法来构建导航图,从而在开放空间中产生具有高覆盖率的全连接图。此外,我们使用 Co-Modulated GAN [84] 解决了 HM3D 和 Gibson 环境中渲染图像损坏的问题,我们训练 GAN 从具有损坏、扭曲或缺失区域的错误渲染图像中生成逼真的图像,以缓解视觉数据中的噪声。与 MARVAL 不同,MARVAL 使用非公共语言生成模型 Marky [76] 和视觉编码器 MURAL [34],并通过图像到图像 GAN [40] 综合来自新颖观点的观察结果,我们的大规模训练机制完全可重复且易于执行,同时显着提高智能体的性能。

通过全面的实验,我们发现完全可遍历的导航图对于通过 R2R 等详细指令提高代理在下游任务中的性能至关重要。(也就是说,完全可遍历的导航图对于详细指令的执行)此外,我们还表明,从渲染图像中恢复照片级真实感图像非常有益(也就是说场景的真实感很重要),特别是对于 Gibson 环境中的低质量 3D 扫描。结果还表明,代理可以始终受益于更多样化的视觉数据,并且从其他场景中学习可以帮助代理更好地泛化到未见过的环境,而不是简单地从更多数据中学习。(也就是说场景的多样化很重要)此外,我们验证了使用基于 LSTM 的简单模型 [72] 生成的增强指令(指令的增强也很重要)进行训练的代理可以在多个导航任务上取得良好的性能 [10,59,73]。最后但并非最不重要的一点是,我们发现在预训练和微调中适当地将增强数据与原始数据结合起来可以提高代理的泛化能力

值得注意的是,通过遵循上述数据增强和代理训练指南的分析,我们得到的 VLN 模型通过简单的模仿学习而无需预先探索 [26,72,89],波束搜索 [25],或模型集成,在 R2R 测试分割上实现了 80% 的成功率 (SR) , [53, 82] ,并成功消除了在见过和未见过环境中导航之间的差距。该结果显著优于之前的最佳方法 (73%) [3],并将与人类表现 (86% SR3) [10] 的差异减少到 6%。我们的方法还在不同的语言引导视觉导航问题上取得了最新的结果,包括 CVDN [73] 和 REVERIE [59]。此外,虽然增强数据是离散的,但它有助于将 VLN 在连续环境 (R2R-CE) [5,30,44](一种更现实但困难的场景)中的性能提高 5% SR。所有结果都证明了我们的训练制度的巨大有效性和推广潜力。

本文的贡献:

1. 一种简单、有效、完全自动化且可重复的大规模视觉和语言导航训练范例。

2. 全面分析整个数据增强流程并利用大数据进行训练。

3. 在R2R、CVDN、REVERIE 和 R2R-CE上实现了SOTA结果。

相关工作

视觉语言导航

学习按照自然语言指令在未访问过的环境中导航是向可以协助人类进行日常活动的智能机器人迈出的重要一步。在过去的几年里,VLN研究提出了各种各样的场景,例如综合语言指导导航[10,35,45],通过解释对话历史进行导航[19,55,73],以及grounding remote objects with high-level instructions,以及在非常接近现实世界的连续环境中的导航 [41, 44]。为了解决这个问题,早期的研究主要集中在开发特定任务的模型和训练方法,以更好地利用视觉-文本对应关系进行决策。

大规模视觉导航学习

由于导航数据收集过程昂贵,学习导航通常面临数据稀缺的问题。人们提出了许多工作,通过收集更多的人工注释 [66] 或创建新的环境 [20, 65] 来扩大训练数据的规模。此外,最近的研究倾向于建立一个可扩展的机制,利用大量自动生成的数据来突破智能体性能的极限[17, 37],或引入大规模预训练方法来提高泛化能力[16, 36, 61] 。在本文中,我们创建了一个扩展 VLN 训练的简单范例,并通过综合分析,为未来研究的数据采集和代理训练寻求有价值的指南。

Scaling Data for learning VLN

我们概述了学习 VLN 所需的资源,然后详细介绍了从其他环境创建大规模增强数据集的方法。请注意,在本节中,我们仅介绍生成 R2R 风格的指令路径对的方法,该方法将被共享以解决下游 R2R [10]、CVDN [73] 和 R2R-CE [44] 任务。我们参考附录了解 REVERIE 的数据收集和模型训练细节,其数据需要通向特定对象的轨迹[59]。

VLN训练资源

大多数现有的 VLN 研究都是建立在离散的 Matterport 3D 环境 (MP3D) [13] 上,其中代理的位置和观察结果受到预定义导航图的视点的限制。基于这些离散图对轨迹指令对进行采样和注释。与连续环境中的导航相比 [44, 69],这种简化可以实现高效的学习和执行,同时保持实用性,因为本质上,VLN 代理通过执行vision-and-language grounding process来做出决策 [10]。最近还有一些工作尝试将为离散场景设计的智能体转移到连续环境中[9,30,42,43]。我们的数据增强范式产生离散监督,而我们在实验中表明它也有利于连续场景中的 VLN 学习。总之,改变 VLN 数据通常需要收集新的视觉环境,通过构建导航图来离散化环境,在图上采样轨迹(图像序列)并生成相应的指令。按照此过程,我们在下面指定我们的数据增强范例。

生成增强数据

收集环境

我们采用 HM3D [65] 和 Gibson [81] 的环境作为视觉数据的来源。这两个数据集都包含从真实世界建筑物收集的丰富的、可遍历的、模拟的室内 3D 扫描,支持各种视觉导航问题的学习。具体来说,我们采用了 HM3D 的 800 个训练场景,以及 Gibson 的 491 个训练和验证场景(与 MARVAL [37] 相同),产生了超过 150k m2 的可导航区域,大约是下游训练场景的 7.5 倍MP3D 环境(20k m2,61 次扫描)。

构建导航图

我们认为,高质量的导航图需要满足许多标准,包括空间的高覆盖率,以最大限度地提高视觉多样性,以及适当长度的完全可遍历边缘,节点靠近开放空间的中心,以采样合理的轨迹。之前的工作 AutoVLN [17] 构建的图具有非常稀疏的节点和跨越障碍物的边缘,限制了采样数据的数量并导致不切实际的轨迹,而 MARVAL [37] 训练模型来预测可导航方向,这可能会产生错误并导致错误。使问题过于复杂化。

在这项工作中,我们提出了一种非常简单但准确的启发式方法来构建图形:我们首先应用habitat模拟器[69]中现有的可导航位置采样函数来采样几乎覆盖整个开放空间的视点,同时限制测地线任意两个视点之间的距离大于 0.4 m。然后,我们应用聚合聚类算法将相邻视点分组为距离阈值为 1.0 m 的单个视点,自动生成靠近开放空间中心的位置。我们通过随机连接 5.0 m 间隔内的视点来创建粗图,同时将视点的最大边缘限制为 5,并使用现有的图细化方法 [30] 获得最终的完全连接和完全可遍历的导航图。我们使用这种方法来构建800+491环境的图;图中平均边长为1.41 m,平均节点度为4.55。我们将附录中的图表可视化。

构建过程导航图的过程总结为:采样大量的视点、通过聚合方法将相似的视点分组为单个视点、使用分组后的单个视点来创建粗粒度的导航图、通过图细化方法构建最后的导航图

恢复有缺陷的渲染图像

尽管 HM3D 和 Gibson 提供了大量多样化的室内环境,但从其 3D 网格渲染的图像质量通常比相机捕获的图像差很多(如图 2 所示)。之前的工作表明,使用渲染视图训练的导航代理的性能明显比使用高质量图像训练的代理差[43]。因此,我们将错误渲染图像的恢复视为 ScaleVLN 范例中的一个过程。

我们将此任务表述为图像到图像的转换问题,其中模型将渲染图像作为输入并学习恢复损坏、扭曲或丢失的区域。具体来说,我们采用 Co-Modulated GAN (CoMod GAN) [85],这是一种可以利用条件信息并在无条件生成中保留随机性的生成模型。我们在 Matterport3D 数据集中的渲染和相机图像对上训练 Co-Mod GAN,并使用训练后的模型在 HM3D 和 Gibson 环境中恢复渲染图像。

采样轨迹

我们在 HM3D 和 Gibson 环境的导航图上对轨迹进行采样。对于具有详细说明的导航任务,我们遵循 PREVALENT [28] 并收集由三到五个中间节点连接的任意两个视点之间的所有可能的最短路线。此采样策略分别为 HM3D 和 Gibson 环境生成总共 2,890,267 条路径和 2,051,443 条路径。

生成导航指令

最后,我们应用现成的 EnvDrop Speaker [72],这是一种基于 LSTM 的简单语言生成模型,在 R2R [10] 中的指令路径对上进行训练,为导航任务的每个采样轨迹生成带有详细指令的导航指令。与更强大的语言模型 GPT-2 [64] 相比,EnvDrop Speaker 生成的描述不太多样化,但生成的数据可以对处理 R2R 任务的代理带来类似的改进(参见第 4.2 节)。

按照上述过程,我们的大规模数据增强范式创建了 4,941,710 个用于学习 VLN 的指令轨迹对。这个大小比 R2R 数据集大 352,比常用的增强 PREVALENT 数据集大 4.62 [28]。

实验结果

扩展 VLN 数据,真正重要的是什么?

导航图的影响

图质量在离散增强数据采样中十分重要

更多数据的影响

添加更多场景和数据可以为代理带来稳定的性能增益。

图片的质量

增强指令的影响

生成高保真且详细的导航指令是十分重要且具有挑战性的

如何利用大规模数据

用于预训练和微调的数据

预训练和微调是增强数据可以直接影响的两个重要阶段。对于预训练而言,相比于从下游任务中学习,智能体从环境中可以学习的更好。在微调中应用增强数据的动机是避免在小型下游数据集上过拟合。

  • 19
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值