Bridging the Gap Between Learning in Discrete and ContinuousEnvironments for Vision-and-Language Na

最新推荐文章于 2024-09-01 21:08:00 发布

帅你一脸的臭宝

最新推荐文章于 2024-09-01 21:08:00 发布

阅读量564

点赞数 14

文章标签：人工智能深度学习论文阅读

本文链接：https://blog.csdn.net/weixin_45800242/article/details/141329630

版权

摘要

在视觉与语言导航（VLN）的现有研究中，大多数工作都侧重于离散或连续环境，训练的代理无法在这两者之间进行泛化。虽然学习在连续空间中导航更接近现实世界，但训练这种代理比在离散空间中训练代理要困难得多。然而，由于领域差异，最近在离散VLN中的进展难以直接应用于连续VLN。两种设置的根本区别在于，离散导航假设已知环境的连接图，这样代理可以通过绑定到可导航方向的图像，将低级控制的导航问题有效地转化为通过高级操作在节点间跳跃的问题。

为弥合离散到连续的差距，我们提出了一种预测器，用于在导航过程中生成一组候选路径点，以便设计为使用高级操作的代理可以转移到连续环境中并进行训练。我们对Matterport3D的连接图进行了精炼，使其适应连续的Habitat-Matterport3D，并利用精炼后的图训练路径点预测器，以在每个时间步生成可访问的路径点。此外，我们展示了在训练期间可以通过增强预测的路径点来多样化视角和路径，从而提高代理的泛化能力。

通过广泛的实验，我们表明在连续环境中使用预测路径点的代理表现明显优于使用低级操作的代理，这减少了Cross-Modal Matching Agent的绝对离散到连续差距11.76%的路径长度加权成功率（SPL），以及VLN-BERT的18.24% SPL。我们的代理通过简单的模仿学习目标进行训练，大幅超越了之前的方法，在R2R-CE和RxR-CE数据集的测试环境中达到了新的最先进水平的结果。

引言

离散环境与连续环境中的导航的根本区别在于对连接图的依赖性，连接图包含分布在环境可访问空间中的若干稀疏节点（路径点）。在已知连接图的情况下，代理可以在全景的高级动作空间中移动，即通过从离散的可导航方向集中选择一个方向，“传送”到图中的相邻路径点。相比之下，在连续环境中导航通常依赖于有限的视野来推断低级控制（例如左转15度或前进0.25米）[33]，全景动作和连接图的使用将复杂的决策问题简化为显式的文本到图像匹配任务。首先，代理不需要从感官输入中推断出关于可访问性（开放空间与障碍物）的重要概念。其次，可以为每个可导航方向定义独特的视觉表示，因此代理只需将指令中的上下文线索与视觉选项进行匹配即可移动，从而极大地减少了代理的状态空间，并促进了学习。因此，许多早期的使用高级动作的VLN工作主要从视觉-文本匹配的角度来解决导航问题。大量的创新如反向翻译[52]、回溯[30, 38]、场景记忆[16, 55]和基于变压器的预训练[21, 25, 39]带来了显著的改进，但它们无法直接转移到连续环境中的代理。在相同架构下，代理在离散空间和连续空间中的导航成功率仍存在约20%的差距[33]。

尽管在离散环境中学习的效率非常高，但在连续空间中的导航更加接近现实世界。在本文中，我们解决了跨域学习的问题，旨在有效地将为离散VLN设计的代理适应到连续环境中。首先，我们识别并定量评估了在VLN中使用高级控制的价值，展示了了解可访问路径点的重要性。其次，受Sim2Real-VLN[2]的启发，我们引入了一个强大的候选路径点预测器，以估计连续空间中的可导航位置，该模块在每个时间步使用视觉观测构建一个以代理为中心的局部可导航图。在Sim2Real-VLN[2]中，子目标模块是在Matterport3D环境（MP3D）[6]的预定义连接图上进行训练的，其中存在穿越障碍物和位于不可访问空间的边缘节点。相比之下，我们将离散的MP3D图转移到连续的Habitat-MP3D[49]空间，并将转移的路径点表示为学习混合高斯概率图的目标，从而在未访问的环境中生成一个支持导航的稳健路径点预测器。此外，我们提出了一种简单的增强方法，在训练代理时移动路径点的位置，以便代理能够通过多样化的观察和步长来学习到达相同目标，从而提高泛化能力。

导航任务背景

导航设置

High-level动作导航

Low-level动作导航

候选点预测器

基于上述观察，为了弥合离散到连续的差距，我们提出了一种候选路径点预测器，该预测器能够在连续环境中为代理生成虚拟路径点。在每个导航步骤中，路径点预测器推断出一个局部子图，该子图由一组从代理指向空间中可访问位置的边组成。因此，在连续空间中的VLN可以通过使用高级动作来有效地执行。

网络架构和处理

MP3D中的连通图

预测器性能验证

限制

1. 候选路径点数量的限制

问题：当前方法限制了在任何位置最多只能预测5个路径点，目的是降低计算成本并稳定代理的训练。 局限性：在某些空间结构中，可能会有更多可导航的方向，这样的限制可能会影响导航性能。建议：未来的研究可以考虑根据不同位置的具体情况，动态调整路径点的数量。

2. 在罕见结构上的预测

问题：在一些罕见的环境结构（如楼梯）中，路径点预测器可能无法生成位于楼梯上的路径点，从而影响代理的导航。原因：这种问题的主要原因是预测器在这些结构上的训练样本不足。建议：未来的研究可以通过识别这些罕见结构来采集更多数据，并改进损失函数，以平衡不同结构的学习。

3. 在线预测调整

问题：当前的代理完全依赖预测的路径点进行导航，这可能会导致代理进入死胡同，而路径点无法帮助代理脱困。影响：这个问题在RxR-CE数据集中尤为严重，因为代理可能容易陷入死胡同，无法逃脱。建议：未来的研究可以考虑赋予代理根据局部结构或其控制结果动态调整路径点的能力，以应对这种情况。

4. 路径点预测器的更新

问题：尽管候选路径点预测器在未见过的MP3D环境中表现出很高的准确性，但尚不清楚它是否能有效转移到其他不同领域的场景中。建议：开发一个可以更新的路径点预测器，使其能够适应新的环境（即使没有预定义的连接图），将会非常有价值。

5. 状态条件的路径点预测

当前策略：本文的方法中，路径点预测与代理的决策过程是分离的，这可以减少代理的状态空间，促进学习。 局限性：然而，导航进度和指令中的地标等状态信息可能会有助于路径点预测器生成更有效的路径点，从而更快地到达目标。建议：未来的研究可以尝试结合这两种思路，构建一个能促进导航的状态条件路径点预测器。

帅你一脸的臭宝

关注

14
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
Bridging the Gap Between Learning in Discrete and ContinuousEnvironments for Vision-and-Language Na

在视觉与语言导航（VLN）的现有研究中，大多数工作都侧重于离散或连续环境，训练的代理无法在这两者之间进行泛化。虽然学习在连续空间中导航更接近现实世界，但训练这种代理比在离散空间中训练代理要困难得多。然而，由于领域差异，最近在离散VLN中的进展难以直接应用于连续VLN。两种设置的根本区别在于，离散导航假设已知环境的连接图，这样代理可以通过绑定到可导航方向的图像，将低级控制的导航问题有效地转化为通过高级操作在节点间跳跃的问题。
复制链接

扫一扫