Safe-VLN: Collision Avoidance for Vision-and-Language Navigation ofAutonomous Robots Operating in C-CSDN博客

本文链接：https://blog.csdn.net/weixin_45800242/article/details/141315016

引言

VLN-CE的主流框架主要有三个模块：一个路径点预测器、一个导航规划器和一个低级控制器。具体来说，通过学习Matterport3D中已知的导航图，路径点预测器在连续环境中通过预测视觉观察中附近的候选位置来生成高层次的导航路径点。基于预训练的路径点预测器，导航规划器生成下一个子目标路径点，这些路径点进一步由低级控制器实现。

碰撞在VLN-CE中经常发生，主要面临以下挑战。首先，与离散环境中的那些相比，在连续环境中由路点预测器生成的路点可能由于周围环境的不正确感知而不可导航。其次，由于相邻节点之间没有完善的导航机制，代理在连续环境中更可能在涉及沿途障碍物时无法到达下一个路径点。为了增强VLN-CE的碰撞避免能力，本论文对VLN-CE中的碰撞进行了全面且定量的分析，并提出了一种新的导航算法，称为Safe-VLN。具体而言，本论文研究了VLN-CE中碰撞的原因，并定义了三种不同类型的碰撞。Safe-VLN旨在解决所有类型的碰撞问题，有望大大提高大多数VLN-CE代理的碰撞避免能力。

本论文的贡献主要有两点。首先，据作者所知，这是首次将VLN-CE中的碰撞分为三种类型，包括路径点碰撞（预测的导航点处于障碍物区域中——》路径点预测器）、导航碰撞（从航路点导航到下一个选定航路点时遇到障碍物——》导航规划器）和动态碰撞（在导航过程中随时可能发生的动态障碍物——》低级控制器）。通过广泛的实验，本论文定量地研究了不同类型的碰撞导致的性能下降，为碰撞避免算法的设计提供了宝贵的见解。其次，本论文提出了一种新的Safe-VLN算法，以解决VLN-CE中的碰撞问题。实验结果验证了所提出算法的有效性，在广泛使用的R2R-CE数据集上取得了最先进的成功率。

Safe-VLN

VLN-CE中的碰撞分类

本小节对各种碰撞场景进行了分析，并定义了与VLN-CE任务相关的三种类型的碰撞。如图1所示，第一种类型称为“路径点碰撞”。这种类型的碰撞发生在预测的候选路径点位于障碍区域内时，例如在衣柜内、墙上或床上，使得不发生碰撞的情况下到达精确的路径点变得不可能。第二种类型，“导航碰撞”，定义为代理在向下一个路径点移动时遇到障碍物（如扶手、门、桌子等）时发生的碰撞。第三种类型，“动态碰撞”，发生在路径点由于机器人运动过程中由于时间变化的安全性或隐私问题（而不是静态障碍物）导致的不可导航时。在仔细检查了VLN-CE算法，如CWP-RecBERT [12]，GridMM [13] 和ETPNav [14]后，可以清楚地发现，这些方法中没有一种能够解决本文定义的三种碰撞类型。特别是，尽管“动态碰撞”在现有的VLN-CE数据集中没有出现，但为了在现实应用中全面研究和解决所有类型的碰撞，本研究中仍然考虑了这一问题。为了模拟现实场景中的“动态碰撞”情况，我们生成了代理选择的下一个路径点，并将其以一定的概率设为不可导航的。在R2R-CE数据集的“val-unseen”部分中进行的验证结果显示，现有算法中路径点碰撞和导航碰撞频繁发生，并且当考虑到动态碰撞时，其成功率显著下降。

用于路径点碰撞的占有掩码

导航和动态碰撞的重新选择导航器

实验

实验设置

数据集

Matterport3D (MP3D)是在VLN中广泛使用的环境，包含90个场景和10,800张全景RGB-D图像，从而提供了接近现实的室内导航设置。VLN代理通过一个连接图与MP3D交互，该图用于查询全景图像。Room-to-Room (R2R) 数据集由MP3D中的7,189条最短路径轨迹组成，并在Habitat模拟器中进一步通过90个3D网格重建进行增强。这种增强导致了VLN-CE的连续环境。空间连续的R2R-CE数据集包括几个验证数据样本，如val-seen和val-unseen划分。特别地，val-seen划分表示在训练期间观察到的相同场景中，具有新路径和指令的回合。此外，val-unseen划分指的是具有新路径、指令和未在训练期间观察到的场景的回合。

训练设置

在VLN-CE的模拟环境中，代理被定义为一个高度为1.5米的移动机器人，配备模拟全景RGB-D相机。此外，考虑到了机器人的位置。代理的动作空间设置为{前进0.25米、左转15°、右转15°、停止}。为了在当前VLN-CE环境中捕获全景RGB-D信息，代理上配备了12个RGB摄像头和12个深度传感器，摄像头安装在1.25米的高度，相邻摄像头之间的方向间隔为30°，这是VLN-CE研究中通常使用的设置。从构建的2D LiDAR获得的扫描表示为范围为3米的径向占用图，包含12个0.25米的距离区间和120个3°的航向区间。为了提高导航性能和碰撞避免，我们微调了ETPNav模型并结合Safe-VLN。微调的迭代次数为20,000次。使用两块NVIDIA RTX 3090 Ti GPU，总训练时间约为50小时。另一方面，关于训练好的Safe-VLN模型的部署，我们在一块3090 Ti GPU上进行了评估测试。导航期间的周期时间约为0.4秒，这描述了从传感器反馈接收到预测动作完成之间的平均时间。

实验结果

VLN-CE baseline比较

我们通过测试算法在三种最先进的VLN-CE代理上来检验所提出的Safe-VLN框架的有效性，即CWP-RecBERT [12]、GridMM [13]和ETPNav [14]。此次检验从两个角度进行。首先，直接在这三种VLN-CE代理[12]，[13]，[14]上添加Safe-VLN算法，而无需进一步训练。正如表I所示，在验证阶段，Safe-VLN提高了成功率(SR)并有效减少了导航碰撞(N-C)和路径点碰撞(W-C)。在考虑动态碰撞的情况下，代理选择的路径点以一定概率（本研究中为10%）被设定为不可导航，从而迫使代理重新选择替代路径点。我们观察到，Safe-VLN增强了代理的鲁棒性，从而降低了动态碰撞对SR的副作用并提高了动态碰撞成功率。值得注意的是，在本研究的ETPNav训练和验证阶段采用了‘试探’（Tryout）机制。如果‘试探’尝试失败，代理将根据重新选择导航器调整其动作。随后，我们在Safe-VLN框架内进一步训练并验证了ETPNav代理。正如表II所示，所提出的Safe-VLN在所有VLN-CE基线中始终表现出优越的性能。

与基于JPS的导航器的比较

JPS算法，即Jump Point Search，是一种用于路径规划的优化算法，它是A*搜索算法的改进版本。JPS算法专门用于加速基于网格的路径搜索，特别是在二维网格环境中。其主要特点是通过跳过冗余的节点检查来显著减少搜索空间，从而提高路径搜索的效率。

为了展示所提出的Safe-VLN方法在碰撞避免中的有效性，本文选择了广泛使用的JPS算法[27]并进行了比较研究。JPS因其在可导航路径搜索中的快速速度而被广泛认为是碰撞问题的基准导航器[28]。在每个步骤中，通过投影和离散化观察到的深度图，生成一个尺寸为50×50的自我中心视角网格地图来实现JPS。在比较研究中，使用与ETPNav相同的模型参数来评估三种不同的方法，即ETPNav、结合JPS导航器的ETPNav（记为“ETPNav w/ JPS”）和在R2R-CE数据集val-unseen划分上的Safe-VLN。

从表III的实验结果可以看出，在所有四个评估指标中，Safe-VLN的表现优于“ETPNav w/ JPS”。我们推测，性能差异来自于在JPS算法中生成网格地图时的投影误差。例如，在比较研究中，由于障碍物边界附近的投影误差，计划路径的一部分偶尔会位于障碍区域内；而在其他情况下，目标位置被错误地投影到不可导航区域，这不可避免地导致基于JPS的导航器功能失常。虽然采用更精细的网格可能会减少这种投影误差，但由此带来的计算成本将难以承受。作为参考，在这里展示的比较研究中，当在R2R-CE数据集的val-unseen划分上进行评估时，使用基于JPS的导航器所花费的时间是使用Safe-VLN的八倍。因此，考虑到计算效率和碰撞避免成功率的整体表现，Safe-VLN在VLN-CE任务中优于广泛使用的JPS算法。