semantic navigation 目标驱动的视觉语义导航(三)

继上次的目标驱动的视觉导航(二)之后,再介绍几篇比较优秀的论文。

Object Goal Navigation using Goal-Oriented Semantic Exploration (2020cvpr)

本文是habitat challenge 2020 Object-Nav的冠军论文,将传统slam建图与强化学习结合进行目标导航任务,取得了在gibson和mp3d数据集上的当前最好成绩(虽然得分也是很低)。

本文作者在做Object-Nav之前,也参加了Point-Nav challenge这一项,也是通过构建地图进行的导航,但是没有加入语义信息,更偏向Active SLAM。本文在这种建图方式的基础上进行的工作。文中对于目标导航的解决思路也非常好,在未知场景中进行目标导航时,不仅要认识目标,还需要知道在哪里更容易找到目标。之前的基于DRL的端到端的学习方式,往往偏向使用RNN去构建片段记忆,去学习一种隐式的先验,通常存在大规模采样复杂性和泛化性差的问题。因此本文提出了将第一视角通过Mask-RCNN检测语义信息,映射为Top-down视角的二维地图,然后利用该地图训练一种目标导向的语义探索测量(在Point-Nav任务中使用的是最大化覆盖目标的探索策略)。因此该方法一共包含两个模块,一个是语义地图构建模块,另一个是基于语义地图的目标导向的语义测量模块。整体系统框图如下:

在这里插入图片描述

首先,通过当前的传感器位姿(需要知道定位信息或通过里程计计算)与观测图像,构建Top-down视角的语义地图,然后结合目标信息,训练一个目标导向的语义策略网络,在语义地图中进行长期目标的位置推测,然后执行局部规划导航到相应位置。具体介绍如下:

  1. 语义地图构建:整个地图由 K × M × M K \times M \times M K×M×M的矩阵组成, M × M M \times M M×M表示地图的大小, K K K表示地图的层数, K = C + 2 K=C+2 K=C+2,其中 C C C为语义类别的数量,再加上障碍物层和以探索区域层。地图的分辨率为 5 × 5 5 \times 5 5×5大小,初始值全为0,地图的构建过程如下所示:
    在这里插入图片描述

    地图构建过程还是很明朗的,使用预训练的Mask-RCNN检测到物体,映射到点云中,生成带有语义的像素映射,然后不同类别的物体映射到不同的地图层中(猜想构建这么多地图层是为了寻找目标方便些?),经过Denoising Network过滤噪声,生成最后的语义地图。

  2. 目标导向的语义策略:该模块的主要作用是根据地图预测最终的目标。若在探索过程中可以直接发现目标,则直接将该目标作为导航点,进行规划导航;若当前没有观测到目标,则根据目标的类别和当前的语义地图,推测最有可能找到的位置作为导航点。这就需要该策略网络可以学习物体间的相关布置关系(空间关系),本质上还是学习了一种语义先验。该策略通过RL进行训练,以减小与goal直接的距离作为奖励(与habitat内部默认一致),进行最终目标位置的推测(输出是坐标?)。注意这里推测的频率,并不是每运行一步进行一次推测,而是每经过25步进行一次推测,以减小采样复杂度,为探索留有更多时间。

  3. 局部路径规划模块:这里采用传统的快速匹配方法进行路径的规划,相当于传统导航当中的局部路径规划去,不做深究,值得注意的是局部规划器是每一步都要重新进行路径的规划更新的。

在实验部分,作者采用了Gibson和Matterport3D数据集,在Habitat仿真环境中运行。作者特意强调,得到实验结果的验证集没有进行超参数上的调优(验证集的选择确实是非常影响结果的因素)。实验最终采用了86个场景作为训练(25个Gibson和61个MP3D),16个场景作为验证集(5个Gibson和11个MP3D)。动作集包括前进,左转,右转,和停止。对于训练的目标种类,作者采用了Gibson和MP3D都有的6类目标进行训练。对于语义检测使用的maskrcnn的预训练模型,而策略网络由5层卷积层和3层全连接组成,将语义地图、当前位姿和目标类别编码后作为输入(文中输入到全连接层?不应该是卷积层吗)。整个网络通过PPO算法进行训练,使用了86个并行线程,每个线程使用训练集中的一个场景。对于评价指标,作者采用了SR,SPL及DTS(Distance to Success,检测当到达最大迭代步数时的位置到目标的距离)。最终的结果如下:
在这里插入图片描述

结果显示,采用语义地图的方式进行的探索,比单纯用RL端到端训练的效果要好得多,不过RL的baseline都不带有先验,和直接记录地图的方式感觉肯定不能比。。。

在habitat challenge进行测试时,该方法的指标反而降低不少,不知道是否和测试集有关
在这里插入图片描述

该文章应该算是将传统的SLAM与强化学习相结合的产物,使用地图建模环境、进行导航,使用深度强化学习进行导航点的决策,相比于直接端到端的方法,具有更高的可解释性,实现过程也更透明一些,值得借鉴!文中还指出未来的一个研究方向即在更为复杂的未知环境中寻找一系列的目标,这也是其他文章中所提到的。

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值