论文简读《VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation》

主页

论文

摘要

理解人类如何利用语义知识来导航不熟悉的环境,并决定下一步探索到哪里,这对于开发能够进行类人搜索行为的机器人至关重要。我们引入了一种零镜头导航方法,视觉语言前沿地图(VLFM),它受到人类推理的启发,被设计用来在新环境中导航到看不见的语义对象。VLFM从深度观测中构建占用地图来识别边界,并利用RGB观测和预先训练过的视觉语言模型来生成基于语言的价值地图。然后,VLFM使用这个地图来确定最有前途的边界,以寻找给定目标对象类别的实例。我们在多个数据集中评估了逼真环境中的VLFM。值得注意的是,VLFM在所有三个数据集上获得了最先进的结果,通过目标导航任务的路径长度(SPL)来衡量。此外,我们还证明了VLFM的零样本特性使它能够很容易地部署在现实世界的机器人上。

动机

人在未知环境中导航可以借助很多语义知识,这些语义知识可以用来推断空间的布局,包括特定对象的位置和几何配置。例如,我们知道厕所和淋浴器通常一起出现在浴室里,浴室通常位于卧室附近。大模型根据上下文的不同,可以进一步增强先验语义知识,因此,我们可以用大模型的语义知识来进行导航。

方法

VLFM总共有三个阶段:

  1. 初始化:在初始化阶段,机器人转一整圈,以建立其边界和value map,这对后续的探索阶段至关重要。
  2. 语义边缘探索:机器人持续更新边界和value map,以创建边界路径点,并选择最有价值的路径点,用于定位指定的目标对象类别并导航到它。一旦它检测到一个目标对象实例,它就会过渡到目标导航阶段。
  3. 目标导航:在目标导航阶段,机器人只需导航到被检测到的目标对象上的最近的点,一旦它足够接近,就会触发停止。

前沿航路点生成(Frontier waypoint generation

我们利用深度和观察位置来构建机器人遇到的障碍物的自上向下的二维地图。这张地图中的探索区域会根据机器人的位置、其当前的航向和任何阻碍其当前视野的障碍进行更新。为了识别障碍物的位置,我们将当前的深度图像转换为一个点云,过滤掉任何太短或太高而不能被认为是障碍物的点,将这些点转换为全局坐标,然后将它们投影到一个二维网格上。然后,我们区分已探索和未探索区域的每个边界,确定这些边界的中点作为一个潜在的边界路径点。当机器人探索该区域时,边界的数量和位置将会发生变化,直到整个环境都被探索出来,不再有更多的边界存在。如果机器人此时没有检测到目标对象,它将简单触发STOP结束事件(不成功)。

value map生成

我们的方法的核心是一个value map,一个类似于边界图的二维网格。该映射为被探索区域内的每个像素分配一个值,量化其在定位目标对象时的语义相关性。值图用于评估每个边界,选择值最高的边界作为下一个探索位置。value map也使用深度和测程观测来迭代构建自上而下的地图。然而,value map的不同之处在于,它有两个通道来表示语义值分数和置信度分数。

类似于人类如何直接从视觉观察获得语义线索(例如,照明、房间类型、房间大小,导航其他房间),而不是试图首先代表当前可见的机器人与文本(例如,使用对象检测),我们使用预先训练BLIP-2视觉语言模型来计算余弦相似度得分直接从机器人的当前RGB观察和包含目标对象的文本提示来进行计算。当用于图像到文本检索时,BLIP-2给定输入RGB图像和文本提示,输出余弦分数,其中值越高表示精度越高。然后,这些分数被投影到它们自己的自上而下的value map的通道上。

置信通道的目的是确定在语义值通道中,如果一个像素的值在当前时间步长的视场(FOV)内,那么该像素的值应该如何更新。如果一个像素直到当前的时间步长才被看到,那么它不会影响该像素的语义值得分。机器人FOV内的一个像素的置信度值取决于其相对于光轴的位置(光轴理解为视野中心)。沿光轴的像素完全置信度为1,而位于左右边缘的像素完全置信度为0。

如果机器人移动到一个新的位置,与之前看到的区域重叠,该区域中每个像素的语义值和置信度分数都用新的分数进行更新。更新方式为,根据之前的置信度和新的置信度加权,来结合语义信息。

目标检测

使用YOLOv7检测COCO数据集中有的类,剩余类使用Grounding-DINO。

如果检测到一个目标对象实例,我们使用Mobile-SAM 输入RGB图像和检测到的边界框来提取其轮廓。然后将轮廓与深度图像一起使用来确定物体上最接近机器人当前位置的点,然后用作导航到的目标路径点。一旦机器人到这一点的距离低于成功半径,就停止。

路径导航

初始化后,机器人总是提供一个边界路径点或目标对象路径点,这取决于是否检测到目标对象。为了确定在到达当前路径点的每一步上的操作,我们使用了点目标导航(Point Goal Navigation, PointNav)策略。为了确定每一步到达当前路径点的动作,我们使用可变体验推出(Variable Experience Rollout,VER),一种分布式深度强化学习算法,来训练点导航策略。点导航是一项挑战机器人仅依靠视觉观察和测程法导航到一个指定的路径点(2D坐标)的任务。

实验

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值