论文阅读《ESC: Exploration with Soft Commonsense Constraintsfor Zero-shot Object Navigation》

链接

摘要

对于在现实世界中操作并与对象交互以完成任务的具体化代理来说,准确定位和导航到特定对象的能力是一项关键的能力。这种对象导航任务通常需要在带有标记对象的视觉环境中进行大规模的训练,这不利于推广未知环境中的新对象。在这项工作中,我们提出了一种新的零样本对象导航方法,软常识约束探索(exploration with soft commonsense constraints, ESC),它将预先训练的模型中的常识知识转移到开放世界对象导航,没有任何导航经验,也没有任何其他视觉环境的训练。首先,ESC利用预先训练的视觉和语言模型用于开放世界基于提示的基础,以及预先训练的常识性语言模型用于房间和对象推理。然后ESC将常识知识转换为导航操作,将其建模为软逻辑谓词,以便有效地探索。

动机

成功地导航到一个目标物体需要两个关键的能力:(1)语义场景理解,包括识别环境中的物体和房间;(2)常识推理,包括基于常识知识对目标物体的位置进行逻辑推断。如图所示,在agent寻找壁炉的过程中,壁炉很可能是在客厅里,所以agent决定探索客厅里看不见的区域来寻找壁炉。然而,目前的零样本对象导航方法还没有有效地解决这一需求,往往缺乏常识性推理能力。

本文方法

使用GLIP感知当前位置所在的环境,根据深度图、agent位置和相机参数,我们可以将二维图像中的像素转换为三维空间并存储在三维体素中,将转换后的地板像素视为自由空间。然后,我们沿着高度维度投影三维体素,得到如图所示的二维导航图,并在导航过程中进行更新和维护。通过导航地图,我们可以得到在当前已经探索到的地图边界(frontiers)。

此外,我们可以将检测到的房间和对象的位置投影到一个语义映射中。对于目标检测,我们取一个边界框的中心,并将其投影到一个二维位置。对于房间检测,我们将一个边界框中的所有像素投影到一个二维地图中,并将投影的位置记录为相应的房间。(构建房间,目标之间的映射关系

在室内环境中,目标对象会更频繁地出现在特定房间和特定对象附近,这种常识有助于代理搜索目标对象。因此,在检测到当前场景中的房间和对象信息后,我们可以利用预先训练好的大型语言模型,通过文本提示对目标对象和语义场景信息进行常识性推理。

因此,我们将llm中的常识性知识引入到的探索中。我们的目标是不仅考虑到与agent之间的距离,而且考虑到边界周围的对象ot和房间rt信息来做出边界选择的决策,直观地说,我们更有可能选择一个靠近目标物体可能出现的物体的边界,或者一个目标物体应该在附近的房间的边界。

实验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值