论文阅读《ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object Navigation》

题目:利用软常识约束进行零样本对象导航

关注点:软常识约束是什么?怎么做的?

摘要

对于在现实世界中运行并与对象交互以完成任务的智能体来说,准确定位和导航到特定对象的能力是一项至关重要的能力。此类对象导航任务通常需要在带有标记对象的视觉环境中进行大规模训练,这对于未知环境中的新对象泛化能力较差

在这项工作中,我们提出了一种新颖的零样本对象导航方法,即带有软常识约束(ESC)的探索,该方法将预训练模型中的常识知识转移到开放世界对象导航,而无需任何导航经验或任何其他视觉训练环境。首先,ESC利用在开放世界的prompt grounding上预先训练的视觉语言模型,并利用预先训练的常识语言模型进行房间和物体推理。然后,ESC 将常识知识建模为软逻辑谓词,将其转化为导航操作,以实现高效探索。对MP3D (Chang et al., 2017)、HM3D (Ramakrishnan et al., 2021) 和 RoboTHOR (Deitke et al., 2020) 数据集上的大量实验表明,我们的 ESC 方法比基线显着改进,并且达到了SOTA。

引言

对象导航(ObjNav)是一项任务,其中智能体必须导航到未知环境中的特定目标对象(Batra 等人,2020)。此任务是其他基于导航的具体任务的基础,因为导航到目标对象是智能体与其交互的前提。虽然当前最先进的对象导航方法在具有有限目标对象和类似环境的特定数据集上进行训练时取得了良好的结果,但由于分布变化,当面对新的对象或环境时,它们通常表现不佳。现实世界的情况通常涉及不同的对象和不同的环境,这使得收集大量带注释的轨迹数据变得困难且成本高昂。因此,广义零样本对象导航是一个重要的研究领域,其中导航智能体无需额外训练即可适应新的对象和环境。

我认为智能体需要的能力:1、理解环境,可以识别环境中的物体和房间(GLIP来实现);2、可以推理房间-房间、物体和房间之间的关系(即进行常识推理)(LLM来实现);3、知道自己当前所处的位置,因此才可以推断出整个buding的格局

成功导航到目标对象需要两项关键能力:(1) 语义场景理解,涉及识别环境中的对象和房间;(2) 常识推理,涉及基于常识对目标对象的位置进行逻辑推理。例如,如图 1 所示,壁炉很可能位于客厅,因此智能体决定探索客厅中看不见的区域来寻找壁炉。然而,当前的零样本目标导航方法尚未有效解决这一要求,并且往往缺乏常识推理能力。现有方法需要在其他面向目标的导航任务和环境上进行训练(Majumdar 等人,2022;Al-Halah 等人,2022),或使用简单的启发式方法进行探索(Gadre 等人,2022)。

最近的研究表明,大型预训练模型对于零样本场景下的新任务具有很强的泛化和推理能力。在此基础上,我们提出了一个零样本对象导航框架,名为具有软常识约束的探索(ESC),它利用这些预先训练的模型,并且可以无缝地推广到未见过的环境和新颖的对象类型。如图 1 所示,我们首先使用基于提示的视觉和语言基础模型 GLIP (Li* et al., 2022) 推断出当前智能体观测内的物体和房间的信息。受益于大规模图像文本预训练,GLIP 可以通过prompt轻松泛化到新对象。然后,我们利用预先训练的常识推理语言模型,以房间和物体信息作为上下文来推断房间和物体之间的对应关系。

然而,在将从大型语言模型(LLM)推断出的常识知识转化为可执行操作方面仍然存在差距。另外,实体之间的关系通常是不确定的,例如,书在客厅里的概率很高,但不是确定性的。为了应对这些挑战,我们的 ESC 方法使用概率软逻辑 (PSL)(Bach 等人,2017)对“软”常识约束进行建模,PSL这是一种声明性模板语言,定义了一类具有一阶逻辑规则的特殊马尔可夫随机场。然后将这些软常识约束纳入经典的探索方法,即frontier-based-exploration(FBE),以零样本的方式确定下一步探索哪个frontier。与之前依赖于使用神经网络对常识进行隐式训练的方法不同,我们的方法显式地使用软逻辑谓词来表示连续价值空间中的知识,然后将其分配给每个frontier,从而实现更有效的探索。

本文的贡献:

1、我们提出了用于零样本对象导航的软常识约束(ESC)探索方法,该方法利用预先训练的视觉语言模型来进行开放世界场景理解,以及对象级和房间级常识推理。

2、我们的 ESC 方法对软常识约束进行建模,并使用基于前沿的探索和概率软逻辑将它们无缝地转换为导航动作,这是免训练的。——》解决实体之间不确定、以及常识知识转化成智能体的工作之间的gap这两个问题。

3、我们在零样本目标导航方面取得了最先进的结果,并且在三个对象导航数据集和基准测试中大幅优于基线方法。

本文方法

本文的目标在更具有挑战性的零样本场景进行导航:智能体不需要任何导航数据进行训练,就可以实现零样本导航。

在导航过程中,智能体根据 RGB 观察和提示进行场景理解。同时,Mapping模块构建包含房间、物体和边界信息的语义地图。以目标对象和语义场景信息为条件,智能体将通过 LLM 执行常识推理,以推断目标对象的可能位置,并使用 PSL 选择要探索的frontier(没有理解frontier的含义)

开放世界的语义场景理解

Prompt-Based Scene Grounding

为了利用大型语言模型进行导航推理,我们需要将输入的 RGB 图像转换为语言形式的语义上下文。为了实现这一目标,我们利用预先训练的基础语言图像模型 GLIP(Li* 等人,2022)并使用文本提示。与 Mask-RCNN(He et al., 2017)等仅限于固定类别的传统目标检测模型不同,GLIP将检测任务制定为grounding问题,通过将建议的图像区域与文本提示中的短语对齐并预测区域-文本对齐的得分。受益于大规模图像文本预训练,GLIP 可以在开放世界环境中检测常见的室内概念(例如物体、房间)。因此,很容易推广到不同的环境和对象目标来执行开放世界对象导航。

我们首先定义一组常见的室内物体集合\left \{ o_c \right \},所有可能的目标物体集合\left \{ o_g \right \},将其拼接起来作为物体的prompt.

Semantic Map Construction

Commonsense Reasoning for ObjNav via LLM

Commonsense Guided Exploration

FRONTIER-BASED EXPLORATION

SOFT COMMONSENSE CONSTRAINTS

Experiment

和SOTA的对比

图3验证了ESC方法的有效性

消融实验

验证场景语义理解和常识推理的有效性:设计了Gow,使用GLIP做物体检测,并且用传统的fronter-based探索算法进行探索,Gow在探索过程中始终选择 1.6 米外的最近边界。

这两种方法的大部分错误都是检测错误,这表明利用有限的标签来改进零样本预训练的 VL 模型以及将检测结果转化为行动的更好策略是改善零样本的潜在方向。

总结

在本文中,我们提出了一种零样本对象导航框架 ESC,它利用了语言图像基础模型和大语言模型的预训练知识。我们通过 PSL 将常识引入基于前沿的探索作为软约束。实验结果从不同角度说明了我们方法的有效性和普适性。

未来的工作可以尝试从LLM那里获取更多常识,比如房间之间的空间关系。并且,ESC采用固定的策略来结合常识性知识。将零样本约束放宽到有限的微调来学习前沿选择策略也是一个潜在的方向。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值