论文阅读《Task-Driven Graph Attention forHierarchical Relational Object Navigation》

题目

层次关系对象导航的任务驱动的图注意力(关键词:层次关系对象导航、任务驱动的图注意力)

摘要

大场景中的具身智能体往往需要导航到要找的物体。在本文的工作中,我们研究了对象导航任务 的变体:分层关系对象导航(HRON)。该任务的目标是:

引言

在大场景下寻找一个对象时,需要在不同的房间之中进行导航,并且利用导航路程中观测到的东西做出最佳的导航决策,直到找到目标。针对多个房间和物体的场景的复杂性,对象导航的一个挑战是设计一个可以有效地表示和利用已知信息,为未来的决策提供依据的解决方案。也就是说模型需要有效的表示和利用已知的信息。

之前的对象导航任务为找到目标对象类别的任何实例 (例如,“找到任何一双鞋”)的问题——即对象导航问题[6-8]。另一种定义需要找到目标对象类别的特定实例,例如,“旧鞋”。此任务被称为实例对象导航[9]或ION。ION通常是一个更自然的问题定义,因为现实的下游任务通常需要一个特定的对象实例(“红皮书”),而不是任何实例(“任何书”)。在这项工作中,我们专注于ION的一个新实例,它在定义(对象家具,家具-房间)中引入了额外的层次关系约束,例如“在卧室的床下找到鞋子”,或“在厨房的桌子上找到杯子”。我们将这个问题称为层次关系对象导航(hierarchical relational object navigation)或HRON。

目标导航任务的理想解决方案应结合适当的输入表示和最优机制来提取必要的信息来指导导航; 这些可以依赖于任务。虽然以自我为中心的RGB-D图像、分割图像、点云以及它们与2D或3D(语义)地图的集成已经成功地用作对象导航的输入[10-12],但使用它们作为输入的解决方案在HRON中表现不佳(参见第五节)。 这是因为它们不能有效地表示关系信息,也不能扩展到大的、多房间的自然场景。 相反,场景图[13-16]--节点是物体或房间,边是它们之间的成对关系的图--提供了一个紧凑的场景表示,捕捉了指导HRON解决方案的关键信息。 因此,我们提出的HRON解决方案使用在探索过程中构建的场景图作为输入表示。

利用图神经网络(GNNs)[15,17-22]可以有效地提取和利用编码在图结构中的信息。 然而,如果将GNNs简单地应用于具有无关结点和边的大型图,如表示具有数百个对象的现实场景的图,其成功可能会受到限制。 因此,我们提出在GNNs中集成任务条件注意,以集中图中与任务相关的元素,从而更好地聚合它们的特征,解决当前任务。

本文的主要贡献:

1、提出了层次关系对象导航(HRON)任务。HRON需要比对象导航和实例对象导航更复杂的关于对象和房间关系的推理。

2、提出了一种基于场景图表示的HRON任务的解决方案,将图神经网络和任务驱动的注意力相结合,提高了HRON在大场景下的可扩展性和学习效率。 通过实验评估,我们发现采用我们提出的结构的强化学习(RL)Agent在性能和样本效率上优于以往的工作。

3、我们介绍了HRON在三个日益复杂和现实的任务中的具体实例。 在Igibson 2.0[23]中,我们为第一个任务提供了一个符号实现,为其他两个任务提供了一个基于物理的实现。 这些环境将为未来的研究公开访问。

相关工作

 物体导航

在过去的几年里,许多研究都集中在基于学习的方法上,因为这种方法在新的环境中需要较少的先验知识。但是,它们通常被限制在只包含目标对象[8]实例的单个房间中进行搜索。最近,ION(实例级对象导航)[9]和SOON(面向场景对象导航)[22]将问题定义扩展到定位具有特定属性和关系的对象实例。然而,ION仍然专注于小的单房间场景,而SOON则专注于离散选择,而不是使用特权信息训练的预定义路径点,而不是嵌入导航。相比之下,我们的重点是在大型、多房间(分层)场景中的长视距学习具身导航。因此,我们选择严格按照关系约束来定义对象实例,因为这些约束自然适合于将智能体指向更大场景中的特定区域

物体导航中的场景图

尽管直接从传感器输入中学习导航策略是可行的[12],但在更大的场景中,附加的归纳偏差和知识表示可以提高效率。 与语义地图等其他表示不同,场景图是根据对象的数量而不是场景的大小进行缩放的,这使得它们适合作为大规模场景中对象导航的知识和记忆表示[46-48]。 场景图明确而紧凑地存储了关于对象的几何、位置、语义和关系的信息,这使它们成为对对象关系进行推理的理想选择。 此外,图自然地编码层次关系,并在以前的一些工作中得到了应用[15,40,49,50]。然而,以前的工作侧重于将场景图用于具有同构图边的标准对象导航任务,而我们的重点是研究如何最好地利用场景图来解决具有有向异构边类型的HRON问题。 边缘中的关系信息为有针对性地探测场景提供了有用的信息。 例如,当在厨房的桌子上搜索苹果时,特定的表实例和厨房实例之间存在“In Room”边缘,这表明在搜索过程中应该优先考虑这个表。

物体导航中的注意力

注意力在人类视觉搜索中的重要性早已被认识到[51-53]。 为具身智能体开发一种注意力机制是一个活跃的研究课题。这种注意力可以是以自我为中心的RGB图像上的显著图[54],或者2D图上的权重[55,56]的形式。注意力可能有助于在视觉搜索中利用大场景图,但由于在为不同目的开发的图神经网络中有许多形式的注意力机制,因此适当的注意力机制仍有待探索[57-59]。 我们的工作建立在现有研究的基础上,并提出了一个框架,用于将任务驱动的注意力机制结合到具有挑战性的HRON问题的场景图表示中。

本文方法

我们的HRON解决方案包括四个元素(图1)。首先,核心是环境的场景图表示,在任务执行期间从当前RGB-D图像增量构建,并作为输入到我们的模型的一部分(第III-A节)。其次,使用图神经网络和任务驱动的注意模块将场景图的信息归纳为单个图特征(第三- b节)。第三,将视觉RGB-D输入和目标描述,一个由one-hot编码组成的元组,通过学习层转换为特征向量,将所有的输入向量融合为一个单一向量(Sec III-C)。最后,这个融合的向量是一个强化学习代理使用的学习表示,该代理通过与环境的交互来训练,以找到由层次关系约束指定的对象(第三- d节)。然后我们详细描述每个组件。

场景图表示

场景图由一组节点和一组有向边组成,其中每个节点表示一个物理实体(例如,对象、房间)。 节点特征包括物理实体的属性和状态(例如语义类、3D姿态、大小)。 所有节点的姿态都定义在Agent的局部坐标系中,使得Agent知道自己在场景图中的位置。 有向边表示实体之间的物理关系,例如“RoomConnected”(房间-房间关系)、“ontop”(对象-对象关系)和“inroom”(对象-房间关系)。

为了建立场景图,我们的方法利用Igibson模拟器提供的一个完善的目标检测器在导航任务的每一步从RGB-D图像中提取信息,并以增量的方式积累信息。 在仿真中,我们模拟了场景图生成方法的执行情况,如前文[14,60,60]所提出的方法。 在搜索的任何给定步骤中,位于代理视场中但尚未在场景图中的对象和房间作为新节点添加到代理视场中,已经存在的对象和房间将更新其节点特征。 连接到这些节点的边也将被检测和更新。 该过程在一个包含的AI导航代理中复制了一个真实的增量图形生成过程。

图神经网络架构

HGC(异构图transformer)

为了计算每个节点嵌入,图通过三个异构图transformer层[61],并激活ReLU。在计算注意力时,HGT卷积为每一种边缘类型使用不同的基于边缘的矩阵,允许模型根据不同的边缘类型学习表示,而不仅仅是连通性。

图注意力池化

最后一个池层将加权平均池应用于所有节点嵌入,并使用任务驱动的注意力机制来创建一个汇总场景图的单一向量。 为了有效地聚集与任务相关的节点,任务驱动的注意力机制为语义类别与当前事件目标描述中的任何语义类别匹配的所有节点分配权重1,否则为0。

多模态特征融合

为了融合全局/历史信息(场景图)、局部信息(当前RGB-D图像)和目标信息的特征,我们用三个连续卷积层、平坦化层和三个全连通层对RGB-D图像进行处理,并用三个全连通层对一热编码的目标描述进行处理。 然后,我们将来自所有三个分支(包括前面提到的场景图分支)的嵌入连接起来,并将连接的特征通过一个额外的三个FC层堆栈进行特征融合。

策略训练

该模型使用从RLlib[63]改编的PPO[62]实现进行端到端的训练,跨越8个并行环境,经历大约150万个环境步骤。 上述融合的特征向量分别通过单独的、专用于策略和价值网络的3层FC。 我们发现,对于这两个网络来说,有足够的网络深度是很重要的,以便策略能够利用图的特性。

实验评估

本文在实验设计时回答两个问题:

1、场景图表示是否能帮助智能体更快地学习,并在HRON任务中表现得更好?

2、注意力机制是否有助于在大规模、人口密集的场景中学习?

实验设置

关系对象选择

智能体被放在一个带有两个圆和矩形的2D环境中:一个圆在它们各自的矩形上,另一个圆在它们各自的矩形下。agent被赋予“矩形上圆”或“矩形下圆”的目标描述,必须从两种可能的行动(左/右)中选择满足目标描述的环境的一边。如果agent选择了正确的操作,它将获得1的奖励,否则将获得0的奖励。episode在一个步骤后结束(老虎机问题)。为了研究高场景复杂性的效果,我们添加了一个随机数目(最多75个)的三角形作为干扰。

定向目标导航

智能体被放为对称布置的房间,在该房间中,根据相对于房间的每一半上的相关家具(“架子”、“桌子”)的关系状态(“上”、“内”、“下”)产生对象(“碗”、“运动鞋”、“苹果”),仅在关系状态方面不同。 智能体在每个episode的相同起始位置初始化。 观测空间包括:1)RGB-D图像,2)带有目标描述的one-hot编码(对象-关系-家具)。 智能体的5个动作为:前进(0.2米)、后退(0.2米)、左转(30度)、右转(30度)和停止。 如果agent在目标对象的固定距离内导航(D=1m),它就会成功。 如果智能体用完时间(最大时间长度为500个时间步),或者如果智能体接近不正确的对象(D=1M),则该事件终止。 如果智能体成功,则给它10的奖励,如果它接近不正确的对象,则给它-5的奖励,否则给它0的奖励。

探索性目标导航

在现实的Wainscott_0_int iGibson场景[65]中,agent被随机取样在一个房间里,房间里摆满了家具。目标对象的目标对象类别、关系状态、相关家具类别和房间类别在每个章节开始时随机选择,例如“客厅桌子上的苹果”。一个匹配对象类别的对象模型实例被采样,以物理稳定的方式满足给定的关系约束(例如,一个苹果被放置在客厅桌子的实例模型上)。观测空间、行动空间、奖励函数和终止条件与有向目标导航相同,但有两个例外:1)目标描述包含层次关系约束:客体-关系-家具和家具-房间-房间,2)情节不会终止,当代理接近不正确的对象时,代理不会收到负奖励。

Baselines和消融实验

baselines

我们将我们的方法与Kipf等人的两个最先进的基线--图卷积网络(GCN)进行了比较和Yang等人提出的利用场景先验信息的视觉导航方法。 由于这些工作的代码不公开,我们尽力复制他们的方法。

Kipf等人:与HGT相比,图卷积网络(GCNs)是一种更简单的图神经网络形式,因为它不处理异构边,也不涉及注意力。 [21]和[66]都使用GCNS来处理他们的图。 我们通过用GCNS替换我们的HGT来实现这个基线,否则保持所有其他方面与我们的方法相同。

Yang:我们复制了[21]中使用的方法。与我们的方法不同,这个基线将目标表示为目标对象类别的fastText[67]向量,并从节点类别的fastText向量和当前RGB图像的ResNet-50 [68] softmax编码创建节点特征。

消融实验

实验

为了回答上一节提出的Q1和Q2问题,我们的主要发现是场景图表示确实有助于具身智能体在需要关系对象推理的任务中执行得更好。此外,在大型、填充场景中,场景图的大小增长到大约100个节点,任务驱动的注意力机制对任务性能至关重要,因为它显著有助于跨节点聚合任务相关信息。对于定量结果,我们报告成功。

对于定量结果,我们报告了成功率(SR),即Agent是否在时间限制内成功接近目标对象,以及由路径长度(SPL)加权的成功,路径长度是Agent路径长度与任务成功条件下的最优路径长度的比值[69],在三个随机种子上的20episode平均。

关系物体选择

从表二中,我们观察到,当没有干扰物时,我们模型的两个变量都能快速地学习输出符合目标描述的正确动作。然而,当有大量干扰物时,我们的无注意SG模型表现出显著的下降。我们采用任务驱动注意SG + TD ATTN的模型可以挽回大部分性能损失,并取得近乎完美的成功。

定向物体导航

从表III中,我们观察到仅用RGB-D消融不能解决任务,只能实现机会水平的性能。 与前面的任务类似,当没有干扰物时,我们的场景图模型的两个变体RGB-D+SG和RGB-D+SG+TD ATTN都能够快速学习将目标描述嵌入场景图,并选择一系列导航动作来使机器人靠近正确的目标对象。 另一方面,在分散注意力的情况下,任务驱动的注意力对于有效聚合与任务相关的信息仍然至关重要。

探索性物体导航

分析了场景预映射的有效性。比较图3中间图中的虚线和实线,我们可以看到预先映射场景和向智能体提供家具信息导致了我们所有三种模型的性能显著提高。对增量构造的场景图的改进表明,我们的模型RGB-D + SG + TD ATTN和RGB-D + SG可以有效地利用注入到初始图中的先验信息。它们也优于带有预映射的度量地图(RGB-D + MM)。

在图3最右边的一列 .我们使用RGB-D+SG+TD ATTN模型可视化了探索性对象导航任务的两个示例Agent轨迹,其中星形代表目标对象的位置。 由于场景图中存储了房间-对象和对象-对象的关系信息,我们的模型可以有效地探索场景,以接近最短的路径到达目标对象,或者在进入错误的房间后从过去的错误中返回。

讨论和局限性

在这项工作中,我们展示了场景图作为层次关系对象导航(HRON)任务表示的好处,这些任务需要对对象关系进行推理。 在大规模、人员密集的场景中,具有任务驱动的注意力机制对于聚合与任务相关的信息并实现高成功率至关重要。

在LSTMS[70]中,显式记忆模型(如场景图)相对于潜在表示(如权重)的一个优势是能够存储和检索先验场景知识(如房间配置和家具摆放),这与任务目标不变。 通过用家具信息填充场景图来提供场景先验信息,使得基于场景图的预映射模型(PM:RGB-D+SG+TD、ATTN)的性能显著优于其他基线。

在关系对象搜索的上下文中,场景图表示与度量图表示相比还具有几个理想的特性。 图的复杂度与场景中物体的数量成线性关系,而不是与物理空间的大小成线性关系。 给定固定的内存,度量映射必须在高分辨率下表示小对象或低分辨率下表示大空间之间做出权衡。 此外,由于二维自上而下的投影,度量图在表示遮挡或包容时存在局限性。

任务驱动注意解决的主要挑战是将以对象为中心的场景图转换为提供给策略网络的场景图嵌入。 从结果中可以看出,幼稚的全局池混合了来自无关节点的信息。 我们的任务驱动的注意力通过来自任务相关节点的信息丰富了这种嵌入。

然而,我们的方法并非没有限制。 我们模型中的场景图是使用来自模拟器(一个完美的3D对象检测器)的特权信息来构建的,而不是来自原始的视觉输入,这在以前的工作中已经完成[71]。 此外,我们的问题设置是在无操纵的具体化导航领域内。 虽然机器人在导航过程中可能会与场景中的物体发生碰撞,但物体(因此场景图)基本上是静态的。 如何利用场景图和GNNS来解决移动操作问题仍然是一个活跃的研究领域,超出了本工作的范围。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值