代码: GitHub
摘要:
看不见环境下的目标目标导航(ObjectNav)是嵌入人工智能的一项基本任务。现有工作中的代理学习基于二维映射、场景图或图像序列的Object导航策略。考虑到这项任务发生在三维空间中,三维感知代理可以通过学习细粒度的空间信息来提高其Object导航能力。然而,由于低样本效率和昂贵的计算成本,利用3D场景表示对于这个底层任务中的策略学习可能是非常不实际的。在这项工作中,我们提出了一个基于两个简单的子策略的具有挑战性的三维感知对象导航的框架。角导向探索策略和类别感知识别策略利用在线融合三维点作为观测同时执行。通过大量的实验,我们证明了该框架可以通过学习三维场景表示来显著提高对象导航的性能。我们的框架在Matterporport3D和Gibson数据集上,在所有基于模块化的方法中取得了最好的性能,同时需要更少的训练成本。
场景定义
在未知环境中,“对象目标导航”任务要求代理导航到指定目标类别的实例。
作为初始化时,代理被随机定位,而不知道预先构建的环境映射,并提供一个目标类别ID。
在每个time step中,agent接受传感器数据,包括以agent为中心的RGB-D数据和一个相对与开始时的3Dof位置姿态(2D坐标位置和1D的方向)。代理可以进行的操作有向前、向后、左转、右转、停止。在有限次数T=500内,agent需要找到目标并定位到指定类别1米以内。
方法
输入:代理当前观察到的RGB-D图像,目前的3Dof位置,目标类别ID。
将输入构建一个基于点的三维场景表示,进一步投影为二维语义映射。我们的框架有两个互补的策略,exploration和identification策略,25步为一个周期。exploration策略定义了一个长期离散的转角目标,推动代理探索周围环境。identification策略,对每一步的三维点进行评估,如果目标对象的语义预测置信度比较高且一致,则输出目标对象,一旦检测到目标对象,代理将接近目标,否则代理将导航到长期的转角目标。在导航向目标时,有一个本地规划模块使用分析路径规划导向目标。
过程可视化
代理在一开始识别到误导的信息,经过多轮验证,发现识别错误,之后进行探索,识别到正确目标。
结果
指标:
SPL:按路径长度加权的成功程度。它测量了探索路径长度的效率;