《论文阅读》：Zero-Shot Object Goal Visual Navigation

最新推荐文章于 2025-04-11 19:37:10 发布

帅你一脸的臭宝

最新推荐文章于 2025-04-11 19:37:10 发布

阅读量765

点赞数

文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_45800242/article/details/133939542

版权

摘要

目标导航是一项具有挑战性的任务，旨在引导机器人根据视觉观察找到目标物体，并且目标仅限于训练阶段预定义的类别。然而，在现实家庭中，机器人需要处理的目标类别可能非常多，而训练阶段很难包含所有这些类别。为了应对这一挑战，我们研究了零样本的目标导航任务，该任务旨在引导机器人在没有任何训练样本的情况下找到属于新类别的目标。为此，我们还提出了一种新颖的零样本目标导航框架，称为语义相似性网络（SSNet）。我们的框架使用检测结果和语义词嵌入之间的余弦相似度作为输入。这种类型的输入数据与类的相关性很弱，因此我们的框架能够将策略推广到新的类。 AI2THOR平台上的大量实验表明，我们的模型在零样本目标导航任务中优于基线模型，这证明了我们模型的泛化能力。

介绍

目标导航是机器人执行现实世界任务的一项重要技能，旨在根据视觉观察引导机器人到达目标。学习有效的导航策略是一个复杂的问题，涉及机器人学的许多领域，例如视觉感知、场景理解和运动规划。虽然研究人员已经取得了有希望的对象导航结果[1]-[5]，但这些方法主要关注在训练阶段预先定义的类，这些类被称为“可见类”。然而，在真实的家庭中，可能存在大量无法在训练阶段完全包含的对象类，这些对象类被称为“未见过的类”。

因此，受到计算机视觉领域零样本学习最近成功的启发（例如图像识别[6]、[7]、对象检测[8]-[10]和语义分割[11]、[12]），我们研究了零样本目标视觉导航（ZSON）任务，该任务旨在使机器人能够导航到未见过的类别的目标。、

零样本学习方法主要在训练阶段使用图像和语义嵌入将已见类的视觉特征和语义知识对齐到公共空间中，并在测试阶段使用未见类的语义嵌入和对齐的公共空间来处理未见类[6]-[12]。 ZSON 任务与零样本学习具有类似的定义。图 1 展示了 ZSON 任务的简明示例。在训练阶段，通过训练场景中所见类的视觉特征和语义嵌入来训练智能体。在测试阶段，智能体将测试场景中的观察结果和未见过的类的语义嵌入作为输入和输出运动计划，以找到未见过的目标。为了成功完成任务，智能体需要足够接近目标并调整其观察角度直到目标可见。

此外，我们提出了基于深度强化学习（DRL）算法和自注意力机制的语义相似性网络（SSNet）。我们认为，阻止模型在训练阶段对已见类的过度拟合是模型处理未见类的重要因素。因此，我们丢弃广泛使用的与类相关性强的输入数据，例如密集的视觉特征和知识图谱[1]-[5]，并利用检测结果和语义嵌入的余弦相似度，消除了大部分与类直接相关的信息。通过这种方法，我们的模型可以避免对已见类的过度拟合，并将学习到的策略推广到未见类。此外，我们还提出了一种新的语义奖励函数，它利用语义嵌入的余弦相似度来帮助智能体学习导航策略。这种奖励鼓励机器人在导航过程中寻找与目标语义相似的物体，而目标更有可能出现在这些相似物体周围。

我们在广泛使用的平台 AI2THOR [1] 中评估我们的方法，该平台包含 120 个模拟室内场景和 22 个常用目标类别 [3]-[5]。我们将 22 个目标类重新划分为不同数量的可见类和未见类。实验结果证实了我们对输入数据与泛化能力之间关系的看法。所提出的模型在可见类别和不可见类别上均优于所有基线模型。此外，我们的模型在正常的对象导航设置下也显示出相当可观的性能。

总之，我们研究零样本目标视觉导航任务，以解决机器人导航到开放世界中未见过的目标类别的需求。我们提出了一种新颖的零样本对象导航模型，称为 SSNet。该模型基于 DRL 算法，并使用与类无关的数据作为输入，可以将学习到的导航策略泛化到未见过的类。我们提出了一种新颖的语义奖励函数。该奖励函数利用目标和其他可见对象之间语义嵌入的余弦相似度来指导机器人学习零样本对象导航策略。

相关工作

视觉导航

视觉导航作为一项重要的机器人任务，长期以来引起了广泛的关注。经过多年的研究，已有不少关于视觉导航的研究成果，我们简单概述一下。传统的导航方法总是依赖于通过同步定位和建图（SLAM）技术制作的离线或在线地图[13]-[18]。他们将此任务视为避障问题，并专注于路径规划算法。

最近，随着深度强化学习的发展，在视觉导航领域提出了更高级的任务。根据不同的输入和目标类型，最近的视觉导航任务可以分为点导航[19]-[21]、目标导航[1]-[5]和视觉语言导航[22][ 23]。我们的工作与目标导航类似，因此我们仅介绍目标导航的相关工作。目标导航是指机器人需要学习导航策略以找到指定目标实例并避免障碍物碰撞的任务。场景先验 [2] 使用知识图谱来提取对象的语义先验和关系来导航智能体。它使用图卷积网络（GCN）[24]通过视觉基因组数据集[25]提取先验知识。 MJOLNIR [4] 使用分层对象关系奖励、上下文矩阵和 GCN 来学习导航策略。 VTNet [5] 使用transformer来提取对象之间的关系并与导航策略建立强连接。目标驱动工作 [1] 使用目标对象的图像作为输入来训练导航策略并构建广泛使用的 AI2-THOR 框架，该框架提供了具有真实 3D 场景和物理引擎的环境。尽管这一工作在视觉导航方面取得了有希望的结果，但它们仅限于训练阶段指定的类别。一旦他们在测试阶段遇到属于新类别的目标，他们就很难完成视觉导航任务。我们的工作重点是零样本设置，在处理测试场景中看不见的目标时取得了更好的结果。

零样本学习

零样本学习旨在使用语义嵌入（Word2vec [26] 或 GloVe [27]）来处理未见过的类。早年，零样本学习研究主要集中在分类问题上[6]、[7]。随着其他计算机视觉任务的出现和发展，零样本学习也得到了其他领域的重视和应用，如目标检测[8]-[10]、图像分割[11]、[12]等。零样本学习方法可以分为两大类：投影方法和生成方法。投影方法将见过的类别的视觉特征和语义嵌入投影到公共空间中，并按类别对齐它们[7]、[8]、[10]-[12]。当处理未见过的类时，它们的语义嵌入可以用来推断它们在公共空间中的视觉特征。生成方法[6]、[9]使用见过的类别的语义嵌入和视觉特征来训练生成模型，例如生成对抗网络（GAN）[28]或条件变分自动编码器（CVAE）[29]。生成模型可用于通过语义嵌入生成未见过的类的样本，并且生成的样本可用于微调视觉模型。我们的工作与投影方法更相似，但我们不直接使用语义嵌入作为模型输入。相反，我们使用类之间语义嵌入的余弦相似度作为模型输入，将导航策略推广到未见过的类。

零样本目标导航

任务定义

使用 $S=\left \{ s_1,s_2,...,s_n \right \}$ ，在训练阶段可用，并且n代表见过的类别的总数。

使用 $U=\left \{ u_1,u_2,...,u_m \right \}$ ，在测试阶段可用，并且m代表未见过的类别的总数。

使用 $I=\left \{ i_1,i_2,...,i_k \right \}$ ，表示另外一组不相关类，并且k表示不相关类的总数，在训练阶段和测试阶段都要用，但是不被选定为要找的目标。

$C=S\cup U$ 表示所有的目标类的集合，所有训练场景的集合用 $X_s$ 表示，测试场景的集合用 $X_c$ 表示。 $E_s$ 表示可见类的语义嵌入， $E_u$ 表示未见过类的语义嵌入， $E_i$ 表示不相关类的语义嵌入。

在训练阶段，智能体在训练场景 $X_s$ 中用见过的目标类S进行训练。智能体的目标是使用训练场景中的视觉观测s和目标的语义嵌入 $E_s$ ，用来训练一个导航策略 $\pi =(s,E_s)$ 。在测试阶段，智能体会获得对测试场景的视觉观测，以及属于所有目标类 C 的目标的语义嵌入。当处理属于未见过的类 U 的目标时，智能体需要将学习到的导航策略推广到目标使用 $E_u$ ，表示为 $\pi =(s,E_u)$ 。与大多数对象导航工作[1]-[5]一样，当目标对象在当前观察中可见并且在距离阈值（1.5m）内时，零样本对象导航任务被认为是成功的。

模型框架

与其他导航工作不同，我们丢弃了常用的视觉特征或知识图谱[1]、[2]、[4]，仅使用高度抽象的检测结果矩阵和作为输入的语义嵌入的余弦相似度。受[4]的启发，检测矩阵（不包含未见过的类）包含当前观察中见过的类和不相关类的检测结果（因为我们的工作主要集中在策略学习上，所以我们直接使用groundtruth检测结果作为完美的检测器，这是一样的如其他论文 [3]、[4]、[30]）。检测矩阵的每一行都可以表示为类j 的 $c_j=\left [ v,x_c,y_c,area \right ]$ 。第一个元素 $v$ 是二进制类型。如果类 j 的对象在当前观察中可见，则 v 的值为 1。如果无法观察到，则该值为0。第二个和第三个元素是类j 检测边界框的中心坐标。最后一个元素area表示边界框的图像空间。如果某个类的对象不可见，则检测矩阵中该类的变量值将设置为0。此外，还有一个嵌入矩阵（不包含未见过的类），表示从 GloVe [27] 获得的见过的类和不相关类的语义嵌入。

嵌入矩阵用于计算与目标的语义嵌入的余弦相似度（CS），可以表示为：

其中 $g_j$ 表示类 j 的语义嵌入， $g_t$ 表示目标的语义嵌入。最后，CS将与检测矩阵连接作为后续模块的输入。从上面的描述可以看出，我们的输入很少包含与类别直接相关的信息，大部分信息是相似度值和检测边界框参数，这些都是与类别无关的。

构建矩阵后，我们引入一个自注意力模块，并使用沿类轴分割的串联矩阵作为输入。自注意力模块可以根据不同的CS和检测结果自适应地学习每个类之间的关系。自注意力模块使用学习到的注意力参数来融合并输出每个类别的特征。然后，我们将输出特征连接成一维向量，并使用长短期记忆（LSTM）网络[31]从先前和当前状态中提取和存储有用信息。在LSTM网络之后，我们采用A3C算法[32]来学习视觉导航策略并输出运动计划。

经过充分的训练，我们的模型可以学习不同类别之间的关系，以促进视觉导航策略。在测试阶段，测试场景包含见过的和没见过的类，可以选择这些类作为目标。当处理没见过的目标时，我们的模型只需要采取目标的语义嵌入来计算其与嵌入矩阵的余弦相似度，然后它就可以将学习到的导航策略推广到不可见的类，而不需要任何其他措施。

学习设置

动作空间：在虚拟平台（AI2-THOR）上进行模拟时，我们使用与其他论文 [1]、[2]、[4]、[5] 中相同的离散动作空间。离散动作空间 A = {MoveAhead, RotateLeft, RotateRight, LookUp, LookDown, Done}。 MoveAhead 动作将使机器人向前移动 0.25 米。 RotateLeft 和 RotateRight 操作将使机器人旋转 45 度。 LookUp 或 LookDown 操作将使相机向上或向下倾斜 30 度。 Done 动作代表机器人相信它已经找到目标并且剧集将结束。

观察：AI2-THOR框架中的机器人将拍摄RGB图像作为观察。

奖励：我们提出了一种新颖的语义奖励，利用语义嵌入的余弦相似性来学习视觉导航策略。通过计算可见对象和目标之间语义嵌入的余弦相似度来获得奖励值。如果当前观测有多个可见对象，我们选择最大余弦相似度值作为奖励。这样，它可以鼓励智能体找到与目标语义相似的对象。由于整个模型是端到端训练的，因此奖励将传播回自注意力模块，并引导其正确学习对象之间的注意力参数。另外，只有当当前的相似度值大于上次的相似度值时，才会将其作为奖励值。这鼓励机器人寻找具有更高语义相似度的物体，直到找到目标。最后，如果当前观察中没有可见物体，机器人将获得-0.01的奖励值，作为减少轨迹长度的惩罚。上述奖励计算过程可以用算法1来概括。

实验和结果

我们使用 AI2-THOR作为零样本目标导航任务的平台。该环境包含 120 个逼真的平面图，包括 4 种不同的房间布局：厨房、客厅、卧室和浴室。每个房间都包含许多智能体可以观察并与之交互的对象。与其他论文[3]-[5]类似，我们也使用80个房间作为训练场景，并使用40个房间作为测试场景。我们将广泛使用的 22 个目标类别 [3]-[5] 重新划分为 18/4 可见/未见和 14/8 可见/未见类别，并评估这两种类别划分的模型。

实验细节

训练了900000个episode，0.0001的学习率，测试时每个房间250个episode。

实验结果

限制和总结

在本文中，我们仅在实体人工智能平台上进行实验，并未在物理机器人上进行验证。 AI-THOR中的房间布局比较简单，没有复杂的套房布局。我们使用ground truth而不是对象检测器，因为我们主要关注导航策略。显然，真实的房屋具有非常复杂的房间布局，需要更强大的策略来引导机器人。未来的工作将探索更复杂的房间布局中的零样本对象导航任务，并评估我们对物理机器人的策略。