【翻】GOAT: Go to any thing

最新推荐文章于 2024-10-18 00:00:00 发布

yummi_DL

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量455

点赞数 2

文章标签：人工智能算法机器学习

本文链接：https://blog.csdn.net/weixin_46831727/article/details/134461481

版权

0. Abstract

在家庭和仓库等部署场景中，移动机器人需要能够自主导航较长时间，并能流畅地执行由人类操作员以直观易懂的方式表述的任务。我们提出了一个名为“走向任何事物”（GOAT）的通用导航系统，它能够应对这些要求，具备三个关键特性：a) 多模态：它可以处理通过类别标签、目标图像和语言描述指定的目标，
b) 终身：它能够从同一环境中的过往经验中获益，
c) 平台无关：它可以快速部署在具有不同外形的机器人上。
GOAT通过模块化系统设计和不断增强的实例感知语义记忆得以实现，该记忆能够跟踪对象从不同视角的外观，以及类别级别的语义。这使GOAT能够区分同一类别的不同实例，以便导航到通过图像和语言描述指定的目标。

在涵盖9个不同家庭、超过90小时的实验比较中，我们设置了675个目标，涉及200多个不同对象实例。我们发现GOAT的总体成功率达到了83%，比之前的方法和变体高出32%（绝对提升）。GOAT在环境中的经验增加后，其成功率也有所提高，从第一个目标的60%成功率提升到探索后的90%。此外，我们还展示了GOAT可以轻松应用于下游任务，如拾取放置和社交导航。

1 Introduction

自从有能够移动的动物以来，导航到期望的位置——如食物、伴侣、巢穴——一直是动物和人类行为的基本方面。导航的科学研究是一个非常跨学科的领域，其中包括动物行为学、动物学、心理学、神经科学和机器人学等领域的研究者所作的贡献。在这篇论文中，我们介绍了一个移动机器人系统，它受到了动物和人类导航中一些最显著发现的启发。

认知地图。许多动物维持着对其环境的内部空间表示。关于这种地图的性质——它是按欧几里得意义上的度量还是仅仅是拓扑的——有激烈的争论，而在诺贝尔奖获奖研究中，已经在海马体中发现了认知地图的神经相关性。这表明，一个纯粹反应式的、无记忆的导航系统对于机器人来说是不够的。【58】
这种内部空间表示是如何获得的？ 从人类研究中，人们认为这些是通过“基于路线”的知识建立起来的。在日常或其他情景活动的过程中，我们学习了一条路线的结构——起点、终点、途经点等。随着时间的推移，不同经历中的特征被整合到一个单一的布局表示中，即“地图”。对于移动机器人，这激发了“终身学习”的一个版本——随着移动机器人进行主动搜索和探索，其内部空间表示不断改进。【26】
导航是否仅仅由位置的几何配置驱动？ 不是的，因为地标的视觉外观在动物和人类导航中起着重要作用。这表明需要维护移动机器人空间环境的丰富多模态表示。【12】

让我们具体来看。想象一下，一台机器人开始在一个未见过的环境中，如图1所示，假设它被要求找到一张餐桌的图片（目标1）。导航到这个目标需要识别出图片显示的是餐桌，并且对室内空间有足够的语义理解，以便有效地探索家庭环境（例如，餐桌通常不在浴室里找到）。假设接下来要求机器人走到沙发旁边的盆栽（目标2）。这需要将文本指令在物理空间中进行视觉定位。接下来的指令是走到一个水槽（目标3），其中大写字母强调任何属于水槽类别的对象都是有效目标。在这个例子中，机器人在第一个任务中已经在房子里看到过一个水槽，所以它应该记住它的位置，并能够有效地规划路径到达那里。这就要求机器人建立、维护并更新对环境中的对象、它们的视觉和语言属性以及它们最新位置的终身记忆。给定任何新的多模态目标，机器人还应该能够查询记忆，以确定目标对象是否已经存在于记忆中或需要进一步探索。除了这些多模态感知、探索、终身记忆和目标定位的能力之外，机器人还需要有效的规划和控制能力，以在避开障碍物的同时到达目标。

在这篇论文中，我们介绍了一个名为“走向任何事物”（GOAT）的通用导航系统，它具有三个关键特性：a) 多模态：它可以处理通过类别标签、目标图像和语言描述指定的目标；b) 终身：它从同一环境中的过往经验中获益，以物体实例地图的形式（与存储在机器学习模型参数中的方式相对）随时间更新；c) 平台无关：它可以无缝部署在不同形态的机器人上——我们在四足机器人和轮式机器人上部署了GOAT。GOAT通过设计一个实例感知的语义记忆得以实现，该记忆能够跟踪对象从不同视角的外观，以及类别级别的语义。这使GOAT能够区分同一类别的不同实例，以便导航到由图像和细致的语言描述指定的目标。随着代理在环境中停留的时间越长，这种记忆不断增强，从而随时间提高达到目标的效率。

在涵盖9个不同家庭、超过90小时的实验比较中，包括675个目标，涉及200多个不同对象实例，我们发现GOAT的总体成功率达到了83%，超过了之前的方法和消融实验32%（绝对提升）。GOAT在环境中的表现随着经验的增加而提高，从第一个目标的60%成功率提升到一旦环境被完全探索后的90%成功率。此外，我们展示了GOAT作为一个通用导航基本模块，可以轻松应用于下游任务，如拾取放置和社交导航。GOAT的性能部分归因于系统的模块化特性：它在需要学习的组件中（即对象检测、图像/语言匹配）利用学习，同时还利用了强大的传统方法（即映射和规划）。模块化还有助于跨不同机器人形态和下游应用的部署便利性，因为各个组件可以轻松适应或引入新组件。

虽然关于导航的研究已经有大量工作[57]，但大多数只在模拟环境中进行评估，或开发专门的解决方案来处理这些任务的一部分。经典的机器人学研究[56]采用几何推理来解决导航至几何目标的问题。随着对图像语义理解的进步，研究人员开始使用语义推理来提高在新环境中的探索效率[9]，并处理通过类别[46, 21, 3, 8, 34, 53, 6]、图像[63, 10, 22, 33, 32]和语言指令[41, 55, 18]指定的语义目标。这些方法中的大多数都是a) 专门针对单一任务的（即单模态的），b) 每个情节中只处理一个目标（即不是终身的），c) 仅在模拟环境中（或基本的现实世界环境中）进行评估。GOAT在这三个方面都有所突破，并在现实世界中以终身方式处理多种目标规格。这超越了过去只沿一个轴线创新的研究，例如，过去的研究[59, 10]处理一系列目标，但目标限于在模拟中要么是对象目标[59]，要么是图像目标[10]，[1]处理灵活的目标规格，但只显示了一个目标的模拟结果。[19]显示了真实世界的结果，但仅限于每集达到一个目标。

受到动物和人类导航的启发，GOAT维护了一个环境地图以及视觉地标——即对象实例的以自我为中心的视图——这些都储存在我们新颖的实例感知对象记忆中。这种记忆应该能够通过图像和自然语言查询，以满足GOAT的多模态需求。为此，我们存储了视觉地标的原始图像，而不是特征，这使我们能够独立利用最近在图像-图像匹配和图像-语言匹配方面的进展。我们使用对比性语言-图像预训练（CLIP）[45]进行图像-语言匹配和SuperGlue [49]进行图像-图像匹配。CLIP延续了将文本与图像或图像区域关联的悠久历史[25, 16, 17, 15, 31, 35, 43]，并导致了基于语言的开放词汇对象检测器的发展[62, 37, 42]。CLIP本身或从CLIP衍生的对象检测器最近已被用于机器人任务，例如对象搜索[18]、移动操控[61]和桌面操控[52]。同样，SuperGlue延续了几何图像匹配的悠久历史[27, 38]，最近基于学习的方法[49]在某些情况下带来了更好的性能。最近的工作已开始评估这些在具体环境中的应用，其中机器人必须导航到世界中的某个图像[33, 10]或与特定对象实例相对应的图像[32]。

GOAT的记忆表征延续了过去40年机器人学中场景表征的悠久历史：包括有几何特征的占用地图[14]、明确语义的占用地图[48, 7]或隐含语义的占用地图[21]、拓扑表示[10, 11, 36, 50]以及神经特征场[54, 51, 40, 5]。许多这样的工作开始使用预训练的视觉-语言特征，如CLIP[45]，并直接将它们投影到3D中[29]或捕获在隐含的神经场中[51, 5]。参数化表示将环境总结为低维抽象特征，而非参数化表示则将图像集合本身视为一种表示。我们的工作兼顾了这两方面。我们构建了一个用于导航到对象的语义地图，但同时也存储了与发现的对象（地标）相关联的原始图像。

2 Results

视频 1 总结了我们的成果。我们在波士顿动力公司的 Spot 机器人和 Hello Robot Stretch 机器人上部署了 GOAT，并进行了定性实验。我们在 9 个真实世界的家庭中，使用 GOAT 在 Spot（由于其可靠性更高）上与 3 个基线进行了大规模的定量实验，总共获得了 200 多个不同的物体实例（见图 2）。

2.1 Go To Any Thing: Lifelong Learning for Multimodal Navigation

Go to Any Thing，简称GOAT任务的具体定义和执行过程：

导航情节设置：
- 在未知环境中，机器人需要找到一系列未见过的目标对象。
- 每个情节包含了多个这样的目标，每个目标都是独一无二的。
机器人的初始位置：
- 机器人在环境中的一个随机位置开始其任务。
接收观测数据：
- 在每个时间步，机器人从其传感器接收数据，包括RGB图像（It）、深度图像（Dt）和位姿读数（xt）。
- 机器人同时接收当前的对象目标（gk）。这些目标可以是一个对象类别（如SINK, CHAIR），也可以是一个图像或语言描述，用于唯一标识环境中的一个对象实例。
任务执行：
- 机器人的目标是尽可能高效地到达这些目标对象。
- 这需要在有限的时间内完成。
目标的连续接收：
- 一旦机器人到达一个目标，或者时间预算用尽，它就会接收到下一个目标（gk+1）。
记忆的利用：
- 在寻找目标序列的过程中，机器人可以利用其观测数据建立和维护记忆。
- 如果在达到目标gk的过程中已经观察到了下一个目标gk+1，机器人可以更有效地导航到gk+1。

总的来说，GOAT任务要求机器人在一个连续的序列中高效地找到和到达多个目标，这些目标是通过多种方式（如类别标签、图像、语言描述）指定的，并且是在未知环境中提出的。这个过程中，机器人需要不断地收集和利用信息，以提高其导航效率。

2.2 Navigation Performance in Unseen Natural Home Environments

在本节中，我们评估GOAT代理完成GOAT任务的能力，即在未知环境中定位到一系列未见过的多模态对象实例。

GOAT代理人

图7（A）展示了GOAT系统的概览。随着代理在场景中移动，感知系统处理RGB-D相机输入以检测对象实例，并将它们定位到场景的自顶向下语义地图中。除了语义地图之外，GOAT还维护了一个对象实例记忆，该记忆在地图中定位各个对象类别的个别实例，并存储每个实例被观察到的图像。这个对象实例记忆赋予GOAT进行多模态导航的终身学习能力。当代理指定新目标时，全局策略首先搜索对象实例记忆，看目标是否已被观察到。在选择了一个实例之后，其在地图中存储的位置被用作长期点导航目标。如果没有定位到实例，全局策略输出一个探索目标。最终，本地策略计算朝向长期目标的行动。我们将在“材料和方法”部分进一步深入细节。

实例匹配策略
全局策略的匹配模块必须在对象实例记忆中识别之前看到的目标对象实例。我们评估了不同的设计选择，并最终确定以下方案：使用它们的CLIP [45]特征之间的余弦相似度分数，将语言目标描述与记忆中的对象视图匹配；使用SuperGLUE [49]的基于关键点的匹配，将图像目标与记忆中的对象视图匹配；在记忆中将对象视图表示为带有一些填充的边界框，以包括额外的上下文；只将目标与同一对象类别的实例匹配；将目标与所有视图中匹配分数最高的实例匹配。更多细节在补充材料的5.1节中。

实验设置
我们评估了GOAT代理以及三个基线，在九个视觉多样的家庭中（见图2），每个家庭包含10个情节，每个情节由5-10个对象实例组成，这些对象实例是从家中可用的对象中随机选择的，共代表200多个不同的对象实例（见图9和10）。我们从15个不同的对象类别中选择了目标（‘椅子’、‘沙发’、‘盆栽’、‘床’、‘厕所’、‘电视’、‘餐桌’、‘烤箱’、‘水槽’、‘冰箱’、‘书’、‘花瓶’、‘杯子’、‘瓶子’、‘泰迪熊’），按照Krantz等人[32]的协议为图像目标拍摄了照片，并注释了3个独特识别对象的不同语言描述。为了在一个家中生成一个情节，我们随机抽取了5-10个目标的序列，这些目标在所有可用的对象实例中平均分配在语言、图像和类别目标之间。我们根据到达目标的成功率和SPL [2]（衡量路径效率为代理路径长度与最佳路径长度之比）评估方法。我们报告了每个情节中每个目标的评估指标，误差条为两个标准差。

基线对比
我们将GOAT与三个基线进行了对比：1. CLIP on Wheels [18] - 现有工作中最接近能够解决GOAT问题设置的 - 它跟踪机器人所见过的所有图像，并在给定新目标对象时，通过匹配目标图像或语言描述的CLIP [45]特征与记忆中所有图像的CLIP特征来决定机器人是否已经看到过它；2. GOAT w/o Instances，一种变体，将所有目标视为对象类别，即总是导航到正确类别的最近对象，而不像[19]中那样区分同一类别的不同实例，这允许我们量化GOAT的实例感知能力的好处；3. GOAT w/o Memory，一种变体，在每个目标后重置语义地图和对象实例记忆，这允许我们量化GOAT的终身记忆的好处。

定量结果
表1报告了每种方法在90个情节中的汇总指标。GOAT的平均成功率为83%（对象类别为94%，图像目标为86%，语言目标为68%）。我们观察到，定位语言目标比图像目标更难（详见讨论部分）。CLIP on Wheels [18]的成功率为51%，表明使用GOAT的对象实例记忆进行目标匹配比使用CLIP特征匹配之前查看过的所有图像更有效。GOAT w/o Instances的成功率为49%，其中图像和语言目标的成功率分别为29%和28%。这证明了需要在记忆中跟踪足够的信息，以区分不同的对象实例，这是[19]未能做到的。GOAT w/o Memory的成功率为61%，SPL仅为0.19，相比之下GOAT的SPL为0.64。它必须在每个目标后重新探索环境，这解释了低SPL和由于许多超时而导致的低成功率。这证明了需要保持终身记忆的重要性。图3进一步强调了这一点：GOAT在环境中的经验提升后，成功率从第一个目标的60%（0.20 SPL）提升到经过彻底探索后的第5-10个目标的90%（0.80 SPL）。相反，没有记忆的GOAT没有从经验中得到改善，而COW虽有所好转，但在较低的性能上趋于平稳。

定性结果
我们在图4中展示了代表性轨迹。这里我们展示了GOAT、CLIP on Wheels和没有记忆的GOAT在同一序列的5个目标上的表现，从相同的初始化点开始。当匹配图像或语言目标时，CLIP on Wheels计算整个观察到的帧的特征。这使得匹配阈值难以调整，导致更多的误报（在任务1中匹配错误的床）和漏报（错过任务2中正确的植物，最终匹配错误的植物）。没有记忆，GOAT代理将继续重新探索之前看到的区域（任务3和4重新探索已经探索过的区域）。此外，匹配性能更差，因为代理忘记了之前观察到的实例。随着环境的更多探索和映射，匹配性能提高，因为匹配阈值的影响减小（详见5.1节）。完整的GOAT系统可以处理这些问题。GOAT能够匹配所有实例，并高效准确地导航

到它们。

2.3 Applications

作为一种通用的导航基本原理，GOAT 策略可以很容易地应用于下游任务，如挑选和放置以及社交导航。

开放词汇移动操控

移动机器人执行重新排列任务的能力在任何部署场景中都是至关重要的（家庭、仓库、工厂等）[4, 61, 13, 28, 20]。这些任务包括像“从咖啡桌上拿起我的咖啡杯并带到水槽”这样的命令，要求代理搜索并导航到一个对象，捡起它，搜索并导航到一个容器，并将对象放在容器上。GOAT的导航策略可以轻松地与拾取和放置技能相结合（我们使用波士顿动力公司的内置技能）来满足此类请求。我们在3个不同的家庭中，针对30个此类图像/语言/类别对象和容器的查询评估了这一能力。GOAT分别以79%和87%的成功率找到对象和容器。

我们在图5（A）中可视化了这样一个轨迹。代理首先要找到一张床，找到一个特定的玩具，然后将这个玩具移动到床上。我们看到，当探索床时，代理观察到了玩具，并将其保留在实例记忆中。因此，在找到床之后，代理能够直接导航回玩具（第2列），然后有效地捡起它，并将其移回床上（第5列）。

10社交导航

为了在人类环境中操作，移动机器人需要将人视为动态障碍物，围绕他们规划，并搜索并跟随人类[39, 44]。为了赋予GOAT政策这样的技能，我们将人视为带有PERSON类别的图像对象实例。这使GOAT能够像处理任何对象类别的多个实例一样处理多个人。GOAT随后可以在地图上移除某人移动后的之前位置。为了评估将人视为动态障碍物的能力，我们在5个轨迹中引入了移动的人，否则遵循与我们主要实验相同的实验设置。GOAT保持了81%的成功率。我们进一步评估GOAT搜索和跟随人的能力，通过在5个额外的轨迹中引入这样的目标。GOAT以83%的成功率定位和跟随人，接近86%的静态图像实例目标成功率。

我们在图5（B）中展示了一个轨迹的定性示例。这里代理必须导航到冰箱，然后跟随人类。我们看到代理识别出冰箱（第1列），但到那里的路被人挡住了，所以代理必须绕路规划（第2列）。到达冰箱后，代理开始跟随人类，同时根据新的传感器观测不断更新地图。这使得代理能够通过之前被标记为人占据的空间移动（第4列）。导航目标继续跟踪人在公寓周围的移动（第5列）。

3 Discussion

模块化使GOAT在真实世界中实现了稳健的通用导航

GOAT系统作为一个整体是一个稳健的导航平台，在野外的图像、语言和类别目标中实现了83%的成功率（一旦环境被完全探索，成功率可达90%）。这部分归功于系统的模块化特性。模块化系统允许学习应用于所需的组件中（如对象检测、图像/语言匹配），同时仍然利用强大的经典方法（如映射和规划）。此外，对于基于学习的组件，我们可以使用在大型数据集上训练的模型（如CLIP、MaskRCNN）或专门的任务（单目深度估计）以充分效果，而特定任务的端到端学习方法将受限于此特定任务的可用数据。GOAT能够将所有这些组件结合在一起，使用我们的对象实例记忆来实现终身真实世界导航的最新性能。此外，GOAT的模块化设计使其可以轻松适应不同的机器人形态和各种下游应用。GOAT可以部署在任何配备了RGB-D相机、位姿传感器（机载SLAM）以及执行低级移动命令（向前移动、向左转、向右转）能力的机器人上。GOAT的模块化消除了在新机器人平台上部署时进行新数据收集或训练的需要。这与端到端方法形成了对比，后者需要为每种不同的形态收集新数据并进行重新训练。

探索期间的匹配性能落后于探索后的性能

在探索期间（即时）使用预定义阈值进行成功的目标到对象匹配得分是棘手的，因为不灵活的阈值可能导致真正的阳性被忽略（见图6-A），并且错误的阳性被计入。另一方面，一旦场景被探索，代理有权选择匹配得分最高的实例作为目标。这反映在代理探索后的性能提高（成功率提高6%）。有关详细信息，请参阅补充材料中的第5.1节表2。

图像目标匹配比语言目标匹配更可靠

我们观察到，与将实例视图与目标的语言描述的语义特征进行匹配相比，图像到图像的目标匹配在识别目标实例方面更为成功。这是预期的，因为基于SuperGLUE的图像关键点匹配可以利用预测实例与目标对象之间的几何属性的对应关系。然而，来自CLIP的语义特征编码可能无法捕获对目标匹配至关重要的细粒度实例属性（见图6-B中的示例）。因此，将实例视图与图像目标进行匹配比与语言描述特征匹配成功率高23%。

目标匹配通过按类别对实例进行子采样和添加上下文而提高

在筛选已见实例以找到与目标的匹配时，代理可以选择与迄今为止看到的所有实例进行比较，或者只对属于目标类别的实例进行比较。我们观察到，过滤掉非目标类别可提高匹配准确度23% - 防止将错误的阳性匹配上（图6-C）。此外，这在计算上也更好 - 因为仅与一部分实例比较既更快速也更高效。另外，无论我们是使用SuperGLUE还是CLIP来匹配实例与目标，我们都观察到，提供有关实例背景的更多上下文 - 使用更宽、放大的边界框 - 会导致匹配准确度提高（比仅匹配边界框成功率高达22%）。

真实世界开放词汇检测：局限性和机遇

一个有趣且值得注意的观察是，尽管在开放（或大）词汇视觉和语言模型（VLMs）[37, 42]方面取得了快速进展，我们发现它们的性能比2017年的Mask RCNN模型要差得多。我们将这一观察归因于两个可能的假设：(i) 开放词汇模型在增加多样性的同时牺牲了鲁棒性，支持更多查询；(ii) 用于训练现代VLMs的互联网规模弱标签数据源在代表与人共享真实世界环境的机器人所需的体现交互数据方面表示不足。后者代表了一个挑战性的机会，以开发这样的大规模模型，使其同时具备多样性和鲁棒性，适用于真实世界环境中的体现应用。

4 Materials and Methods

4.1 Go To Any Thing System Architecture

4.2 Experimental Methodology

硬件平台 GOAT 导航策略与平台无关：我们系统的任何组件都与任何特定的机器人硬件无关。我们在波士顿动力公司的 Spot 机器人和 Hello Robot Stretch 机器人上部署了 GOAT，并进行了定量实验。我们在 9 个真实世界的家庭中，用 Spot 上的 GOAT（由于其可靠性更高）与 3 个基线进行了大规模的定量实验，总共获得了 200 多个不同的物体实例（见图 2）。

在未见的自然家庭环境中的导航性能我们在 9 个未见的租用家庭中 "野外 "评估 GOAT，没有预先计算的地图或物体位置。我们对每种方法进行了评估，每个家庭有 10 条轨迹，每条轨迹有 5-10 个目标，总共进行了 90 个小时的实验。我们在 15 个不同的物体类别（“椅子”、“沙发”、“盆栽”、“床”、“马桶”、“电视”、“餐桌”、“烤箱”、“水槽”、“冰箱”、“书”、“花瓶”、“杯子”、“瓶子”、“泰迪熊”）中选择了目标，并按照文献[32]中的协议为图像目标拍摄了照片，同时注释了 3 种不同的语言描述，以唯一标识该物体。

为了生成家庭中的一集，我们在所有可用的对象实例中随机抽取了 5-10 个目标，平均分配给语言、图像和类别目标。如果机器人在合理的时间预算（200 个机器人步数）内，在距离目标类别的正确实例足够近（小于 1 米）的地方叫停动作，我们就认为在一集中导航到目标是成功的。为了计算每个目标的成功加权路径长度（SPL）[2]，我们测量了距离上一个目标实例最近的目标实例的大地测量距离。

5 Supplementary

5.1 Offline Comparison of Instance Matching Strategies

在本节中，我们比较了全局策略匹配模块的设计选择，该模块的作用是在之前看到的对象实例中识别目标对象实例。这个模块尤其重要，因为它决定了对象实例记忆的形式，并允许GOAT代理执行多模态导航的终身学习。回想一下，我们的匹配模块使用CLIP来匹配语言目标，使用SuperGLUE来匹配图像目标。

我们首先按目标类别过滤实例，并使用每个实例视图的裁剪版本，通过在对象周围添加一些上下文。然后，我们通过“最大”操作聚合视图间的得分。在探索期间，我们对图像-图像SuperGLUE匹配使用3.0的阈值，对语言-图像CLIP匹配使用0.75的阈值。探索后，我们挑选最佳匹配实例，不使用任何阈值。

我们手动标注了每个家中3条轨迹的真实对象实例，与每个目标相对应，共27条轨迹。这使我们能够评估不同设计选择对匹配成功率的影响：正确匹配的目标百分比。表2呈现了以下设计选择的消融结果：

匹配方法：在我们的对象实例记忆中存储原始图像视图，让我们可以根据目标模态使用不同的匹配方法。我们使用CLIP [45]特征之间的余弦相似度得分将语言目标描述与记忆中的对象视图进行匹配。另一方面，为了将图像目标与记忆中的对象视图匹配，我们评估了CLIP特征匹配和基于关键点的SuperGLUE [49]匹配。
匹配阈值：成功匹配得分的阈值。我们展示了固定非零阈值（最佳超参数）和零阈值的结果。在代理仍在探索场景时，我们使用前者，因为它必须决定当前观察中的实例是否与目标匹配，或继续探索；在代理已经探索了整个场景并总是导航到最佳匹配时，我们使用后者。请注意，我们假设总是存在匹配。因此，当代理已完全探索环境时，我们期望最佳匹配是正确的，假设代理检测到了对象。
实例子采样：是否将目标与到目前为止捕获的所有实例的视图进行比较，或者只与目标类别的实例进行比较。直观地说，后者更快速，精度更高，但潜在回调率较低，因为它依赖于准确的对象检测。
上下文：匹配时使用的实例视图上下文：(i) 检测到的实例的仅边界框裁剪（‘bbox’），(ii) 添加一些周围的上下文（‘bbox+pad’），或者(iii) 实例所在的完整图像（‘full image’）。
• 最佳匹配选择标准：当将多个实例的多个视图与一个目标进行比较时，我们可以通过以下方式选择最佳匹配：(i) 最大值：选择匹配得分最高的实例（来自任何一个视图），(ii) 中位数：最高的中位匹配得分（跨所有视图），(iii) 最高的平均匹配得分（跨所有视图），以及(iv) 最高的平均得分跨前k个视图。

从表2中的图像到图像匹配部分，我们可以看到：

基于SuperGLUE的图像关键点匹配比CLIP特征匹配更可靠——平均成功率高13%。这有助于解释GOAT相对于COW [18]（使用CLIP特征匹配）的优越性能。
引入匹配阈值以忽略低置信度有代价——平均比没有阈值差6%。正如我们在讨论中将看到的，这意味着探索期间的匹配比环境完全探索后更具挑战性。
基于目标类别的实例子采样比筛选所有实例更有效——平均成功率高23%。这有助于解释GOAT相对于COW的优越性能，COW并不按类别子采样实例。
匹配填充（放大）的实例视图边界框效果最好——平均比使用完整图像（第二佳方法）好4.6%，比仅使用对象的边界框好22%。
匹配所有实例的所有视图中的最大匹配得分比中位数、平均数和前2个平均数效果更好——在所有设置中平均高出2%到16%。
类似趋势可以在语言到图像匹配中观察到。然而，图像到图像匹配（使用基于SuperGLUE的关键点匹配）比（基于CLIP的）语言到图像匹配更可靠——在所有设置中平均高出23%。