论文笔记:《On Evaluation of Embodied Navigation Agents》

引言

三维环境中的导航是在物理世界中运行的移动智能系统的必备能力。 包括人类在内的动物能够优雅而熟练地穿越杂乱的动态环境,以追求远距离的目标。 动物可以在未见过的环境中有效而有意识地导航,在这个过程中建立这些环境的内部表征。 这种内部表征对人工智能至关重要。

早些时候导航有些支离破碎。有大量的工作在运动规划、无碰撞路径在工作区或配置空间要求,给定一个几何模型的环境[18]。后续路径跟踪和底层控制通常假设完美的本地化。运动规划方法往往依赖于高质量的环境的几何模型,限制了这些方法的使用效果。

在Silultaneous定位和SLAM方面也有丰富而翔实的工作[6],其重点是构建环境地图并在地图中定位Agent。 传统的SLAM系统主要集中在使用几何技术构造度量地图上。 导航本身(即做什么,去哪里)很少被考虑。 SLAM系统构造的表示往往不适用于传统的运动规划方法,并且在环境随时间变化时容易出错。 相比之下,生物系统似乎使用了更灵活的表示,可以在没有精确定位或度量地图的情况下稳健地导航,并且在以前看不到的环境中进行规划时可以带来大量的先验知识。

目标规范和感官输入

目前的导航任务分成了三个类型:

PoingGoal

智能体必须导航到特定位置。 例如,假设智能体从原点开始,目标可能是导航到以米为单位的位置(100,300)。 如果环境是空的,这项任务是微不足道的,但超出了现有系统在以前没有探索过的现实混乱环境中的能力。

ObjectGoal

智能体必须定位到特定类别的对象。 类别可以从预定义的集合中提取。 例如,“冰箱”、“汽车”或“钥匙”。 为了执行这项任务,智能体必须利用关于世界的先验知识,比如“冰箱”是什么样子的,在哪里可以找到它。

AreaGoal

即跨场景导航,智能体自主导航到特定的场景,该任务也依赖于外观和场景布局的先验知识。

不同类型的目标可以用不同的方法来规定。 在前面的描述中举例说明了基本规范:PointGoal的坐标,ObjectGoal和AreaGoal的分类标签。 还有另外两种类型的规范是有趣和值得注意的:图像(或其他感知输入)和语言。 例如,一个ObjectGoal任务可以由问题中的对象的图像来指定[32]。 PointGoal任务可以通过自然语言中的描述来指定[1](这里指VLN导航)。 其中一些规范模式还支持ObjectGoal和AreaGoal任务的特殊形式:例如,查找此图像中显示的特定汽车(而不是任何汽车)。

智能体可以配备不同的感知模式,例如视觉(RGB图像)、depth或触觉。 另一个可能的输入是环境的示意图,这是人类导航时使用的那种。 最近的一些工作也依赖于对自运动的理想化感知(perfect odometry)。 在这方面,我们的主要建议是,在呈现方法时,要明确地表示可用于智能体的感官输入。 例如,如果该方法假设perfect odometry或GPS进行定位,则必须明确说明这一点。

泛化性和探索

没有先验的探索

事先没有接触过测试环境。 智能体被要求在新的、以前未见过的环境中寻找他们的路

预录入的先验探索

给智能体一个环境的探测轨迹的记录。 探索由第三方(例如,人工或自动探索策略)执行,每个测试环境都提供记录,作为基准设置的一部分。 智能体可以使用提供的记录来构造可以支持后续导航的环境的内部表示。【论文:Semi-parametric topological memory for navigation】

智能体的限时探索

智能体在导航之前,可以自由地遍历环境,直到它的轨迹长度达到给定的预算。 此经验可用于构造可支持后续导航episode的环境的内部表示。 探索政策在智能体的控制之下,但暴露在测试环境中的程度仍然是有限的和量化的。

在这种情况下,给Agent的探索预算是可变的,使得Agent的导航性能被评估为探索程度的函数。 (例如,勘探500米、1000米、2000米后的导航性能,等等)这可以产生一个多目标的性能剖面,量化不同主体的探索-导航权衡。 智能体的目标可以是在探索预算范围内占据主导地位,或者至少为Pareto front做出贡献

勘探在航海中的作用表明,勘探本身就是一项可以研究和定量评价的重要任务。 例如,代理的任务是在路径长度预算(最大轨迹长度,在最大轨迹长度结束时,探索事件终止)内探索以前未见的环境。 评估勘探阶段的一个可能的度量是环境的覆盖:在勘探阶段中,代理人覆盖了以前看不见的环境的多少部分。

探索在导航中的作用表明,探索本身就是一项可以研究和定量评价的重要任务。 例如,智能体的任务是在路径长度预算(最大轨迹长度,在最大轨迹长度结束时,探索事件终止)内探索以前未见的环境。 评估探索阶段的一个可能的度量是环境的覆盖:在探索阶段中,智能体覆盖了以前未见过的环境的多少部分。

评估指标

智能体是否需要发出信号,表明它已经完成了任务

在最近的一些工作中,一旦智能体足够接近目标,导航episode就被终止并视为成功。我们建议不要这样做,因为这样不利于测试智能体是否理解它已经达到了目标。我们认为这样的理解是必要的:智能体不能仅仅偶然发现目标,它必须理解目标已经达到。 为了表明这种理解,我们建议在智能体的词汇表中添加一个专用操作。 该操作可以称为'done',并指示智能体已准备好进行评估。 当智能体产生这个特殊信号“done”时,应该评估智能体相对于目标的配置,以及它到达目标的路径。 如果没有这样的信号,即使智能体接近目标,一个导航episode也不应该被认为是成功的。

距离度量

不使用欧几里得距离,没有考虑到环境的结构,例如,在欧几里得距离中,智能体可能离目标物体很近,但是被一堵墙隔开,实际就可达性而言,他离目标很远。建议使用测地距离,也就是说环境中的最短路径距离。

模拟器

建议使用连续的状态空间

这样智能体可以在连续空间中自由移动,并且连续的空间更好的反映了智能体在物理世界中部署的条件。

建议在模拟器中采用SI单元,距离在1m内

建议使用开源的模拟器,方便部署到真实世界的机器人上

1、SunCG:500个不同复杂性的单层SUNCG房屋(每个房屋有一到十个房间),分成300/100/100个训练/验证/测试环境。 该等房屋共有2,737个房间,总楼面面积约为110,000平方米,共有41,158个物件。 平均每间房屋有5.5间客房,平均每间客房的楼面面积为42平米。这些环境代表了各种内部,包括家庭住宅、办公室和公共空间,如餐厅。该智能体的体宽为0.2m,我们将成功导航到目标的距离阈值τ设为体宽的两倍(0.4m)。github.com/minosworld/scenarios

2、Matterport3D:与SUNCG类似。github.com/minosworld/scenarios.

3、AI2THOR:在这个模拟器的ObjectGoal的一些设置为,我们提供了对象类别标签来指定目标。如果对象对智能体是“可见的”,则导航成功。在AI2-THOR中,如果一个物体距离摄像机1米以内并且在代理的视场中,它就被标记为“可见”。与PointGoal类似,我们为每个测试场景考虑5个不同的随机起始点。选择目标有两种情况:

仅导航:在此设置中,目标以只能通过导航操作到达的方式选择。例如,单靠导航操作无法到达柜子内的杯子,因为智能体需要打开柜子才能看到杯子。 此设置的操作设置为:Move forward, Move backward,Rotate Right, Rotate Left, Look Up, Look Down, andTerminate。

基于交互:在这种设置下,查找一些目标需要交互。 此设置的操作设置为:Move Forward, Move Backward, Rotate Right,Rotate Left, Look Up, Look Down, Open X, Close X,and Terminate.

在每个测试场景中,随机选择5个物体作为目标,考虑智能体的5个不同的起始点和5个不同的场景配置(通过将对象移动到不同的位置或者改变他们的状态),这样总共为每个测试场景提供了5*5*5=125个场景。

4、Gibson:包括572栋建筑,共1447层,总面积21.1万平方米。 这些空间是使用3D扫描仪扫描的真实建筑。 每个建筑都有一定的杂波(SSA)和导航复杂性。 这些空间及其元数据的可视化可在http://gibson.vision/database/获得。给定数据集的大小,我们指定了几个不同大小的标准分区,以方便实验,如微小(35个建筑)、中等(140个建筑)和完整(572个建筑)。 每个分区的训练/验证/测试分裂为:微小(25/5/5)、中等(100/20/20)、完全(402/85/85),都大约是70%/15%/15%。

既可进行离散导航,也可用于连续导航。

智能体的架构

最简单的导航智能体纯粹是被动的。 在每一个时间步骤中,来自环境的感官输入被一个输出一个动作的深层网络处理。 Agent不携带跨时间步长的内部状态,也不构造其环境的内部表示[9,32]。 与纯反应体系结构的一个小的区别是为智能体配备由循环更新机制维护的短期向量内存[14,17,20]。 架构复杂性的下一个层次是使用更高级的内存机制,这些机制支持构建智能体环境的丰富内部表示[12,13,22,23,27]。 我们把智能体所维护的内部表示的本质视为具身导航研究的核心。现在建议任何特定的代表形式都为时过早。 我们只是强调这条调查线的重要性。

具身Agent设计中的一个中心问题是Agent在其环境中导航时构造和维护的内部表示的结构。 我们鼓励对这个问题进行全面和开放的研究,我们认为这是人工智能发展的基础。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值