具身人工智能综述：从模拟器到研究

最新推荐文章于 2025-02-19 01:33:42 发布

三谷秋水

最新推荐文章于 2025-02-19 01:33:42 发布

阅读量816

点赞数 11

分类专栏：智能体大模型计算机视觉文章标签：人工智能深度学习机器学习机器人语言模型

本文链接：https://blog.csdn.net/yorkhunter/article/details/145316433

版权

大模型同时被 3 个专栏收录

735 篇文章

订阅专栏

智能体

503 篇文章

订阅专栏

计算机视觉

453 篇文章

订阅专栏

21年3月来自新加坡 A*STAR 研究院、南洋理工（NTUS）和新加坡技术设计大学（SUTD）的论文“A Survey of Embodied AI: From Simulators to Research Tasks”。

从“互联网人工智能”时代到“具身人工智能”时代正在发生一种范式转变，人工智能算法和智体不再从主要来自互联网的图像、视频或文本数据集中学习。相反，它们从类人的自我中心感知出发，通过与环境的互动进行学习。因此，对具身人工智能模拟器的需求大幅增长，以支持各种具身人工智能研究任务。本文旨在为具身人工智能领域提供从其模拟器到其研究的调查。通过评估九种当前的具身人工智能模拟器和提出的七个特性，本文旨在了解模拟器在具身人工智能研究中的使用情况及其局限性。最后，本文概述具身人工智能的三个主要研究任务——视觉探索、视觉导航和具身问答 (QA)，涵盖最先进的方法、评估指标和数据集。

本文介绍以下九种具身人工智能模拟器：DeepMind Lab [12]、AI2-THOR [13]、CHALET [14]、VirtualHome [15]、VRKitchen [16]、Habitat-Sim [17]、iGibson [18]、SAPIEN [19] 和 ThreeDWorld [20]。所选的模拟器专为通用智能任务而设计，而不像游戏模拟器 [21] 仅用于训练强化学习智体。这些具身人工智能模拟器在计算机模拟中提供现实世界的真实表示，主要采用房间或公寓的配置，为环境提供某种形式的约束。这些模拟器中的大多数至少包含物理引擎、Python API 和可以在环境中控制或操纵的人工智能智体。

具身人工智能模拟器催生一系列潜在的具身人工智能研究任务，如视觉探索、视觉导航和具身问答。这三个任务也相互联系，复杂性不断增加。视觉探索是视觉导航中非常有用的组成部分 [22]、[24]，并用于现实情况 [25]、[26]，而具身问答进一步涉及建立在视觉和语言导航之上的复杂问答功能。由于语言是一种常见的模态，而视觉问答是人工智能中的一项热门任务，因此具身问答是具身人工智能的自然发展方向。
参考[13]、[20]、[31]，七个技术特征被选为评估具身人工智能模拟器的主要特征，因为它们涵盖准确复制环境、交互和物理世界状态所需的基本方面，从而为测试具身智能提供合适的测试平台。参考下表，这七个特征是：环境、物理、目标类型、目标属性、控制器、动作和多智体。这七个特征可以进一步归类为三个次要评估特征：真实性（Realism）、可扩展性（scalability）和交互性（interactivity）。

环境：基于游戏的场景构建 (G) 和基于世界的场景构建 (W)。
物理：基本物理特征 (B) 和高级物理特征 (A)。
目标类型：数据集驱动环境 (D) 和目标资产驱动环境 (O)。
目标属性：可交互目标 (I) 和多状态目标 (M)。
控制器：直接 PYTHON API 控制器 §、虚拟现实控制器 ® 和虚拟现实控制器 (V)。
动作：导航（N）、原子动作（A）和人机交互（H）。
多智体：基于Avatar（AT）和基于用户（U）。

请添加图片描述

3D 环境的真实性，可以归因于模拟器的环境和物理。环境模拟现实世界的物理外观，而物理模拟现实世界中复杂的物理属性。3D 环境的可扩展性，可以归因于目标类型。可以通过为数据集驱动目标收集更多现实世界的 3D 扫描或为资产驱动目标购买更多 3D 资产来实现扩展。交互性归因于目标属性、控制器、动作和多智体。

根据具身人工智能模拟器的次要评估特征，同时具备上述三个次要特征的模拟器（例如AI2-THOR、iGibson和Habitat-Sim）更受欢迎，并被广泛用于各种具身人工智能研究任务。此外，对所有具身人工智能模拟器进行全面的定量比较，以比较每个模拟器的环境配置和技术性能。环境配置特征在很大程度上取决于模拟器创建者建议的应用程序，而技术规格和渲染性能等其他特征则很大程度上取决于用于创建的模拟引擎。与其他模拟器相比，AI2-THOR具有最大的环境配置，而Habitat-Sim和iGibson在图形渲染性能方面排名前两位。下表所示的定量性能基准进一步证明这三个具身人工智能模拟器的优越性和复杂性。这些具身化的人工智能模拟器比较进一步强调本文建立的七个主要评估指标和三个次要评估的重要性，它们有助于为研究任务选择理想的模拟器。

请添加图片描述

从认知科学和心理学的角度来看，具身假设 [1] 表明智力源于与环境的互动，并是感觉运动（sensorimotor）活动的结果 [66]。直观地说，人类并不是仅仅通过“互联网人工智能”范式来学习，在这种范式中，大多数经验都是随机和被动的（即外部策划）。人类还通过主动感知、运动、互动和交流来学习。从人工智能的角度来看，由于涉及学习，目前具身人工智能的研究任务允许将机器人功能（如地图绘制和导航）更大程度地推广到未见过的环境 [44]，并且与传统方法相比，对传感器噪声具有更高的鲁棒性。具身人工智能还可以实现灵活性和更高的性能，因为可以通过基于学习的方法轻松集成各种模态，如深度、语言 [59] 和音频 [67]。

具身人工智能研究任务的三种主要类型是视觉探索、视觉导航和具身问答。大多数现有的具身人工智能论文要么关注这些任务，要么利用为这些任务引入的模块为视听导航等更复杂的任务构建模型。任务从探索发展到问答时，其复杂性会增加。这些任务中的每一个都构成下一个任务的基础，形成了具身人工智能研究任务的金字塔结构（如图所示），进一步表明具身人工智能的自然发展方向。

请添加图片描述

这些任务的详细信息如表所示。评估指标：访问的目标数量 (ATV)、下游任务 (D)、路径长度加权的成功率 (SPL)、成功率 (SR)、路径长度比 (PLR)、oracle 成功率 (OSR)、轨迹/ episode 长度 (TL / EL)、成功距离 / 导航误差 (DTS / NE / dT)、目标进度 (GP / dΔ)、oracle 路径成功率 (OPSR)、episode 中任何点到目标的最小距离 (dmin)、智体在最大 episode 长度之前结束导航进行回答的 episode 百分比 (%Stop)、智体终止于包含目标物体的房间所提出的问题百分比（%rT）、智体至少进入一次包含目标物体的房间所提出问题的百分比（%re）、目标物体的IOU（IOU）、基于 IOU 的命中准确率（hT）、QA 预测中真实答案的平均排名（MR）以及 QA 准确率（ACC）。

请添加图片描述

视觉探索

在视觉探索 [24]、[68] 中，智体通常通过运动和感知来收集有关 3D 环境的信息，以更新其环境的内部模型 [11]、[22]，这可能对视觉导航等下游任务有用 [24]、[25]、[69]。目标是尽可能高效地完成此操作（例如，尽可能少的步骤）。内部模型可以采用拓扑图形地图 [26]、语义地图 [46]、占用图 [45] 或空间记忆 [70]、[71] 等形式。这些基于地图的架构可以捕获几何和语义，与反应式和循环神经网络策略 [72] 相比，可以更有效地进行策略学习和规划 [45]。视觉探索通常在导航任务之前或与导航任务同时进行。在第一种情况下，视觉探索将内部记忆构建为先验，这对下游导航任务中的路径规划很有用。在开始导航之前，智体可以在一定预算（例如有限的步数）内自由探索环境 [11]。在后一种情况下，智体在导航未见过的测试环境时构建地图 [48]、[73]、[74]，这使其与下游任务更紧密地集成。

在经典机器人技术中，探索是通过被动或主动 SLAM [24]、[45] 来完成的，以构建环境地图。然后，该地图与导航任务的定位和路径规划一起使用。SLAM 已经得到充分研究 [75]，但纯几何方法还有改进的空间。由于它们依赖于传感器，因此容易受到测量噪声的影响 [24]，并且需要进行大量微调。另一方面，通常使用 RGB 和/或深度传感器的基于学习方法对噪声具有更强的鲁棒性 [24]，[44]。此外，基于学习的视觉探索方法允许人工智能体结合语义理解（例如环境中的目标类型）[45]并概括其对先前见过环境的知识，以帮助以无监督的方式理解新环境。这减少了对人类的依赖，从而提高效率。

学习以地图的形式创建有用的环境内部模型可以提高智体的性能 [45]，无论是在之前完成（即未指定的下游任务）还是与下游任务同时完成。智能探索在智体必须探索随时间动态展开的新环境的情况下也特别有用 [76]，例如救援机器人和深海探测机器人。

视觉导航

在视觉导航中，智体可以在有或没有外部先验或自然语言指令的情况下将 3D 环境导航到目标。此任务使用了许多类型的目标，例如点、目标、图像 [88]、[89] 和区域 [11]。点和目标是最常见和最基本的目标。它们可以进一步与感知输入和语言等规范相结合，以构建更复杂的视觉导航任务，例如带先验的导航、视觉和语言导航甚至具身问答。在点导航 [49] 下，智体的任务是导航到特定点，而在目标导航 [38]、[52] 中，智体的任务是导航到特定类别的目标。

而经典的导航方法 [90] 通常由手工设计的子组件组成，例如定位、地图绘制 [91]、路径规划 [92]、[93] 和运动。具身人工智能中的视觉导航，旨在从数据中学习这些导航系统，以减少针对具体案例的手工工程，从而简化与具有数据驱动学习方法的下游任务（如问答 [23]）的集成，这些任务具有出色的性能。还有一些混合方法 [44]，旨在结合两全其美。基于学习的方法对传感器测量噪声的鲁棒性更强，因为它们使用 RGB 和/或深度传感器，并且能够结合对环境的语义理解。此外，它们使智体能够概括其对先前见过环境的知识，以帮助以无监督的方式理解新环境，从而减少人力。

点导航是基础任务之一，也是最受欢迎的任务之一 [44]。在点导航中，智体的任务是导航到距离特定点一定固定距离内的任意位置 [11]。通常，智体在环境中的原点 (0,0,0) 处初始化，固定目标点由相对于原点/初始位置的 3D 坐标 (x, y, z) 指定 [11]。为了成功完成任务，人工智能智体需要具备多种技能，例如视觉感知、episode 记忆构建、推理/规划和导航。智体通常配备 GPS 和指南针，使其能够访问其位置坐标，并隐式获取其相对于目标位置的方向 [17]，[49]。目标的相对目标坐标可以是静态的（即在 episode 开始时仅给出一次），也可以是动态的（即在每个时间步给出）[17]。最近，由于室内环境中的定位不完美，Habitat Challenge 2020 已转向更具挑战性的任务 [47]，即基于 RGBD 的在线定位，无需 GPS 和指南针。

目标导航是最直接的任务之一，但也是具身人工智能中最具挑战性的任务之一。目标导航侧重于在未探索的环境中导航到由其标签指定目标的基本思想 [38]。智体将在随机位置初始化，并负责在该环境中查找目标类别的实例。目标导航通常比点导航更复杂，因为它不仅需要许多相同的技能，例如视觉感知和 episode 记忆构建，还需要语义理解。这些使目标导航任务更具挑战性，但解决起来也更有价值。

视觉和语言导航 (VLN) 是一项任务，其中智体通过遵循自然语言指令来学习导航环境。这项任务的挑战性在于依次感知视觉场景和语言。VLN 仍然是一项具有挑战性的任务，因为它要求智体根据过去的动作和指令预测未来的动作 [11]。此外，智体可能无法将其轨迹与自然语言指令无缝对齐。虽然视觉和语言导航（VLN）和视觉问答 (VQA) 可能看起来很相似，但这两个任务存在很大差异。这两项任务都可以表述为基于视觉的序列-到-序列转码问题。然而，与 VQA 相比，VLN 序列要长得多，需要不断输入视觉数据作为输入，并具有操纵摄像机视点的能力，而 VQA 只需输入单个输入问题并生成答案。

VLN 的一种方法是辅助推理导航框架 [59]。它处理四个辅助推理任务：轨迹复述、进度估计、角度预测和跨模态匹配。智体学习推理之前的操作并预测任务的未来信息。

视觉-对话导航是 VLN 的最新扩展，因为它旨在训练智体发展与人类进行持续自然语言对话的能力，以帮助其导航。该领域的当前工作 [60] 使用跨模态记忆网络 (CMN)，它通过单独的语言记忆和视觉记忆模块记住和理解与过去导航操作相关的有用信息，并进一步使用它来做出导航决策。

具身问答

近期具身人工智能模拟器中的具身问答 (QA) 任务是通用智能系统领域的一项重大进步。要在物理具身状态下执行问答，人工智能智体需要具备广泛的人工智能能力，例如视觉识别、语言理解、问答、常识推理、任务规划和目标驱动导航。因此，具身问答可以被认为是目前具身人工智能研究中最繁重和最复杂的任务。

对于具身问答 (EQA)，一个常见的框架将任务分为两个子任务：导航任务和问答任务。导航模块至关重要，因为智体需要探索环境以查看目标，然后才能回答有关它们的问题。例如，[61] 提出规划器-控制器导航模块 (PACMAN)，它包含导航模块的分层结构，其中规划器选择动作（方向）和控制器决定每个动作后移动多远。一旦智体决定停止，就会使用其路径上的帧序列执行问答模块。首先单独训练导航模块和视觉问答模块，然后由 REINFORCE [106] 联合训练。[62] 和 [63] 使用神经模块控制 (NMC) 进一步改进 PACMAN 模型，其中更高级别的主策略提出要由子策略执行的语义子目标。

多目标具身问答 (MT-EQA) [63] 是一种更复杂的具身问答任务，它研究包含多个目标的问题，例如“卧室里的苹果比客厅里的橙子大吗？”，这样智体就必须导航到“卧室”和“客厅”来定位“苹果”和“橙子”，然后进行比较来回答问题。

交互式问答 (IQA) [64] 是另一项解决 AI2-THOR 环境中具身问答任务的工作。IQA 是 EQA 的扩展，因为智体必须与目标交互才能成功回答某些问题（例如，智体需要打开冰箱来回答存在性问题“冰箱里有鸡蛋吗？”）。 [64] 建议使用分层交互式记忆网络 (HIMN)，这是一种控制器层次结构，可帮助系统在多个时间尺度上操作、学习和推理，同时降低每个子任务的复杂性。以自我为中心的空间 GRU 充当记忆单元，用于保留环境的空间和语义信息。规划器模块将控制其他模块，例如运行 A* 搜索以找到到达目标最短路径的导航器、执行旋转以检测新图像的扫描仪、被调用以执行操作以改变环境状态的操纵器，最后是回答者，它将回答发布给 AI 智体的问题。[65] 从多智体的角度研究 IQA，其中多个智体共同探索交互式场景以回答问题。

具身人工智能的洞察

如图的互连反映模拟器对研究任务的适用性。Habitat-Sim 和 iGibson 都支持视觉探索中的研究任务和一系列视觉导航任务，这表明高保真度的重要性，而高保真度来自基于世界的场景模拟器。然而，由于它们独特的特性，使它们更适合非具身人工智能独立任务，例如深度强化学习，一些模拟器目前不连接到任何具身研究任务。尽管如此，它们仍然符合被归类为具身人工智能模拟器的标准。

请添加图片描述

相反，由于这些任务的交互性质，具身问答和先验视觉导航等研究任务将要求具身人工智能模拟器具有多状态目标属性。因此，AI2-THOR 无疑是首选模拟器。最后，VLN 是目前唯一不使用九种具身 AI 模拟器中的任何一个而是使用 Matterport3D 模拟器 [104] 的研究任务。这是因为 VLN 中的先前工作不需要其模拟器具有交互性；因此 Matterport3D 模拟器就足够了。然而，随着 VLN 任务的进一步发展，可以预期 VLN 任务中需要交互，因此需要使用具身 AI 模拟器。此外，与传统的强化学习模拟环境 [41] 不同，[109] 专注于特定任务的训练，而具身 AI 模拟器提供一个训练环境，用于训练类似于物理世界中执行的各种不同任务。

具身人工智能模拟器面临的挑战

目前具身人工智能模拟器在功能性和逼真度方面都达到了一定水平，与用于强化学习的传统模拟截然不同。尽管具身人工智能模拟器的差异性如此之大，但具身人工智能模拟器在从真实性、可扩展性到交互性等领域仍面临着诸多挑战。

真实性：它侧重于模拟器的逼真度和物理特性。具有高视觉逼真度和逼真物理特性的模拟器受到机器人社区的追捧，因为它们为各种机器人任务（如导航和交互任务）提供了理想的试验台 [110]、[111]。然而，缺乏同时具有基于世界的场景和高级物理特性的具身人工智能模拟器。

2）可扩展性：与基于图像的数据集 [7]、[120] 不同，后者可以轻松从众包或互联网上获得。收集大规模基于世界的 3D 场景数据集和 3D 目标资产的方法和工具很少 [107]、[121]、[122]。这些 3D 场景数据集对于构建各种具身人工智能模拟器至关重要。目前收集逼真的 3D 场景数据集的方法需要通过摄影测量法 [123] 扫描物理房间，例如 Matterport 3D 扫描仪、Meshroom [124] 甚至移动 3D 扫描应用程序。然而，它们在商业上不适合收集大规模 3D 物体和场景扫描。这主要是因为用于摄影测量的 3D 扫描仪价格昂贵且难以获得。

3）交互性：在具身人工智能模拟器中，与功能目标进行细粒度操纵交互的能力对于复制人类与现实世界目标的交互至关重要[128]。大多数基于游戏的场景模拟器[13]、[16]、[19]、[20]既提供细粒度目标操纵功能，也提供符号交互功能（例如<将目标 X 下拉到 Y>操作），或者只是“指向和选择”。然而，由于基于游戏的场景模拟器性质，在这种环境中执行的许多研究任务将选择其符号交互功能，而不是细粒度目标操纵[3]，只有少数研究任务同时使用这两种功能[2]、[129]。

另一方面，来自基于世界的场景模拟器[17]、[18]的智体具有粗大运动控制能力，而不是符号交互能力。然而，这些模拟器中的目标属性在很大程度上是表面上可交互的，这允许进行粗大运动控制，但缺乏多状态目标类，即目标具有的状态变化数量。因此，需要在目标属性中的目标功能和具身人工智能智体在环境中可以执行的操作复杂性之间取得平衡。

具身人工智能研究面临的挑战

具身人工智能研究任务的复杂性从“互联网人工智能”增加到具有多种传感器模式和潜在长轨迹 3D 模拟环境中的自主具身学习智体 [22]、[34]。这导致智体的记忆和内部表征变得极为重要 [11]、[22]、[56]。长轨迹和多种输入类型也表明了强大记忆架构的重要性，这使得智体能够专注于其环境中的重要部分。近年来，已经使用许多不同类型的记忆，例如循环神经网络[47]、[49]、[51]、[56]、[58]、[61]-[63]、基于注意机制的记忆架构[52]、[60]、[72]、预期占用图[45]、占用图[22]和语义图[43]、[46]、[48]、[64]、[65]，一些论文过分强调其记忆架构的新颖性[22]、[45]、[60]、[72]。然而，尽管已知循环神经网络在捕捉具身人工智能中的长期依赖关系方面存在局限性[56]、[72]，但由于缺乏针对记忆架构的研究，目前仍然很难就哪种记忆类型更好[11]达成一致。在具身人工智能研究任务中，复杂性也有所增加，从视觉探索到 VLN 和具身问答的发展可以看出，其中分别添加语言理解和问答等新组件。每个新组件都会导致人工智能智体的训练难度和时间呈指数级增长，特别是因为当前的方法通常完全基于学习。这一现象带来两项有希望的进步，以减少搜索空间和样本复杂性，同时提高鲁棒性：结合经典算法和基于学习算法的混合方法 [44]，[74] 和先验知识整合 [23]，[57]。此外，对于更复杂的任务，消融研究更难管理 [31]，因为具身人工智能中的每个新组件都使得测试其对智体性能的贡献变得更加困难，因为它被添加到现有的一组组件中，并且具身人工智能模拟器在功能和问题上差异很大。研究任务的数量也在迅速增加，这加剧了这种情况。