让网络空间与物理世界保持一致:具身AI综述

24年7月来自中山大学和北大的论文“Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI”。

具身人工智能 (Embodied AI) 对于实现通用人工智能 (AGI) 至关重要,是连接网络空间和物理世界各种应用的基础。最近,多模态大模型 (MLM) 和世界模型 (WM) 的出现因其出色的感知、交互和推理能力而引起了广泛关注,使其成为具身智体大脑的有前途架构。该综述全面探索具身人工智能的最新进展。首先浏览具身机器人和模拟器的代表性前沿工作,充分了解研究重点及其局限性。然后,分析四个主要研究目标:1)具身感知,2)具身交互,3)具身智体,以及 4)模拟-到-现实的适应,涵盖最先进的方法、基本范例和全面的数据集。此外,还探讨虚拟和真实具身智体中 MLM 的复杂性,强调了它们在促进动态数字和物理环境中交互的重要性。最后,总结具身人工智能的挑战和局限性,并讨论未来的潜在方向。

具身智能的概念最初由图灵在 1950 年建立的具身图灵测试中提出,旨在确定智体是否能显示出不仅限于解决虚拟环境(数字空间)中抽象问题的智能(智体是具身智能的基础,存在于数字空间和物理世界中,并以各种实体的形式具身,包括机器人,还包括其他设备),还能应对物理世界的复杂性和不可预测性。因此,具身智能的发展被视为一条实现通用人工智能的基本途径。深入探讨具身智能的复杂性、评估其当前的发展现状并思考其未来的发展轨迹显得尤为重要。如今,具身智能涵盖计算机视觉、自然语言处理和机器人技术等多个关键技术,其中最具代表性的是具身感知、具身交互、具身智体和虚拟-到-现实的迁移。在具身任务中,具身智体必须充分理解语言指令的意图,积极主动探索周围环境,全面感知来自虚拟和物理环境的多模态元素,并执行适当的操作以完成复杂任务。多模态模型的快速进展,展示了在复杂环境中相较于传统深度强化学习方法更强的多样性、灵活性和泛化能力。最先进的视觉编码器预训练的视觉表征提供了对目标类别、姿态和形状的精确估计,使具身模型能够全面感知复杂和动态的环境。大语言模型,使机器人更好地理解人类的语言指令,并为具身机器人对齐视觉和语言表征提供了可行的方法。世界模型展示显著的模拟能力和对物理定律的良好理解,使具身模型能够全面理解物理和真实环境。这些进展使具身智体能够全面感知复杂环境,自然地与人类互动,并可靠地执行任务。

如图展示了具身智体的典型架构:

添加图片注释,不超过 140 字(可选)

如图所示本文综述关于具身智能从数字空间到物理世界所涵盖的体系框架:具身机器人;具身模拟器;具身感知,包括主动视觉感知、3D 视觉基础、视觉语言导航和非视觉感知;具身交互;具身智体,包括具身多模态基础模型和具身任务规划。模拟-到-现实的适应,包括具身世界模型、数据收集和训练以及具身控制。

添加图片注释,不超过 140 字(可选)

具身机器人

具身智体积极与物理环境互动,涵盖了广泛的具身形态,包括机器人、智能家电、智能眼镜和自动驾驶车辆等。其中,机器人作为最突出的具身形态之一,备受关注。根据不同的应用场景,机器人被设计成各种形式,以充分利用其硬件特性来完成特定任务。如图所示,具身机器人一般可分为:(1)固定基座型机器人,如机械臂,常应用在实验室自动化合成、教育、工业等领域中;(2)轮式机器人,因高效的机动性而闻名,广泛应用于物流、仓储和安全检查;(3)履带机器人,具有强大的越野能力和机动性,在农业、建筑和灾难场景的应对方面显示出潜力;(4)四足机器人,以其稳定性和适应性而闻名,非常适合复杂地形的探测、救援任务和军事应用。(5)人形机器人,以其灵巧手为关键,在服务业、医疗保健和协作环境等领域广泛应用。(6)仿生机器人,通过模拟自然生物的有效运动和功能,在复杂和动态的环境中执行任务。

添加图片注释,不超过 140 字(可选)

具身仿真

具身智能仿真平台对于具身智能至关重要,因为它们提供了成本效益高的实验手段,能够通过模拟潜在危险场景来确保安全,具有在多样环境中进行测试的可扩展性,快速的原型设计能力,能够为更广泛的研究群体提供便利,提供用于精确研究的可控环境,生成用于训练和评估数据,并提供算法比较的标准化基准。为了使智体能够与环境互动,必须构建一个逼真的模拟环境。这需要考虑环境的物理特性、目标的属性及其相互作用。如图所示给出两种仿真平台:基于底层仿真的通用平台和基于真实场景的仿真平台;通用平台,提供与物理世界高度相似的虚拟环境,可用于算法开发和模型训练,具有显著的成本、时间和安全优势;基于现实世界环境的平台,主要从现实世界收集数据,创建逼真的 3D 资源,并使用 UE5 和 Unity 等 3D 游戏引擎构建场景。丰富逼真的场景使基于现实世界环境的仿真成为具身人工智能研究的首选。

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

具身感知

未来视觉感知的 “北极星” 是以具身为中心的视觉推理和社会智能。如图所示,不同于仅仅识别图像中的目标,具身感知的智体必须在物理世界中移动并与环境互动,这需要对三维空间和动态环境有更透彻的理解。具身感知需要具备视觉感知和推理能力,理解场景中的三维关系,并基于视觉信息预测和执行复杂任务。

主动视觉感知

主动视觉感知系统需要基本的能力,如状态估计、场景感知和环境探索。如图所示,这些功能在vSLAM、3D场景理解和主动探索领域得到了广泛的研究。这些研究领域有助于开发强大的主动视觉感知系统,促进复杂动态环境中的环境交互和导航。

添加图片注释,不超过 140 字(可选)

3D视觉落地

与平面图像的传统2D视觉基础(VG)不同,3D VG结合目标之间的深度、视角和空间关系,为智体与环境交互提供了更强大的框架。3D VG的任务涉及使用自然语言描述在3D环境中定位目标。基本分为两种:单步法和两步法。

如图是两步(上)和单步(下)3D 视觉接地方法的示意图。(a) 3D 视觉接地示例。(b)两步法包括可能在检测阶段忽略目标的稀疏提议和可能混淆匹配阶段的密集提议。(c)单步方法可以在语言描述的指导下逐步选择关键点(蓝点−→红点−→绿点)。

添加图片注释,不超过 140 字(可选)

视觉-语言导航

视觉语言导航(VLN)是具身智能的一个关键研究问题,旨在使智体能够按照语言指令在未见过的环境中导航。VLN要求机器人理解复杂多样的视觉观察,同时解释不同粒度的指令。VLN的输入通常由两部分组成:视觉信息和自然语言指令。视觉信息可以是过去轨迹的视频,也可以是一组历史当前观测图像。自然语言指令包括具身智体需要达到的目标或具身智体预期完成的任务。所具身化的智体必须使用上述信息从候选列表中选择一个或一系列动作,以满足自然语言指令的要求。

非视觉感知

触觉传感器提供有关目标属性的详细信息,如纹理、硬度和温度。它允许机器人完全完成手头的高精度任务,这对物理世界中的智体至关重要。触觉感知无疑增强人机交互,并具有巨大的前景。
对于触觉感知任务,智体需要从物理世界收集触觉信息,然后执行复杂的任务。如图所示现有类型的触觉传感器及其数据集,触觉感知中的三个主要任务:估计、识别和操纵。

添加图片注释,不超过 140 字(可选)

具身交互

具身交互指的是智体在物理或模拟空间中与人类和环境互动的场景。典型的具身交互任务包括具身问答和具身抓取。
如图所示,在具身问答任务中,智体需要从第一人称视角探索环境,收集回答问题所需的信息;具有自主探索和决策能力的智体不仅要考虑采取哪些行动来探索环境,还需决定何时停止探索以回答问题。

添加图片注释,不超过 140 字(可选)

具身问答任务主要涉及导航和问答子任务,实现方法大致分为两类:基于神经网络和基于LLM/VLM。
具身交互除了与人类进行问答交互外,还涉及根据人类指令执行操作,如抓取、放置目标,从而完成机器人、人和目标之间的交互。具身抓取需要全面的语义理解、场景感知、决策和鲁棒控制规划。具身抓取方法将传统的机器人运动学抓取与 LLM [279]、视觉-语言基础模型 [14] 等大模型相结合,使智体能够在多感知器感知下执行抓取任务,包括视觉主动感知、语言理解和推理。如图展示人-智体-目标交互的概览,其中智体完成具身抓取任务。

*添加图片注释,不超过 140 字(可选)

具身智体

智体被定义为能够感知环境并采取行动以实现特定目标的自主实体。多模态大模型的最新进展进一步扩大了智体在实际场景中的应用。当这些基于多模态大模型的智体被具身化为物理实体时,它们能够有效地将其能力从虚拟空间转移到物理世界,从而成为具身智体。为了使具身智体在信息丰富且复杂的现实世界中运行,已经开发出强大的多模态感知、交互和规划能力,如图所示。

添加图片注释,不超过 140 字(可选)

为了完成任务,具身智体通常涉及以下过程,如图所示:
(1)将抽象而复杂的任务分解为具体的子任务,即高层的具身任务规划。
(2)有效利用具身感知和具身交互模型,或利用基础模型的策略函数,逐步实施这些子任务,即低层的具身行动规划。

添加图片注释,不超过 140 字(可选)

值得注意的是,任务规划涉及在行动前进行思考,因此通常在数字空间中考虑。相比之下,行动规划必须考虑与环境的有效互动,并将这些信息反馈给任务规划器以调整任务规划。因此,对于具身智体来说,将其能力从数字空间对齐并推广到物理世界至关重要。

仿真-到-现实的适应

具身智能中的仿真到现实的适应(Sim-to-Real adaptation),指的是将模拟环境(数字空间)中学习到的能力或行为转移到现实世界(物理世界)中的过程。该过程包括验证和改进在仿真中开发的算法、模型和控制策略的有效性,以确保它们在物理环境中表现得稳定可靠。为了实现仿真-到-现实的适应,具身世界模型、数据收集与训练方法以及具身控制算法是三个关键要素。

具身世界模型

在模拟中创建与现实世界环境非常相似的世界模型,帮助算法在迁移时更好地泛化。世界模型的方法是构建一个端到端的模型,以生成或预测的方式预测下一个状态来做出决策,将视觉映射到行动,甚至将任何东西映射到任何东西。这种世界模型和VLA模型之间最大的区别在于,VLA模型首先在大规模互联网数据集上进行训练,以实现高级涌现能力,然后与现实世界的机器人数据进行微调。相比之下,世界模型是在物理世界数据上从头开始训练的,随着数据量的增加,逐渐发展出高级功能。然而,它们仍然是低级的物理世界模型,在某种程度上类似于人类神经反射系统的机制。这使得它们更适合输入和输出都相对结构化的场景,例如自动驾驶(输入:视觉,输出:油门、刹车、方向盘)或目标分类(输入:视力、指令、数字传感器,输出:抓取目标物体并将其放置在目标位置)。它们不太适合泛化到非结构化、复杂的具体任务。
学习世界模型在物理仿真领域具有广阔的应用前景。与传统的仿真方法相比,它具有显著的优势,例如能够推理不完整信息的交互,满足实时计算要求,并随着时间的推移提高预测精度。这种世界模型的预测能力至关重要,使机器人能够发展在人类世界中操作所需的物理直觉。如图所示,根据世界环境的学习流水线,它们可分为基于生成的方法、基于预测的方法和知识驱动的方法。

添加图片注释,不超过 140 字(可选)

数据收集和训练

对于仿真-到-现实的适应,高质量的数据很重要。传统的数据收集方法包括昂贵的设备、精确的操作,耗时且实验室密集,往往缺乏灵活性。最近,已经提出一些高效且成本效益高的方法来收集和训练高质量的演示数据。如图显示了来自真实世界和模拟环境的演示数据:

添加图片注释,不超过 140 字(可选)

具身控制

具身控制通过与环境的交互进行学习,并使用奖励机制优化行为以获得最优策略,从而避免了传统物理建模方法的缺点。具体的控制方法可分为两类:
深度强化学习 (DRL)
模仿学习

如图展示仿真-到-现实适应的五种不同流水线范式:“Real2Sim2Real”通过重建真实场景来缩小差距。“TRANSIC”通过人工纠正干预来弥补仿真与现实的转移差距。“域随机化”通过模拟环境多样性来增强模型转移适应性。“系统识别”提高了仿真与现实环境的相似性,从而减轻了仿真与现实之间的差距。“Lang4Sim2Real”使用自然语言来连接两个域,学习不变的图像表示并缩小视觉差距。

添加图片注释,不超过 140 字(可选)

尽管具身人工智能发展迅速,但它面临着一些挑战,并提出了令人兴奋的未来方向。

高质量的机器人数据集:获得足够的现实世界机器人数据仍然是一个重大挑战。收集这些数据既费时又耗费资源。仅依靠仿真数据最糟糕的是仿真-到-现实的差距问题。创建多样化的现实世界机器人数据集需要各机构之间密切而广泛的合作。此外,开发更逼真、更高效的模拟器对于提高模拟数据的质量至关重要。目前的工作RT-1使用基于机器人图像和自然语言命令的预训练模型。RT-1在导航和抓取任务中取得了良好的效果,但获取现实世界的机器人数据集非常具有挑战性。为了构建能够在机器人技术中跨场景和跨任务应用的通用化实体模型,必须构建大规模数据集,利用高质量的模拟环境数据来辅助现实世界的数据。

高效利用人类演示数据:高效利用人类展示数据涉及利用人们展示的动作和行为来训练和改进机器人系统。这个过程包括从大规模、高质量的数据集中收集、处理和学习,在这些数据集中,人类执行机器人想要学习的任务。目前的工作R3M使用动作标签和人类演示数据来学习可泛化表征,在一些机器人任务中显示出很高的成功率,但复杂任务的效率仍有待提高。因此,重要的是有效地利用大量非结构化、多标签和多模态的人类演示数据,结合动作标签数据来训练能够在相对较短的时间内学习各种任务的实体模型。通过有效地使用人类演示数据,机器人系统可以实现更高水平的性能和适应性,使其能够在动态环境中执行复杂的任务。

复杂环境认知:复杂环境认知是指具身智体在物理或虚拟环境中感知、理解和导航复杂现实世界环境的能力。基于广泛的常识,Say-Can利用了预训练LLM模型的任务分解机制,该机制在简单的任务规划中严重依赖大量的常识,但缺乏对复杂环境中长期任务的理解。对于非结构化的开放环境,目前的工作通常依赖于预训练LLM的任务分解机制,使用广泛的常识知识进行简单的任务规划,还缺乏对特定场景的理解。提高复杂环境中的知识迁移和泛化能力至关重要。一个真正通用的机器人系统应该能够在各种未见过的场景中理解和执行自然语言指令。这需要开发适应性强、可扩展的嵌入式智体架构。

长期任务执行:执行单个指令通常涉及机器人的长期任务,其中涉及重新排列室内东西、扫地、擦桌子等活动。成功完成这些任务需要机器人能够在较长的时间跨度内计划和执行一系列低级动作。虽然目前的高级任务规划已经取得了初步的成功,但由于缺乏对具体任务的调整,他们在各种情况下往往被证明是不够的。应对这一挑战需要培养具备强大感知能力和大量常识知识的高效规划。

因果关系发现:现有的数据驱动的具身智体根据数据中的内在相关性做出决策。然而,这种建模方法不允许模型真正理解知识、行为和环境之间的因果关系,从而导致有偏见的策略。这使得很难确保它们能够以可解释、稳健和可靠的方式在现实环境中运行。因此,具身智体由世界知识驱动,能够自主进行因果推理,这一点很重要。通过交互理解世界,并通过溯因推理学习其工作原理,我们可以进一步提高多模态具身智体在复杂现实环境中的适应性、决策可靠性和泛化能力。

持续学习:在机器人应用中,持续学习对于在不同环境中部署机器人学习策略至关重要,但它仍然是一个很大程度上未被探索的领域。虽然最近的一些研究考察了持续学习的子主题,如增量学习、快速运动适应和人类在环学习,但这些解决方案通常是为单一任务或平台设计的,还没有考虑基础模型。开放式研究问题和可行的方法包括:1)在对最新数据进行微调时,将不同比例的先验数据分布混合到所有灾难性遗忘中,2)从先验分布或课程中开发高效的原型,用于学习新任务时的任务推理,3)提高在线学习算法的训练稳定性和样本效率,4)确定将大容量模型无缝整合到控制框架中的原则性方法,可能通过分层学习或慢速快速控制,用于实时推理。

统一评估基准:虽然存在许多用于评估低级控制策略的基准,但它们在评估的技能方面往往存在很大差异。此外,这些基准测试中包含的对象和场景通常受到模拟器约束的限制。为了全面评估实体模型,需要使用逼真的模拟器进行包含各种技能的基准测试。关于高级任务规划,许多基准侧重于通过问答任务评估规划能力。然而,一种更可取的方法是同时评估高级任务规划和低级控制策略,以执行长期任务并衡量成功率,而不是仅仅依赖于对规划的孤立评估。这种综合方法对嵌入式人工智能系统的能力进行了更全面的评估。

总之,具身智能使智体能够感知、认知并与数字空间和物理世界中的各种物体互动,显示了其在实现通用人工智能方面的重要意义。

  • 24
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值