综述：在机器人的LLM

三谷秋水

已于 2024-05-17 02:55:03 修改

阅读量887

点赞数 12

分类专栏：人工智能大模型智能体文章标签：机器人人工智能语言模型自然语言处理

于 2024-05-15 22:23:49 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/138923973

版权

大模型同时被 3 个专栏收录

736 篇文章

订阅专栏

智能体

505 篇文章

订阅专栏

人工智能

424 篇文章

订阅专栏

23年11月的论文“Large Language Models for Robotics: A Survey”。

人类通过多模态反馈学习、概括和控制复杂操作任务的能力表明了一种独特的能力，称为灵巧智能（dexterity intelligence）。理解和评估这种智能是一项复杂的任务。随着大语言模型（LLM）的快速发展和广泛普及，它们在机器人领域的应用越来越受到关注。 LLM拥有处理和生成自然语言的能力，促进与机器人的高效交互和协作。机器人领域的研究人员和工程师已经认识到LLM在增强机器人智能、人机交互和自主性方面的巨大潜力。因此，该综述旨在总结LLM在机器人领域的应用，深入探讨其对机器人控制、感知、决策和路径规划等关键领域的影响和贡献。

首先概述机器人学LLM的背景和发展，然后描述机器人学LLM的好处以及基于 LLM的机器人模型最新进展。然后，深入研究模型中使用的各种技术，包括感知、决策、控制和交互中使用的技术。最后，探讨了LLM在机器人领域的应用以及它们在不久的将来可能面临的一些潜在挑战。具身智能是智能科学的未来，而基于LLM的机器人技术是实现这一目标的有前途但具有挑战性的途径之一。

如图是文章中的缩写对照：
请添加图片描述
随着LLM的迅速发展和广泛普及，基于LLM的机器人模型应运而生。如图所示，LLM 就像机器人大脑一样，使其更加智能，成为智体和具身智能。

请添加图片描述
基于LLM的机器人的出现给该领域带来了大量的创新变化。机器人学LLM的必要性和意义可以概括为以下十点：

• 自然语言交互。 LLM为机器人提供了进行自然语言交互的能力，允许用户以直观、便捷的方式与机器人进行交流。这种交互方式更符合人类的习惯和需求，提高了机器人的易用性和接受度。
• 任务执行。 LLM通过理解和生成自然语言指令来帮助机器人执行各种任务。机器人可以根据用户语言命令进行导航、操纵目标并执行特定操作[126]。这为机器人在日常生活中的应用开辟了更广泛的可能性。
• 知识获取和推理。 LLM拥有强大的信息检索和推理能力，可以帮助机器人获取和处理丰富的知识。机器人可以与语言模型进行交互，获取实时、准确的信息，从而提高其决策能力和智能。
• 灵活性和适应性。LLM的灵活性使机器人能够适应不同的任务和环境。通过与语言模型的交互，机器人可以根据具体情况进行灵活调整和自适应，更好地满足用户需求[52]。
• 学习和改进。 LLM可以通过与用户的互动来持续学习和改进。通过分析和理解用户反馈，机器人可以提高其性能和熟练程度。这种学习和改进能力使得机器人能够逐渐适应用户的个性和偏好，提供更加个性化的服务。
• 多模态交互。 LLM还支持多模态交互，使机器人能够同时处理不同形式的输入，例如语音、图像和文本。这种多模态能力[141]使机器人能够全面了解用户需求并提供更丰富的交互体验。
• 教育和娱乐。 LLM为机器人技术的教育和娱乐目的提供了潜在的应用。机器人可以通过与语言模型的交互来提供教育内容、回答问题或参与游戏和娱乐活动。这对儿童教育、语言学习和娱乐业具有重大影响。
• 情感互动。 LLM的应用增强了机器人的情感交互能力。通过产生情感响应输出，机器人可以与用户建立更密切、更有意义的关系。这种情感互动在护理机器人、情感支持和心理治疗等领域很有价值。
• 协作与合作。 LLM使机器人能够更好地与人类协作。机器人可以通过与语言模型的交互来共同解决问题、制定计划和执行任务[126]。这种协作与配合能力对于工业自动化、团队协作、人机共存具有重要意义。
• 创新与探索。LLM的应用激发了机器人领域的创新与探索。通过与语言模型的交互，机器人可以拥有更高水平的智能和理解能力，为机器人技术的研发开辟新的途径。

如下表是最近基于LLM的机器人：
请添加图片描述
随着LLM的日益普及，人们开始怀疑这些模型是否可以用来辅助机器人执行各种日常任务。然而，让机器人从LLM中提取知识并与物理世界互动还存在挑战。 LLM包含有关现实世界的有价值的语义信息，帮助机器人理解自然语言。然而，由于LLM缺乏对物理目标和环境的经验，为LLM提供能够交互并做出现实世界决策的物理形式是具有挑战性的。 PaLM-SayCan [1]可以作为LLM的物理具身，利用LLM的语义能力来处理自然语言指令。 PaLM-SayCan使机器人能够通过价值函数执行人类分配的任务。 PaLM-SayCan 具有由视觉电机控制的预训练元动作，而 BC-Z [58] 和 MT-Opt [64] 分别用于学习语言条件的 BC 和 RL 策略。 LLM 可以将接收的自然语言指令分解为更小的、可管理的任务。根据机器人当前的状态、能力和周围环境，灵活执行动作。为了确定某个操作的可行性，PaLM-SayCan 依赖于价值函数和可供性函数的对数估计。它将执行在当前环境和状态下最有可能成功的操作。例如，收到指令“你能帮我拿一个苹果吗？”。LLM可能会将其分解为几个任务：“走到厨房，打开冰箱，拿到苹果，并将其交付给请求者。”。

如图是PaLM- E的任务分解和多模态：
请添加图片描述
如下表所示是最近机器人领域的Transformer工作：

RT-1. 通过迁移大型且多样化的数据集，机器学习现在已针对下游任务，并通过零样本或者少样本学习微调，显着提高了在许多领域（例如计算机视觉、自然语言处理或语音识别）应用的性能。然而，机器人领域尚未表现出类似的泛化能力。通过开放式的任务无关训练来训练通用机器人模型，并结合可以吸收大型且多样化数据集的高性能架构，可能是一种有前途的方法。如果一个模型可以像海绵一样，吸收无处不在语言和感知的模式，它可能能够在特定的下游任务上表现更好。问题仍然是是否有可能在机器人域训练一个可以吸收其他域知识的模型。该模型能否展示新任务的零样本泛化能力？ Robotics Transformer 1 (RT-1) [10] 的提出是为了解决上述问题。 RT-1 能够将高维输入和输出数据（包括图像和指令）编码为可以由 Transformer 有效处理的紧凑tokens [131]。它表现出实时操作特性，使其适合需要快速处理和响应时间的应用。在实验评估中，RT-1 表现出很强的泛化能力。 RT-1 的结构由 FiLM [96]、条件 EfficientNet [124]、TokenLearner [107] 和 Transformer [131] 组成。然而，RT-1 不是端到端模型。
RT-2. 能否预训练一个可以无缝集成到低级机器人控制中的视觉语言模型（VLM）[22, 34]？从而增强VLM泛化能力？可以通过训练机器人的轨迹来表示为一系列tokens，有效地将自然语言指令映射到一系列机器人动作来实现这一点。为了创建一个可以直接将机器人观察结果映射到行动的端到端模型，DeepMind 采用了协作微调方法。 Robot Transformer 2 (RT-2) [9] 将最先进的 VLM 与机器人轨迹数据上的网络规模视觉语言任务相结合，是一个利用 VLM 微调的模型。 RT-2在网络规模的数据集上进行训练，以实现对新任务的泛化能力和语义感知的直接拥有。通过微调 VLM，它可以根据文本编码生成动作。具体来说，该模型是在包含与动作相关文本tokens的数据集上进行训练的。这种类型的模型可以称为视觉语言动作模型（VLA）[9]。 RT-2 基于 Robotic Transformer 1 (RT-1) [10] 训练的策略构建，利用相同的数据集和扩展的 VLA 来显着增强模型对新任务的泛化能力。
RT-X。在机器人学习中，通常为每个应用程序或环境训练单独的大模型。然而，这种方法可能具有局限性，因为它可能无法适应不同的机器人或环境。能否制定一个通用的机器人政策，可以应用于各种机器人和环境？随着大模型的进步，训练一个对特定任务表现出强大泛化能力的通用模型已经成为可能。受这些大型模型的启发，提出了 X-具身训练（embodiment Training），其中涉及使用来自不同平台的机器人数据进行训练。这种方法使模型能够更好地适应机器人和环境的变化，从而提高性能和多功能性。 Robotics Transformer X (RT-X) [29] 分为两个分支：RT-1-X 和 RT-2-X。 RT-1-X采用RT-1架构并利用X-embodiment存储库进行训练，而RT-2-X利用RT-2的策略架构并在同一数据集上进行训练。实验表明 RT-1-X 和 RT-2-X 都表现出了增强的功能。同样，机器人可以像人类一样从获取各个领域的知识中受益。

机器人采用的技术如图所示：分成感知、决策、控制和交互。
请添加图片描述
感知讨论方面包括：

视觉-导航模型，比如RECON
视觉-语言模型，比如CLIP
视觉-和-语言导航模型
视觉-语言-动作模型

决策是机器人的一项基本能力，使它们能够根据当前状态和环境做出明智的决策并计划任务。作为机器人的核心，决策在承上启下、分析感知模块的输入以产生适当的动作方面起着至关重要的作用。

智能体的发展经历了各个阶段[142]：从依赖符号逻辑的符号智体[43, 91]；反应智体优先考虑环境相互作用并立即响应 [12, 11]；基于强化学习的智体经过训练可以处理复杂的任务[105]，但缺乏泛化性[41]；具有迁移学习[15, 158]和元学习[48, 102]的智体提高对任务的泛化能力。对于目前基于LLM的智体来说，LLM被用作智体的大脑[95, 122]。 LLM 可以解释输入、计划输出行动、甚至具有决策能力并展示推理。

LLM作为机器人的大脑，是集成知识、记忆和推理能力的核心部件，使机器人能够智能地规划和执行任务。

知识。机器人学LLM的知识可以分为两类：需要通过学习获得的知识（即预训练的数据集）和已经学习并存储在记忆中的知识[142]。

可用的预训练数据集有多种类型，学习的知识越广泛、越丰富，LLM 的泛化和自然语言理解能力就越强[106]。理论上，语言模型学习的越多，拥有的参数就越多，使其能够学习自然语言中的复杂知识并获得强大的能力[65]。研究表明，用于语言模型学习的更丰富的数据集可以为不同的问题提供正确的答案[106]。数据集可以分为不同类型，例如基本语义知识，它提供对语言含义的理解[133]；常识，包括日常事实，例如人们饥饿时吃饭或太阳从东方升起[108]；专业领域知识，可以帮助人类完成编程[146]和数学[24]等任务。

就像人类记忆一样，具身智能应该能够根据经验（即观察到的行为、想法等）制定策略并为新任务做出决策。当面对复杂的任务时，记忆机制可以帮助回顾过去的策略以获得更有效的解决方案[56, 121]。然而，记忆带来了一些挑战，例如记忆的序列长度以及随着记忆量的增长如何有效地存储和索引它们。随着机器人的记忆负担随着时间的推移而增加，它必须能够有效地管理和检索记忆，以避免灾难性的遗忘[68]。

推理。推理是人类认知的基本要素，在解决问题、决策和信息分析检查中发挥着至关重要的作用[135, 136]。推理在使LLM解决复杂任务方面发挥着至关重要的作用。推理能力使LLM能够将问题分解为更小的、可管理的步骤，并从当前状态和已知条件开始解决它们。关于LLM如何获得推理能力一直存在争论，一些人认为这是预训练或微调的结果[54]，而另一些人则认为它只有在一定规模下才会出现[137]。研究表明，思维链（CoT）[136]可以帮助LLM揭示他们的推理能力，一些研究表明推理能力可能源于训练数据的局部静态结构。

规划。人类在面对复杂的挑战时会制定规划。规划可以帮助人们组织思维、设定目标并决定在当前情况下应该做什么[45, 130]。这样的话，他们就能逐渐接近自己的目标。规划的核心是推理。智体可以使用推理能力将接收到的高级抽象指令解构为可执行的子任务，并为每个子任务制定合理的规划[26, 112]。例如，LM-Nav 使用 ChatGpt 来处理接收到的自然语言指令 [117]。 PaLM-E直接实现端到端处理，将接收到的多模态输入转换为多模态句子进行LLM处理[34]。未来智体或许还可以通过多轮对话和自问自答，根据当前情况合理更新任务规划。许多研究提出了在规划过程中将执行任务划分为许多可执行的小任务的方法。例如，直接将执行任务分解为许多小任务并顺序执行[103, 145]。 CoT 一次只处理一个子任务，可以自适应地完成任务，具有一定的灵活性[69, 138]。还有一些垂直规划方法将任务划分为树形图[49, 148]。

控制模块是负责调节机器人动作的关键部件。该模块对于确保机器人动作准确、成功执行起着至关重要的作用，重点关注动作执行的硬件方面。

之前的大部分工作都集中在使机器人和其他智体能够理解和执行自然语言指令[19,35,81]。学习语言条件行为有多种方法，例如遵循 BC-Z [58] 方法或 MT-Opt [64] 强化学习方法的基于图像的行为克隆。模仿学习技术在演示数据集上训练协议 [58, 153]，而离线强化学习也得到了广泛的研究 [59, 71, 88]。然而，一些工作表明，在示范数据上的模仿学习比离线强化学习表现更好[83]，而其他研究则在理论和实践中证明了离线强化学习的可行性[72, 73]。许多工作将RL和Transformer结构结合起来[20, 60]，也有一些工作将模仿学习与奖励条件结合起来，例如决策Transformer（DT）[20]，即将模仿学习与强化学习元素结合起来。然而，DT 并不能让模型从演示数据集中学习以获得更好的性能。 Deep Skill Graph（DSG）[5] 提出了一种利用option framework进行技能学习的新方法。该方法利用图来表示环境的离散方面，使模型能够获取结构化知识并学习给定领域内的复杂技能。 CT 采用目标条件强化学习将局部技能学习问题转化为目标条件马尔可夫决策过程（MDP）[61]。

在导航机器人的背景下，利用自然语言增强导航策略的早期方法采用静态机器翻译[80]来发现模式。该过程涉及利用发现模式将自由格式的指令翻译成遵循特定语法规则的正式语言[19,85,127]。然而，这些方法仅限于结构化状态空间。最近的工作还将 VLN 任务开发为序列预测问题 [3, 87, 119]。此外，还有一些方法利用近 1M tokens的模拟轨迹演示数据进行训练 [47]，但在非结构化环境中应用这些模型仍然是一个重大挑战。基于视觉的移动机器人导航数据驱动方法通常依赖于现实模拟技术的利用[70,111,144]，或收集监督数据以直接学习基于观察的实现目标的策略[38]。或者，自监督学习方法可以利用机载传感器自动生成的未标记数据集或轨迹以及事后重标记学习[51,63,114]。

基于 Transformer 的机器人控制，例如Behavior Transformer [113]，专注于与每个任务相对应的学习演示。 Gato [104] 建议在包括机器人和非机器人在内的大型数据集上训练模型。

交互作为一个基本模块，使机器人能够与环境和人类进行互动。为了增强机器人在现实世界中互动的能力，它们通常会受到广泛的训练。虽然一些研究人员利用人工智能在虚拟环境中进行交互，例如游戏或模拟，但最终这些模型必须转移到现实世界。

在游戏中，LLM已被用来创建互动小说和文本冒险游戏[17]。由于LLM具有生成和分解动作序列的能力，因此越来越多地用于规划机器人任务。在 GA [95] 中，他们创建了一个可以模仿人类行为的计算机程序，称为生成智体。它通过使用自然语言来存储知识分子经历的完整记录来扩展LLM。随着时间的推移，系统可以合成积累的记忆并在更高的层次上反映它们，从而动态地检索这些记忆来计划和指导其行为。

用于人机交互的有GUI（图形用户界面）和LUI（语言用户界面）。 GUI是指计算机操作的用户界面，以图形方式显示并使用交互设备来管理与系统的交互。与GUI不同，LUI可以直接使用人类自然语言进行人机交互，最具代表性的LUI产品是ChatGPT。

Language Trajectory TransformEr [16] 引入了一种多功能的语言驱动框架，使用户能够定制和调整机器人的整体轨迹。该方法利用预训练的语言模型（例如 BERT [31] 和 CLIP [99]）直接从不受限制的文本输入和场景图像中编码用户的意图和目标对象。它结合了Transformer编码器网络产生的几何特征，并使用Transformer解码器生成轨迹，从而消除了对先前任务相关或机器人特定信息的要求。

考虑到自然语言的模糊性和歧义性，从人机交互的角度来看，未来机器人应该增强交互的主动性，也就是说让机器人通过大语言模型主动向用户提问。如果机器人觉得用户的话有问题并且不确定他们的意思，它应该问对方的意思是什么或者对方是否是认真的。

如图是具身智能面临的挑战：形状、LLM开发和模块化问题。
请添加图片描述