基于优化的任务和运动规划综述：从经典方法到学习方法_基于梯度的优化对稳健性的平滑近似-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/145340138

24年10月来自乔治亚理工的论文“A Survey of Optimization-based Task and Motion Planning: From Classical To Learning Approaches”。

任务和运动规划 (TAMP) 集成高层任务规划和低层运动规划，使机器人具备自主性，能够有效地推理长期动态任务。基于优化的 TAMP 侧重于混合优化方法，这些方法通过目标函数定义目标条件，能够处理开放式目标、机器人动力学以及机器人与环境之间的物理交互。因此，基于优化的 TAMP 特别适合解决高度复杂、接触丰富的运动和操纵问题。本综述对基于优化的 TAMP 进行全面的回顾，涵盖 (i) 规划领域表征，包括动作描述语言和时间逻辑，(ii) TAMP 组件的单独解决方案策略，包括 AI 规划和轨迹优化 (TO)，以及 (iii) 基于逻辑的任务规划和基于模型的轨迹优化之间的动态相互作用。本综述的一个特别重点是强调有效解决 TAMP 的算法结构，尤其是分层和分布式方法。此外，其强调经典方法与当代基于学习的创新（如大语言模型）之间的协同作用。此外，本研究还讨论了 TAMP 未来的研究方向，强调了算法和应用特定的挑战。

近年来，机器人系统正从结构化的工厂车间迅速过渡到非结构化的以人为中心的环境。为此，对规划系统的需求不断增长，该系统使机器人能够高效地执行复杂的长期任务，如图所示：（a）双足机器人定位操控[1]；（b）移动机器人桌面操控[2]；（c）长远多智体协作[3]。为了达到这种程度的自主性，机器人必须能够生成和执行可行且高效的运动规划，使它们能够与环境互动并完成分配的任务。这个复杂的问题通常被称为机器人任务和运动规划 (TAMP)，它将复杂、通常难以解决的规划问题分解为混合符号搜索和一组局部运动规划问题，其中每个子问题都易于解决。

请添加图片描述

TAMP 的主要研究重点是开发适当的问题表示和算法，以有效地综合规划问题的符号和连续组成部分 [2]。现有文献中，TAMP 方法有三类主流方法：（i）基于约束的 TAMP [4]，[5]，（ii）基于采样的 TAMP [6]，[7]，和（iii）基于优化的 TAMP [8]，[9]。基于约束和采样的 TAMP 将问题描述为一组目标条件。通常通过约束满足或基于采样的方法 [10] 找到解决方案，其满足定义的目标条件，但由于缺乏目标函数，通常无法评估或比较生成的规划或最终状态的质量。在许多机器人问题中，目标通常表示为目标函数，而不是明确定义的状态集。例如，“给定桌子上的一些矩形块，以最小的机器人控制力构建一个尽可能高的稳定结构。”这对于传统的基于采样的方法来说，具有挑战性，因为它们通常需要明确的目标定义，并且没有比较规划质量的机制。例外的是，有人提出一类基于采样的运动规划 [11]，使用 RRT∗ 和 PRM∗ [12]、[13] 解决最优规划问题。然而，目标函数的复杂性和表现力，往往仅限于简单的成本，如路径长度、时间和能耗 [14]。下表列出基于优化的和基于采样的 TAMP 方法之间比较。为清楚起见，本研究的范围侧重于基于优化的 TAMP，它自然定义一个目标函数来表示规划质量，以及任务和运动级别的约束。该框架能够表示和解决具有复杂目标函数的广泛任务。

请添加图片描述

基于优化的 TAMP 在优化目标函数的同时，遵守机器人运动学和动力学在运动规划层面以及离散逻辑在任务规划层面施加的约束。这促使将基于优化的 TAMP 表述为混合优化问题。基于优化的 TAMP ，自然地将基于模型的轨迹优化 (TO) 方法融入运动规划中，这使得规划框架能够对复杂的机器人动力学进行编码，从而实现不仅可行而且自然、高效和动态的机器人运动。这对于接触丰富的应用尤其重要，例如对具有复杂几何形状和摩擦特性的目标进行长距离机器人操控 [15] [16]、[17] 以及在不平坦地形上的动态运动 [18]、[19]、[20]、[21]。此外，基于优化的 TAMP 允许包含更复杂的目标函数和约束（例如非线性和非凸的），使机器人能够实现各种机器人行为，从而增强机器人系统在实际部署中的适用性。

然而，基于优化的 TAMP 形成的混合优化问题通常在计算上难以解决。成功的规划算法需要同时克服任务规划级别的组合复杂性和运动规划级别的数值复杂性。因此，基于优化的 TAMP 的一个共同主题是在优化的复杂性和规划问题所含信息的全面性之间进行权衡。这种权衡的任何一个极端都会降低最终机器人规划的质量或计算效率。此外，与基于采样的方法相比，基于优化的 TAMP 面临几个限制：（i）它对问题设置的初始条件和目标条件很敏感，这可能导致在复杂环境（如复杂的障碍物几何形状或困难的地形）中失败，在这些环境中，某些初始条件和目标条件会使找到最优解变得特别具有挑战性；（ii）优化结果可能依赖于决策变量的初始化，这可能会导致规划器陷入局部最优；（iii）基于优化的方法并不完整，这意味着它们无法发现不可行问题。

因此，挑战依然在于提高基于优化的 TAMP 的稳健性，并弥合长期任务规划 [22]、[23] 与生成高度动态机器人行为之间的差距，这在基于模型的最优控制策略 [24]、[25]、[26] 中得到展示。将基于学习的方法整合到 TAMP 中已成为一个重要的研究趋势，因为基于学习的方法为增强经典 TAMP 方法的可扩展性和通用性提供了相当大的希望。利用学习作为启发式方法可以提高经典方法的效率。例如，任务序列搜索过程中的动作可行性检查可以通过神经可行性分类器 [27]、[28] 来加速。作为一种替代方法，生成式模型提供了有效替代传统方法中某些组件的途径，例如从视觉输入中学习的任务序列生成 [29] 以及使用大语言模型 (LLM) 进行域知识表示和规划 [30]、[31]、[32]。在另一条研究路线上，基于强化学习 (RL) 的技能学习与一个任务规划器的符号界面相结合，从而产生可重复使用的技能学习，可在长期任务中泛化 [33]、[34]。

本文综述的结构如图所示：

请添加图片描述

基于优化的TAMP问题可以看作是任务规划和运动规划的联合优化，两个不同层次的优化通过决策变量和成本函数的约束相互联系。
TAMP 问题的规划域，由任务规划域 D^t 和运动规划域 D^m 联合定义。每个符号状态 s 表示连续状态空间中的一个流形 X^s，由状态映射函数 M : X^s = M(s) 指定。符号状态转换 ⟨s_k, a, s_k+1⟩ 对应于表示机器人运动的连续轨迹：⟨X_k, U_k⟩ = ⟨x_k,0, u_k,0, x_k,1, u_k,1,··· ,u_k,T_k−1,x_k,T_k⟩。为了实现符号状态转换，整个轨迹必须位于由 s_k 索引的流形内：x_t，∀ t ∈ [0，T_k]，而第 k 条轨迹的最终状态应该位于由 s_k 和 s_k+1 索引的流形之间交点上，并触发模式转换。

TAMP 中的符号状态对应于流形域中的多种约束，而符号动作则定义运动规划的转换和约束。动作序列或规划骨架通过定义要实现的模式转换序列来指导轨迹规划过程。相反，运动规划通过提供几何信息、动作可行性和成本评估来指导任务规划，确保任务决策在运动层面上是可实现的。

规划域表征

在现实世界中，规划领域表示需要制定关于环境、机器人和目标之间的相互关系和任务目标的声明性知识，同时集成连续域知识，例如机器人配置和目标位置。将这些知识转换为基于优化的公式需要一个标准化的接口，该接口通过将各种输入知识转换为优化算法有效利用的编码形式来确保无缝集成。因此，这个接口弥合现实世界的复杂性和基于优化 TAMP 之间的差距。

人工智能规划和时间逻辑社区都采用规划域表征的传统方法 [23]。这些方法通常涉及使用逻辑。这些传统的基于逻辑形式化方法的一个缺点，是域表征通常由专家用户手动指定。因此，最近的趋势是使用基于学习的方法自动编码 TAMP 的域知识。这些方法包括符号算子的学习，它可以根据以前的经验对动作的先决条件和效果进行建模。此外，LLM 已被探索用于处理和解释自然语言输入，为更直观和更易于访问的格式编码规划域提供一种新方法。

AI 规划

具有离散规划域的任务规划问题长期以来一直是 AI 规划社区关注的焦点。[22] 从 AI 规划角度全面讨论了任务规划表征和算法。

PDDL [44]、[45] 是 AI 规划社区广泛使用的一种标准语言，用于编码任务规划问题。它提供一种紧凑且独立于域的语法，有助于清晰地描述和表示任务规划问题。PDDL 中的动作 a ∈ A(S) 表示为一个由五个组件组成的元组：⟨name(a)、param(a)、pre(a)、eff(a)、cost(a)⟩。
name：动作的名称。
param：用于评估 pre(a) 和 eff(a) 的离散和连续参数。
pre：一组谓词，表示在应用动作之前必须满足的一组事实。
eff：一组谓词，表示在应用操作后必须满足的一组事实。
cost：用正标量表示的操作成本。

在 TAMP 的背景下，PDDL 经历某些修改，以适应域固有的复杂性。对于机器人问题，通常会在规划域引入额外的连续参数。前提条件 pre(a) 和效果 eff(a) 中的谓词值可以是这些连续变量的函数，例如机器人姿势或机器人所采取的连续轨迹。此外，动作的成本可以定义为连续轨迹的函数。PDDL 的这种扩展使用，允许规划问题一个更详细、更细致的表征，从而实现符号任务规划和连续运动规划之间的衔接。

时序逻辑

时序逻辑形式化，为符号表达式之间的时序关系提供简洁的表达。机器人应用中最流行的时序逻辑类别之一是 LTL [40], [41]，它假设事件序列为线性，这与更复杂的非线性时序逻辑（例如计算树逻辑 [51]）相反。LTL 的语法包含一组命题变量 AP 、布尔运算符 ¬ （否定）、∧（连接）、∨（分离）和一组时序运算符。

LTL 公式的一个限制是只允许布尔变量和离散时间求值。已经提出了几种 LTL 扩展，以实现实时和实值表达式。MTL [43] 通过允许时间约束将 LTL 扩展到实时应用。STL [42] 进一步扩展 MTL，允许对连续实值信号进行公式求值，这丰富了时间逻辑形式化，以指定 TAMP 中的混合规划问题。

学习算子和状态抽象

为了便于在解决 TAMP 问题时寻找任务规划，研究人员提出了学习符号算子，其中评估概率转换模型。此外，学习状态抽象研究任务的内在结构，例如层次结构和目标重要性，以帮助将大型搜索空间分解为两个或更多个抽象级别。

学习算子：Silver [39] 提出使用关系学习方法学习 TAMP 的符号算子，其中首先将演示数据转换为具有定义谓词的符号转换，然后通过将具有相似效果的转换分组来发现效果和先决条件。为了减轻手工设计符号谓词的负担，Silver [55] 进一步提出通过优化与规划效率相关的替代目标，从演示数据中联合学习符号谓词和算子。为了提高对新目标的泛化能力，Chitnis [56] 引入神经符号关系转换模型，其中通过符号搜索实现高级规划，并使用学习的动作采样器和转换模型生成连续运动。

学习状态抽象：状态抽象也得到研究，以进一步提高 TAMP 系统的效率和泛化能力。Chitnis [57] 介绍一种获取特定于上下文状态抽象的方法。这种方法侧重于只考虑与任务相关的目标，简化规划流程并提高不同场景的适应性，Silver [58] 开发一个基于 GNN 的框架来预测目标重要性，从而使规划器能够有效地搜索解决方案，同时只考虑与任务目标相关的目标。Zhu [59] 提出一个分层框架，从视觉观察中构建符号场景图和几何场景图来表示状态，用于生成任务规划和运动规划。Wang [60] 建议利用大量数据集来增强泛化能力。他们采用两步法，首先通过符号预测任务和语义重建任务对视觉特征进行预训练，然后利用从预训练中得出的潜特征来学习抽象转换模型，进而帮助指导任务规划搜索过程。

通过 LLM 生成域知识

为规划方法生成域知识（包括动作描述和目标规范）通常需要人类专家使用特定的声明性语言（如 PDDL）手动输入。为任务规划器手动编码动作描述知识可能是一个繁琐的过程。它需要人类专家提供广泛的域知识，并且必须定期维护以适应域变化。在尽量减少人类参与的情况下为自主智体（包括机器人）生成域知识是一项长期挑战。LLM 的最新进展证明在各种规划场景中自动化此过程的巨大潜力。

通过 LLM 生成动作描述：生成动作描述的策略可分为两类。第一类涉及 LLM 修改现有的动作描述以使其适应不同的域和情况。例如，Ding 使用从 LLM 中提取的面向任务常识知识动态地丰富原始域知识 [61]。第二类涉及 LLM 直接为规划创建新的动作描述。在这里，研究人员可以采用各种提示方法来提高生成性能。此类方法的示例包括指定详细的提示，以指导生成模型生成更符合期望结果的输出 [62]、[31]，并通过编程语言集成结构化数据以提供清晰的生成上下文或框架 [63]。鉴于 LLM 输出的多变性，该领域的一个主要挑战，是确保这些生成的描述在实际规划系统中的实用性。为了解决这个问题，研究人员部署各种评估方法，包括模拟 [64]、与预定义操作的比较 [32] 或人工评估，以筛选出最可行的结果 [65]。

使用 LLM 生成目标描述：现有研究旨在将自然语言中陈述的目标转换为特定格式，如 PDDL [66]、[62] 或 LTL [67]。这个过程具有挑战性，需要理解上下文、遵守语法以避免可能导致失败的错误，并与特定域和问题保持一致。与动作描述生成一样，这需要各种提示方法，例如在提示中包含示例 [62]、[66]。学习方法还用于将自然语言指令转化为 LTL 规范，几乎不需要人工注释的训练数据 [67]。与其他方法不同，AutoTAMP [68] 使用 LLM 将任务要求转化为目标，这既适用于任务层面，也适用于动作层面。如图展示将自然语言转化为目标规范的一个例子。

请添加图片描述

任务规划

任务规划侧重于使用符号方法确定实现特定目标的行动序列。传统上，经典的人工智能规划方法使用具有专门启发式方法的图搜索算法来解决这个问题。或者，基于时间逻辑的技术，尤其是使用 LTL 的技术，采用自动机理论和反应合成（reactive synthesis）来生成离散决策序列。然而，上述经典人工智能规划和基于时间逻辑的方法并非没有局限性。一个主要挑战是处理大规模规划问题时出现的组合复杂性。这种复杂性会严重妨碍规划算法的可扩展性和效率。

为了应对这些挑战，该领域的最新进展旨在通过利用学习模型来指导任务序列搜索，以绕过组合瓶颈。这些方法利用学习模型的见解，结合任务分解、行动 affordance 和技能的影响。值得注意的是，LLM 的出现引入新的方法。LLM 原生规划直接从数据中得出策略，而 LLM 辅助技术将这些模型与已建立的规划系统协同起来。经典算法与最先进的机器学习的融合促进了任务规划算法的良好发展。

经典任务规划

经典任务规划，如 Ghallab [22] 所述，是指规划具有受限目标和隐含时间的确定性、静态、有限且完全可观察的状态转换系统的问题。最直接的任务规划算法是状态空间搜索方法。在这个范例中，搜索空间是状态空间本身的一个子集，其中搜索中的每个节点代表一个状态，每个边代表一个转换。状态空间搜索通常会产生一条遍历状态空间的顺序路径，有效地详细描述从初始状态到目标状态的进展。状态空间搜索与 TAMP 领域特别相关，因为底层运动规划算法本质上是在状态空间上运行的。算法设计的关键考虑因素，包括确定适当的搜索空间、选择有效的算法以及确定合适的启发式方法来指导搜索过程。

经典人工智能规划中的搜索启发式方法，可以看作是精确搜索问题的松弛（relaxation）。在实践中，启发式设计通常涉及计算成本和启发式方法信息量之间的权衡。[69]、[70] 中的研究采用基于状态可达性松弛思想的启发式方法，其中启发式方法是通过构建从状态 s 开始的松弛规划图来计算的，并且在图增长时忽略算子的所有负面影响。因此，得到的规划图具有命题数量相对于图深度单调增加的特性。基于松弛规划图的一种简单、计算成本低、启发式方法是目标距离函数 [71]。让到目标的距离 h^∗(s) 定义为达到目标所需的最少运算符数量。h^∗(s) 的下限估计可以通过包含松弛规划图内所有目标命题节点的最小深度轻松计算出来。作为一种替代方法，基于Fast Downward的 [72]、[73] 规划系统，使用规划任务的分层分解来计算因果图启发式方法，该方法使用一个松弛因果图中的因果依赖关系来指导前向状态空间搜索。
与状态空间搜索相比，其他 AI 规划方法（如分层任务网络 [74]）尝试在规划空间上进行搜索。然而，由于难以将规划空间搜索与运动规划器接口，这些方法在 TAMP 场景中并不常用。

对于基于时间逻辑的公式（如 LTL），通常使用基于自动机的方法 [75]（如反应合成 [76]、[77]、[78]）来生成反应系统，以确保系统满足所需的规范，而不管外部输入如何。

经典任务规划的基本背景，可以参阅参考文献[22], [37], [23]。

任务规划的学习模型

提高 TAMP 可扩展性的一个关键挑战是离散规划问题的组合复杂性和需要解决的大量运动规划问题。一种有前途的规避这一挑战的方法是使用学习方法来指导高级任务计划搜索。Pasula 等人 [79] 建议学习概率、关系规划规则表示来模拟动作效果，这些效果可用于通过搜索生成任务计划。同样，Amir 等人 [80] 开发了一种在部分可观察领域中学习确定性动作模型的方法。为了处理不确定的表示和概率计划，Konidaris [81] 建议用概率分布和概率运算代替集合和逻辑运算，并开发一个框架，使从连续环境中自主学习概率符号成为可能。为了应对涉及一组预定义运动技能的目标导向规划的挑战，Konidaris 等人[82] 提出了一个直接获取符号表示的框架，抽象出低级转换以便在规划任务中有效利用。

最近，人们开始探索深度学习技术，从大规模数据集中学习模型。Ames 等人 [83] 建议从参数化运动技能的执行结果中学习先决条件、动作参数和效果，然后使用这些数据构建符号模型，实现高效的规划。神经任务编程 [84] 建议学习将任务演示视频递归分解为机器人可执行动作原语的神经模型。为了进一步提高对长期任务的泛化能力，神经任务图 [85] 学习神经网络来生成共轭任务图，其中动作表示为节点，动作之间的依赖关系由边建模，从而更好地探索组合性。回归规划网络 [86] 学习一个神经模型，根据当前图像观察和最终的符号目标，以相反的顺序迭代预测中间子目标。Ceola 等人[87] 提出利用深度强化学习来训练神经模型以生成离散动作。深度可供性预见 [88] 学习动作的长期可供性和潜在转换模型来指导搜索，从而告知机器人实现最终任务目标的最佳动作。同样，Liang [89] 提出学习技能效果模型来生成每个参数化技能的未来终端状态，然后利用这些模型来帮助基于搜索的任务规划。

用于任务规划的 LLM

传统上，优化机器人的任务规划涉及最小化动作数量或总计划成本，具体取决于是否考虑动作成本。谷歌的 Bard、OpenAI 的 ChatGPT [90] 和 Meta 的 LLaMA [91] 等 LLM 的出现重塑人工智能的格局，包括机器人的任务规划 [92]。将基于 LLM 的规划方法分为两类：LLM -原生规划方法和 LLM 辅助规划方法，前者不依赖外部知识，后者依赖外部知识，如图所示。与常规的基于学习的方法相比，LLM 通常使用大量包含大量常识知识的域外数据进行训练。虽然 LLM 在数值推理（因此优化）方面并不强 [93]，[94]，但 LLM 的加入提高自然语言理解、世界知识获取和常识推理的能力。这些能力使基于 LLM 的规划器能够推理符号信息，例如目标之间的空间关系 [95] 和任务序列的符号正确性 [30]，而无需事先与机器人环境进行交互。因此，LLM 作为与任务和域无关的推理模块，有可能增强机器人规划的可扩展性和通用性。

请添加图片描述

LLM-原生规划方法通常会结合强化学习等附加组件，通过选择更好的行动来增强规划。相反，LLM -辅助规划方法可以与经典优化策略相结合，确保令人满意的规划效率和实用性。这两种方法与优化方法兼容，而集成 LLM 可以增强整体规划能力。

LLM-原生规划方法：利用 LLM 进行任务规划的一种方法是通过提供域描述直接从 LLM 生成规划（上图 (a)）。这可以一次性完成，也可以迭代完成。这些方法主要侧重于快速设计以便与 LLM 进行有效沟通，以及针对特定领域和机器人技能的基础。多个系统已在此领域做出了努力。Huang [32] 提出生成候选动作并设计工具来提高其可执行性，例如枚举所有允许的动作并将模型的输出映射到语义上最相似的动作。在此基础上，SayCan [96] 使用affordance 函数实现机器人规划，这些函数确定动作的可行性并响应自然语言请求，例如“送可乐”。Huang [97] 开发一种名为“Inner Monologue”的高级方法，将环境反馈整合到任务规划和情况处理中。以前，方法通常以文本形式生成任务规划。Singh [63] 开发一个名为 ProgPrompt 的系统，它使用编程 LLM 提示来生成任务规划和管理情况，通过验证规划的先决条件并使用合适的恢复操作对失败的断言做出反应。使用代码作为高级规划的框架提供好处。它允许表达复杂的函数和反馈循环。这些循环有效地处理传感输出，并支持 API 中控制原语的参数化 [98]。除了机器人规划之外，还有关于 LLM 是否可以充当通用规划器的研究。它们可以创建程序，有效地为同一域内的各种任务生成规划 [31]。

LLM -辅助规划方法：在 LLM 开发之前，存在各种用于机器人任务规划的工具，但它们具有可扩展性限制。例如，用 PDDL 定义域知识需要人类专家投入大量时间（上图 (b)）。LLM 的出现提供一种通过补充知识来增强这些传统规划器的方法，从而提高其性能并实现更自然的语言交互。有几种方法可以将 LLM 与传统任务规划器集成在一起。首先，进行一系列研究，探索将规划任务的自然语言描述转换为 PDDL 或时序逻辑等标准化语言。LLM 完成这些转换，在这一过程中发挥着至关重要的作用。然后，这些翻译后的规范将用于现有的规划系统。例如，Xie [66] 使用 PDDL 规划器创建基于最优的任务级规划，将自然语言输入转换为 PDDL 问题。其次，可以动态地从 LLM 中提取常识性知识，增强 PDDL 的规划和现场处理行动知识 [95]。第三，Zhao [64] 利用 LLM 构建世界模型，并在搜索算法（如蒙特卡洛树搜索）中执行启发式策略，该算法使用 LLM 提供的常识性知识来生成可能的世界状态，从而促进有效的决策以及底层的运动规划。

这些基于 LLM 的规划方法优化，发生在与 LLM 的交互中、在经典任务规划器的规划生成中，或者两者兼而有之。LLM-原生规划方法的提示策略，鼓励行为最大化整体任务完成率，其中优化通常以隐式方式发生（即，没有明确指定的目标函数）。相比之下，LLM -辅助规划方法可以在考虑或不考虑规划成本的情况下计算最佳规划，其中最优性取决于 LLM 提供的外部知识，并且优化过程嵌入在部署的任务规划系统中。

基于优化的运动规划

基于优化的运动规划是机器人规划的重要组成部分。它旨在生成连续的机器人运动路径和控制序列，以优化受一组运动学和/或动力学约束约束的目标函数。已经提出了许多方法 [99] 来实现轨迹优化（TO）。值得注意的优化技术包括将优化技术转录为非线性规划 (NLP) 的直接方法，以及利用最优条件的间接方法。

与此同时，随着机器人运行环境和机器人需要完成任务的复杂性和多样性的增加，迫切需要增强这些优化策略的可扩展性，特别是在处理机器人动力学、物理接触问题中的复杂约束以及多机器人场景中的高维状态空间方面。为此，已经引入分布式优化技术，其中共识的交替方向乘数法 (ADMM) 是一种值得注意的方法 [100]。

结合基于模型的轨迹优化方法，最近在结合数据驱动方法和轨迹优化方面取得的进展，已显示出预测生成轨迹的能力 [101]，[102]，其通过模仿基于模型的 TO 技术，求解离线生成的优化路径。这些学习方法在提高运动规划过程的效率和适应性方面具有重要前景，尤其是在具有动态和不可预见挑战的环境中。

轨迹优化（TO）

直接搭配 [103], [104] ，提供一种直接的转录，其中控制和状态都被视为决策变量，并且可以轻松表达复杂的状态约束。可以采用通用 NLP 求解器（例如 IPOPT [105] 和 SNOPT [106]）来求解最优解。或者，受到许多机器人应用对实时计算要求的推动，研究人员开始设计针对特定问题的求解器来可靠地解决上述 NLP 问题。值得注意的是，差分动态规划 (DDP) [107] 是一种发射方法，它通过 Riccati 递归有效地探索问题结构并处理非线性动力学，但仅限于无约束 TO。最近，已经提出 DDP 算法的变型来处理不同的状态和控制约束 [26]、[108]、[109]、[110]、[111]、[112]、[113]。可以参考 [99]、[114] 来全面了解数值 TO 方法。最近的综述论文 [24] 对 TO 在腿部运动中的当代应用提供见解，重点是处理复杂的动态和接触约束。

分布式优化

许多 TO 问题具有内在的分布式结构。为了提高 TO 的效率，这种分布式结构通常通过交替优化方法（如 ADMM [100]）来制定和解决。然而，分布式结构可能不会立即显现出来，优化问题通常需要重新表述为显式分布式格式。在此重点关注共识 ADMM 作为代表性的分布式公式，其中通常会引入决策变量的副本和额外的共识约束来揭示 TO 问题的分布式结构。

实际上，实现令人满意一致性性能的一个关键方面，是通过原则性机制（例如过松弛 [116]、可变惩罚参数 [117] 和 Nestorov 加速方法 [118]）适当选择 ADMM 参数。在 TO 问题中常见的三种结构，可以使用一致性 ADMM 有效解决。

空间结构：当子系统及其动态可分离时，可以利用系统的空间结构。此属性通常存在于多机器人系统中，其中每个机器人的规划可以视为一个子问题。决策变量可能通过目标函数或约束（例如机器人之间的避撞）耦合。可以为每个机器人创建完整状态变量的本地副本以解耦问题 [119]，如图（a）所示。可以参考 [38]、[120] 以详细了解多机器人 ADMM。 [121] 进一步研究鲁棒性，该文通过 ADMM 给出多机器人运动规划问题。[122] 将带有关节臂的四足机器人建模为三个子机器人，从而加速机器人的局部操作任务。

请添加图片描述

时间结构：机器人问题通常以离散形式表示。在大多数情况下，离散公式涉及一组解耦的目标和约束项，它们是单个时间步的机器人状态和控制的函数，以及将状态和控制轨迹耦合在连续时间步上的动态约束。

对于计算成本高昂的单时间步目标或约束（例如，接触的互补约束 [25]），利用问题的时间结构并以分布式方式并行化感兴趣的单时间步目标和约束（如上图 (b) 所示），有利于加速优化过程。

通过使用指示函数或投影算子将约束移到目标中，可以以类似的方式解耦约束。示例包括 [123]，其中线性互补约束在时间上是独立的，以及 [124]，其中控制上的 L1 目标被解耦。类似地，在 [125]、[126] 中，盒子约束通过投影算子单独处理。

系统结构：当系统动力学可以用两个或多个相互作用的子系统（即具有不同复杂度的动态模型）来表征时，可以利用 TO 的系统结构。ADMM 用于将完整的优化问题分解为子问题，每个子问题对应一个子系统（如上图 © 所示）。这种分离通常适用于具有高自由度的复杂机器人动力学系统。与空间结构不同，系统结构通常涉及从一个子系统到另一个子系统的非线性映射，例如，对于运动问题，从质心动力学到全身动力学的一个映射。

在腿部运动中，通常存在模型抽象的层次结构，其中全身 TO 和降阶 TO 都在规划范围内求解 [127]，[128]。这种模型抽象层次结构，可以通过 ADMM 的动态分割策略有效地处理。原始刚体动力学可以分为质心动力学和全身运动学 [129] 或动力学 [130]，[131]。虽然 [129]，[130] 没有明确使用 ADMM，但它们会迭代地将优化的轨迹从一个子系统馈送到另一个子系统作为参考轨迹。从经验上讲，已经报告收敛到局部最小值的良好结果 [132]。 [133]还提出了一种可能加速的ADMM更新方案。

运动规划的学习方法

尽管经典 TO 方法的效率有所提高，但在许多用例中实现实时 TO 仍然具有挑战性。此外，TO 中针对特定问题的目标和约束通常需要手动设计，这限制 TO 方法的普遍性。因此，人们广泛探索学习方法以促进运动生成，具体方法如下：(i) 学习目标和约束以指导 TO，(ii) 学习物理模型集成到 TO 中， (iii) 学习模仿 TO 生成轨迹的端到端策略。

TO 的学习目标和约束：可以从轨迹演示和其他任务规范输入（如自然语言）中学习目标函数和约束。引导成本学习 [134] 使用策略优化自适应地采样 TO 生成的轨迹，恢复成本函数。对于受约束的 TO 场景，逆 KKT [135] 学习底层约束优化问题的成本函数和 KKT 条件。Janner [102] 建议将 RL 视为通用序列建模问题，然后开发基于 Transformer 的架构来建模轨迹的分布，并利用波束搜索（beam search）来解决规划问题。为了允许更灵活的任务规范，Sharma [136] 建议学习神经网络，将自然语言句子映射到成本函数的转换中，然后用于优化运动轨迹。在另一条研究路线上，LLM 通过描述机器人运动并将所需的机器人运动转化为奖励函数 [137] 来指导控制策略的优化，显示出作为运动规划接口的前景。VoxPoser [138] 利用 LLM 根据任务规范生成成本图，然后利用搜索算法得出机器人运动轨迹。

为 TO 学习物理模型：物理模型的复杂性，尤其是接触模型的不连续性，会给 TO 带来巨大的数值挑战。尽管准确捕捉刚性接触行为存在明显困难，但这些挑战刺激可学习微分接触模型的发展 [139]。ContactNets [140] 提出使用平滑的隐式参数化来学习身体间距离和接触雅可比矩阵，这可能与 TO 集成。[141] 中的工作扩展 [140]，使用残差网络同时学习连续和接触动力学。对于目标操作问题，[142] 构建一个动态增强神经目标模型，该模型模拟目标的几何形状和动力学以及可微分接触模型。[143] 提出将目标表示学习为符号距离场（SDF），这特别适用于基于优化的规划方法。

由 TO 指导的端到端策略学习：为了解决 TO 中遇到的低效率以及与实时执行 TO 相关的障碍，人们研究学习模仿离线 TO 生成轨迹示例的神经策略。引导策略搜索 [144], [145] 在 DDP 生成的引导样本分布上迭代地训练策略。相比之下，[101]、[146]、[147] 中的研究建议使用 ADMM 在神经网络策略和 TO 提供的轨迹示例之间达成共识。OracleNet [148] 使用学习的循环神经网络按顺序恢复运动规划。为了解决具有任务约束的运动规划问题，CoMPNet [149] 首先使用循环神经网络和 CNN 将任务描述和环境编码到潜空间中，然后根据特征嵌入、初始配置和目标配置按顺序生成中间机器人配置。同样，Radosavovic [150] 开发一个基于 Transformer 的框架来解决类人机器人运动任务，其中模型首先在模拟中训练以自回归方式生成动作，然后直接部署到现实世界中。为了处理低级技能的多模态动作分布，扩散策略 [151] 通过以观察结果为条件的学习梯度场迭代地将噪声细化为动作序列，从而提供稳定的训练并适应高维动作序列。对于腿部运动，[152] 提出学习一个神经网络，实时生成所需的质心运动，随后将其与全身控制器集成。

集成任务和运动规划

集成 TAMP 提供一种整体方法，与其他分别处理任务规划和运动规划的方法形成鲜明对比。在基于优化的 TAMP 中，规划不仅需要可行，而且还应接近全局最优。集成 TAMP 的关键考虑因素，在于任务规划和运动规划之间的相互依赖性。这种相互作用构成高效 TAMP 算法设计的基石，代表一个活跃的研究领域。

基于优化的 TAMP 公式，通常涉及离散符号级决策和连续运动级轨迹的混合优化。为此，确定两种制定和解决混合优化的通用方法：逻辑引导的 TAMP 和轨迹优化引导的 TAMP。虽然这两种方法本质上都是解决混合优化问题，但它们在公式和算法上存在根本差异，特别是在离散变量的定义和搜索空间的选择上。如图显示基于优化 TAMP 的整体组织和讨论的主要主题。

请添加图片描述

下表列出一组具有代表性的基于优化 TAMP 经典方法，包括公式、算法以及在应用中是否考虑动力学或运动学。

请添加图片描述

逻辑引导 TAMP 基于 PDDL 等符号语言制定，其中运动规划的连续变量和约束被嵌入为符号规划的连续级实现（以下称为细化）。逻辑引导的 TAMP 中一个值得注意的公式是逻辑-几何规划 (LGP) [8]，其中符号级别的逻辑控制对 TO施加的约束，即运动规划器。逻辑引导 TAMP 的算法结构，通常涉及基于状态空间搜索的任务规划器，以及针对规划问题手工设计的启发式算法。运动规划器通常与任务规划器交错，以优化任务规划器生成的规划框架。

TO 引导 TAMP 被表述为单个 TO 问题，其中二进制变量表示离散决策。该表述通常将 TAMP 的混合优化问题视为混合整数规划 (MIP)。通常，TO 引导 TAMP 源自时间逻辑表示。解决 TO 引导 TAMP 的方法通常采用通用数值求解器（如 B&B），而不采用特定于问题的启发式算法。与逻辑引导 TAMP 不同，该算法的搜索空间不是由规划问题的显式状态空间定义，而是由底层数值程序的解空间定义。此外，人们通过将 MIP 拆分为子问题 [153] 或将规划问题表述为完全连续优化 [9]、[154] 来努力提高 TO 引导 TAMP 的可扩展性。

尽管集成 TAMP 的经典优化技术取得了进展，但由于任务规划的组合性质和运动规划的数值复杂性，这些方法通常仍然具有有限的可扩展性。当前的研究趋势之一是探索使用基于学习的技术来提高 TAMP 算法的效率。对于逻辑引导的 TAMP，学习方法已用于任务规划和运动规划层之间的交互，例如，学习动作可行性和搜索指导。沿着不同的研究方向，人们探索可重复使用的动作技能获取，这有助于提高长期任务中动作生成的效率。对于 TO 引导 TAMP，集成基于学习的技术来减少 MIP 问题的计算负担，一直是一个活跃的研究领域。

逻辑引导 TAMP

在逻辑引导 TAMP 中，解决混合规划问题的方法可以概念化为构建轨迹树。在此轨迹树表示中，每个节点对应于一个符号状态，每条边代表一个轨迹段。鉴于 TAMP 的相互交织性质，符号状态的可行性及其相关成本的确定受到符号域和连续域组合的影响。

主要的研究问题是如何有效地在任务规划和运动规划层之间进行交互，以减少搜索树的大小并尽量减少对运动规划器的调用次数，同时仍然有效地求解可行且理想的最优解。如图说明逻辑引导 TAMP 中常见的整体算法结构。

请添加图片描述

轨迹优化（TO）引导 TAMP

与逻辑引导 TAMP 方法相比，任务规划和运动规划之间的相互作用被明确表达，解决 TO 引导 TAMP 的常用方法通常依赖于数值算法的内部特征，例如分支定界 (B&B) 和 ADMM，以隐式实现离散和连续决策变量之间的相互作用。

分支定界（B&B）法：解决 MIP 的一种典型方法是基于 B&B 算法 [178]，[179]。该方法将解空间划分为较小的子集（分支），并使用目标函数的边界来消除不包含最优解的区域。最初，整数约束进行松弛以提供初始边界。然后，该算法根据分数整数变量值做分支，构建搜索树。通过评估每个子问题的边界并修剪无法改善当前最佳解决方案的分支，B&B 经过多次迭代后收敛到全局最优值。然而，MIP 被归类为 NP- hard 问题 [180]，因此通常使用几种分支启发式方法 [181] 来提高可扩展性，类似于逻辑引导 TAMP 方法的状态空间搜索启发式方法。例如，强分支启发式算法 [182] 旨在通过选择能够最大程度改善目标函数的分支变量来生成一棵小型 B&B 树。或者，局部邻域搜索 [183] 尝试通过局部搜索来改进现有的可行解。
分层和分布式优化方法：对于受非线性动力学影响的系统，优化公式可延伸至混合整数非线性规划 (MINLP)。然而，MINLP 相关的计算负担通常过重，因此对于许多实际应用而言并不实用。为了管理计算复杂性，MINLP 通常会将其分解为分层或分布式可解子问题来重新表述（如图 (a) 所示）。
平滑近似法：与上述分层和分布式方法不同，另一种规避 MIP 组合复杂性的研究方法，是将混合优化重新表述为连续 NLP，使用特定的成本函数或约束来表示离散任务规划的平滑近似（如图（b）所示）。

请添加图片描述

组合 TAMP 的学习

经典的 TAMP 框架 [2]、[199] 需要精确的专用感知系统和手工设计的操作技能，这使得这些方法在处理新问题时效率较低。为了解决这个问题，近年来，TAMP 社区对学习方法进行广泛的探索。数据驱动的方法允许机器人根据先前的示例和经验做出明智的决策，从而增强灵活性和普遍性。此外，经典 TAMP 方法的可扩展性，通常受到复杂问题的树搜索的问题规模以及评估启发式和最佳轨迹计算成本的限制。基于学习的方法，显示出加速或取代经典方法中一些计算成本高昂组件的潜力，例如可行性检查、搜索指导和技能学习。根据学习组件的角色和功能，对方法进行分类，主要分为以下五种：学习可行性分类器、学习搜索指导、学习技能策略、学习错误恢复和学习混合整数规划。下表列出代表性学习方法：

请添加图片描述

未来挑战和机会

TAMP 的基础模型

LLM 和 VLM 在机器人规划中的集成正在兴起，但面临一些挑战。在机器人规划中，将复杂的任务规范分解为适合特定环境的可操作步骤至关重要 [237]，[238]，[239]，[64]，[240]。然而，LLM 和 VLM 往往难以做到这一点。它们的规划可能过于抽象，未能考虑物理世界的实际约束。这对需要具体可行物理操作指令的机器人来说是一个重大问题。此外，LLM 和 VLM 的当前能力有限，这反过来又限制它们在机器人规划中的有效性。例如，空间推理在机器人规划中至关重要，但 LLM 和 VLM 可能无法准确理解物理空间和动态环境 [241]，[242]，[243]。机器人规划还需要考虑历史数据和长期目标。 LLM 有限的短期记忆可能导致在连续或多阶段任务中信息丢失，影响规划的连贯性和效率 [244]、[245]、[246]。尽管最近的发展旨在增强 LLM 和 VLM 的能力，但它们似乎并没有从根本上解决这些限制 [241]、[247]。此外，在家庭、商场和医院等开放世界环境中，机器人还需要具备适应新的、不可预见的任务的能力。尽管存在复杂性，但为这些目的开发 LLM 和 VLM 的进展正在出现 [248]、[249]。

TAMP 的扩散模型

扩散模型在运动规划中的应用，如扩散器 [250]、决策扩散器 [251] 和扩散策略 [151]、[252]，因其灵活性和可组合性而被探索。 [253] 提出一种基于模型的扩散规划器，它使用扩散过程来解决轨迹优化问题，而无需外部数据。在 TAMP 的背景下，扩散模型可以作为各个技能的轨迹采样器，为生成多样化和可行的运动规划提供一种强大的方法。[254] 提出生成技能链，其中学习以短期技能为中心的扩散模型，并建立一个组合框架，以在给定规划骨架的情况下直接生成长期规划。[255] 将扩散技能采样器集成到经典的 TAMP 方法中，该方法使框架适应部分可观察的规划领域。有希望的未来研究可以探索 LLM 和扩散模型之间的协同作用，以开发生成性多任务模型和端到端 TAMP 框架。

TAMP 的多模态感知

目前，大多数 TAMP 框架主要依赖于视觉感知。然而，集成多模态感知，如视觉、触觉和听觉模块，可以显著提高机器人在模仿学习中执行接触丰富任务的能力 [256]，[257]，[258]，因为每种感知模态都提供与操作任务相关独特且有用的接触信息，这些信息涵盖广泛的几何尺度和频率带宽。未来的研究机会包括通过先进的传感器融合以及接触信息的表示、提取和利用，进一步将多模态感知与 TAMP 相结合。鉴于这些潜力，可以通过更好的启发式任务规划和更准确的接触模型来优化轨迹，从而有可能提高 TAMP 的性能。

TAMP 中的策略学习

在基于 RL 的策略学习领域，关键障碍在于样本效率低下（反复试验的成本）以及对精心设计的密集奖励函数依赖。这些挑战在复杂的长期任务领域更加严重，而且通常要求在模拟器中对强化学习算法进行初始训练，从而增加将获得的行为从模拟迁移到现实世界的复杂性 [33]。虽然直接从现实环境中利用机器人遥操作数据可以缓解泛化问题，但这一策略需要精心设计系统，以确保机器人与人类的无缝交接，并保持高效的数据收集 [202]。此外，构建涵盖足够多场景（包括目标几何形状、空间排列和光照条件）的多样化任务配置并非易事，这对获取长期任务中的可泛化模型提出额外的挑战。此外，观察和动作表征的设计，对于增强所获技能的泛化和可重用性至关重要。

用于运动和操纵的 TAMP

尽管运动和操纵之间的二元性 [259] 意味着它们可以看作是等效问题，但运动和操纵的不同性质对 TAMP 在更复杂的机器人系统（例如，具有操纵能力的人形机器人）中的应用提出了挑战。从TAMP的角度来看，两者都涉及机器人与环境之间动态接触交互的混合规划，但在混合事件的表示和频率上有所不同。操纵任务通常以目标为中心[2]，接触切换频率较低，侧重于与目标的精确交互。相比之下，运动涉及以机器人为中心的运动，接触切换频率较高，通常通过分层接触规划方法来处理，然后生成轨迹[24]，通常由质心轨迹规划方法来实现[260]，[261]。这种表示和操作频率的差异提出了重要的研究问题，需要开发统一的 TAMP 操纵框架，需要平衡地整合这些方面。[19] 通过分别处理以目标为中心和以机器人为中心的任务，并将离线生成的规划转移到在线执行，有望将图搜索和 TO 集成到长距离操纵任务中。 [262] 说明使用分层 RL 解决具有灵巧双手人形机器人全身操作问题的最新趋势。尽管如此，由于诸如灵巧抓取和不平坦地形中运动规划的复杂性等复杂因素，统一运动和操作的 TAMP 仍然是一个挑战。

人-机协作的 TAMP

由于人类意图和行为的不确定性，人-机协作 (HRC) 的 TAMP 面临挑战。为了有效协作，机器人必须预测人类的象征性意图和连续运动，并将这种理解整合到规划过程中 [263]。该领域的最新发展包括人机感知任务规划 [264]、分层规划方法 [265]、[266] 以及将人体运动预测纳入 LGP [267]。 HRC 的一个新兴研究领域是探索人与机器人之间的新型通信模式，例如，在机器人规划框架中集成对话交互 [268]。此外，人类意图可以通过物理 HRC 场景中的物理交互来表达，例如目标的交接 [269] 和协作运输，其中考虑目标和人类的动态 [270]。如何通过 TAMP 有效实现物理 HRC 仍然是一个活跃的研究领域。这些最新趋势标志着通过物理和语言界面向更直观、更自然的人机交互迈进。

TAMP 在现实世界中的应用

基于优化的 TAMP 在各个行业都有着广泛的实际应用。在工业环境中，TAMP 用于施工规划 [174] 和钢筋网格遍历 [21]。此外，TAMP 使无人机 (UAV) 能够在复杂环境中导航，以提供送货服务和环境监测 [271]，以及农业任务 [272]。在家庭应用中，TAMP 有助于完成烹饪 [273] 以及操作门和洗碗机 [19] 等家务。在实验室环境中，TAMP 用于医学试管重新排列 [274]。将 TAMP 扩展到更广泛的现实应用需要克服当前的挑战，例如开发更强大的方法来适应不同的环境因素、问题设置和人机交互。此外，正确的场景理解和表示（以捕捉空间和语义关系）至关重要，并且仍然是在开放世界环境中部署 TAMP 的开放研究领域。此外，在现实场景中为机器人实施低级控制涉及处理环境变化、传感器噪声和标定问题，这些问题会影响反馈可靠性。解决这些挑战对于有效和安全地部署机器人至关重要。

伦理和社会影响

TAMP 和机器人技术的部署引发一些伦理和社会考虑 [275]，[276]，包括（i）确保机器人规划的安全性和可靠性，特别是在人类居住的环境中； (ii) 制定战略减轻自动化程度提高造成的就业流失对社会经济的影响；(iii) 负责任地处理在机器学习模型训练过程中收集的数据，以保护隐私和知识产权；(iv) 通过更节能的机器学习模型训练过程和机器人生产、操作和处置中的可持续实践，最大限度地减少对环境的影响。