大语言模型辅助 AI 规划的最新进展-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/142074244

24年9月来自Emory大学的论文“Surveying the State-of-the-Art in Large Language Model-Assisted AI Planning”。

请添加图片描述
有效的规划对于任何任务的成功都至关重要，从组织假期到规划自动驾驶汽车的路线，再到制定企业战略。它涉及设定目标、制定计划和分配资源以实现目标。LLM 特别适合自动规划，因为它们具有强大的常识推理能力。它们可以从给定状态推断出实现目标所需的一系列动作，并确定有效的行动方案。然而，通过直接提示生成的规划往往在执行时失败。该综述旨在强调使用语言模型进行规划所面临的挑战，重点关注具体环境、最优调度、竞争和合作游戏、任务分解、推理和规划等关键领域。该工作探索 LLM 如何改变 AI 规划，并为 LM 辅助规划的未来提供了独特的见解。

规划涉及生成一系列动作以实现特定目标（Russell & Norvig，1995）。如 ALFWorld（Shridhar，2020b）所示，家用机器人执行一系列动作，例如“走到炉子旁”和“从炉子上拿起锅”，以实现“把锅放在餐桌上”的目标。该领域的一个关键工具是规划域定义语言 (PDDL；Ghallab，1998)，它定义了动作发生前的必要条件以及这些动作之后的影响。PDDL 对状态和动作的符号表示也与计算语言学中的形式语义产生共鸣（Banarescu，2013；O’Gorman，2018）。

规划任务的基准测试分为三类：（a）具身环境，其中智体执行家务或在迷宫中导航，算法旨在找到穿过网格的最有效路线（Gupta，2010；Shridhar，2020b；Lehnert，2024）；（b）谜题挑战，例如 24 点游戏、图形着色和汉诺塔，随着问题规模的增加，其复杂性也会增加（Valmeekam，2023；Yao，2023a）；（c）自然语言规划，重点关注最优调度、旅行规划和任务分解，这需要 LLM 的高级推理能力（Xie et al.，2024；Zheng et al.，2024）。需要注意的是，该综述不包括需要大量视觉处理的规划问题，例如自动驾驶（Hu et al.，2023）。

在经典规划中，智体在完全可观察的环境中运行，并被建模为马尔可夫决策过程 (MDP)。

规划域定义语言 (PDDL；Ghallab，1998) 是一种使用 BNF 语法定义规划问题和领域的表示。在 PDDL 中，有三个主要部分：一个领域文件、一个问题文件和规划。领域文件描述了可用于各种问题的操作和谓词，问题文件定义了特定情况下的特定初始条件和目标，规划列出了在这些条件下实现目标所需的操作。

PDDL 的优势在于可以验证 LLM 生成的规划是否真的可以执行，因为它可以识别何时不满足先决条件，例如（卸载 b1 b2）中的先决条件。然而，它的不灵活性以及需要创建域和问题文件带来了重大缺陷。将 PDDL 与 LLM 集成通常涉及将这些文件和规划转换为自然语言，这会使过程变得复杂。

请添加图片描述

用于评估规划系统的具体环境通常采用离散的动作空间，并且仅限于家庭任务。

规划对于最佳调度必不可少，因为它可以确保时间和资源得到妥善管理，工具得到按需使用，并在设定的约束条件下实现预期目标。已经开发了数据集来帮助进行行程规划、会议安排、日历管理、拍卖竞标和物流协调。

合作和竞争性游戏是评估LLM在实现特定目标的过程中所具备的战略规划、资源分配、风险管理和多智体行为能力的试验场。
任务分解有利于规划，因为它可以实现高效可靠的执行。将任务分解为子任务有助于创建特定于任务的分类法。因此，如果提供包含可操作步骤的具体规划，通常可以更有效地执行任务。

推理和规划在侧重点上有所不同。推理涉及整合多条信息并进行推理以解决复杂问题。例如，“出生于明尼苏达州的诺贝尔奖获得者会演奏什么乐器？”被视为多步推理问题，因为它涉及推理链以生成答案。相比之下，规划不仅要实现目标，还要以最佳方式实现目标，例如以最低成本或最短路径。规划涉及考虑各种约束并预测由行动导致的未来状态。例如，“预订最便宜的航班”涉及围绕明确目标生成一系列动作（搜索、比较、预订），并受到时间和成本约束。

请添加图片描述

LLM 辅助规划算法，其模块化流程包括规划生成器、环境解释器和增强反馈提供器。目标不是调查所有的规划方法。相反，专注于理解 LLM 在协助开发 SOTA 规划系统和解决新规划问题方面的作用。方法大致分为 LLM-as-Planner 和 LLM-as-Facilitator。第一类明确使用 LLM 继承的推理能力来生成规划，而第二类依赖于其他规划算法来生成规划，LLM 仅用于促进该过程，例如作为世界模型的模拟器，或作为行动规划器从当前状态估计未来的行动，或者使用 LLM 通过世界 API 重新定义行动空间。

规划生成器是整个操作的核心，它可以预测一个未来动作、多个未来动作甚至多个未来动作线程。许多近期的研究都使用 LLM 作为规划生成器，利用其多功能性来处理不同领域的场景和问题。然而，一些研究人员认为，目前的 LLM 在规划方面从根本上来说很弱。因此，许多人也提出使用 Fast Downward 这样的算法（Helmert，2006）甚至单独训练的模型来执行规划（Liu et al.，2024）。对规划生成器，尤其是非基于 LLM 规划器的探索还远未结束。例如，最近（Lehnert et al.，2024）提出 Searchformer，这是一种基于 Transformer 的规划算法，它既性能卓越又非常高效。

请添加图片描述

LLM作为动作规划器

使用 LLM 作为规划器，在很大程度上依赖于快速设计和 LLM 固有的生成和优化规划的能力。使用 LLM 生成规划的关键优势，在于它们能够理解和生成自然语言，从而使它们能够处理问题描述并生成规划，而无需大量特定领域的知识或专门的训练。然而，一个主要的缺点是 LLM 本质上是非确定性的，与使用符号规划器等工具相比，其行为更难预测。
讨论的方法分为几种：一种是带反馈的动态规划更新，比如ReAct、Reflexion、Inner Monologue、Self-Refine、ToT、SayCanPlay等；另一种是基于代码的规划和提示，比如ProgPrompt、AdaPlanner；以及采用分别训练的组件，比如描述-解释-规划-选择（DEPS）；还有带约束的规划，比如TaskLama。

请添加图片描述