大语言模型辅助 AI 规划的最新进展

24年9月来自Emory大学的论文“Surveying the State-of-the-Art in Large Language Model-Assisted AI Planning”。

请添加图片描述
有效的规划对于任何任务的成功都至关重要,从组织假期到规划自动驾驶汽车的路线,再到制定企业战略。它涉及设定目标、制定计划和分配资源以实现目标。LLM 特别适合自动规划,因为它们具有强大的常识推理能力。它们可以从给定状态推断出实现目标所需的一系列动作,并确定有效的行动方案。然而,通过直接提示生成的规划往往在执行时失败。该综述旨在强调使用语言模型进行规划所面临的挑战,重点关注具体环境、最优调度、竞争和合作游戏、任务分解、推理和规划等关键领域。该工作探索 LLM 如何改变 AI 规划,并为 LM 辅助规划的未来提供了独特的见解。

规划涉及生成一系列动作以实现特定目标(Russell & Norvig,1995)。如 ALFWorld(Shridhar,2020b)所示,家用机器人执行一系列动作,例如“走到炉子旁”和“从炉子上拿起锅”,以实现“把锅放在餐桌上”的目标。该领域的一个关键工具是规划域定义语言 (PDDL;Ghallab,1998),它定义了动作发生前的必要条件以及这些动作之后的影响。PDDL 对状态和动作的符号表示也与计算语言学中的形式语义产生共鸣(Banarescu,2013;O’Gorman,2018)。

规划任务的基准测试分为三类:(a)具身环境,其中智体执行家务或在迷宫中导航,算法旨在找到穿过网格的最有效路线(Gupta,2010;Shridhar,2020b;Lehnert,2024);(b)谜题挑战,例如 24 点游戏、图形着色和汉诺塔,随着问题规模的增加,其复杂性也会增加(Valmeekam,2023;Yao,2023a); (c)自然语言规划,重点关注最优调度、旅行规划和任务分解,这需要 LLM 的高级推理能力(Xie et al.,2024;Zheng et al.,2024)。需要注意的是,该综述不包括需要大量视觉处理的规划问题,例如自动驾驶(Hu et al.,2023)。

在经典规划中,智体在完全可观察的环境中运行,并被建模为马尔可夫决策过程 (MDP)。

规划域定义语言 (PDDL;Ghallab,1998) 是一种使用 BNF 语法定义规划问题和领域的表示。在 PDDL 中,有三个主要部分:一个领域文件、一个问题文件和规划。领域文件描述了可用于各种问题的操作和谓词,问题文件定义了特定情况下的特定初始条件和目标,规划列出了在这些条件下实现目标所需的操作。

PDDL 的优势在于可以验证 LLM 生成的规划是否真的可以执行,因为它可以识别何时不满足先决条件,例如(卸载 b1 b2)中的先决条件。然而,它的不灵活性以及需要创建域和问题文件带来了重大缺陷。将 PDDL 与 LLM 集成通常涉及将这些文件和规划转换为自然语言,这会使过程变得复杂。

请添加图片描述

用于评估规划系统的具体环境通常采用离散的动作空间,并且仅限于家庭任务。

规划对于最佳调度必不可少,因为它可以确保时间和资源得到妥善管理,工具得到按需使用,并在设定的约束条件下实现预期目标。已经开发了数据集来帮助进行行程规划、会议安排、日历管理、拍卖竞标和物流协调。

合作和竞争性游戏是评估LLM在实现特定目标的过程中所具备的战略规划、资源分配、风险管理和多智体行为能力的试验场。
任务分解有利于规划,因为它可以实现高效可靠的执行。将任务分解为子任务有助于创建特定于任务的分类法。因此,如果提供包含可操作步骤的具体规划,通常可以更有效地执行任务。

推理和规划在侧重点上有所不同。推理涉及整合多条信息并进行推理以解决复杂问题。例如,“出生于明尼苏达州的诺贝尔奖获得者会演奏什么乐器?”被视为多步推理问题,因为它涉及推理链以生成答案。相比之下,规划不仅要实现目标,还要以最佳方式实现目标,例如以最低成本或最短路径。规划涉及考虑各种约束并预测由行动导致的未来状态。例如,“预订最便宜的航班”涉及围绕明确目标生成一系列动作(搜索、比较、预订),并受到时间和成本约束。

请添加图片描述

LLM 辅助规划算法,其模块化流程包括规划生成器、环境解释器和增强反馈提供器。目标不是调查所有的规划方法。相反,专注于理解 LLM 在协助开发 SOTA 规划系统和解决新规划问题方面的作用。方法大致分为 LLM-as-Planner 和 LLM-as-Facilitator。第一类明确使用 LLM 继承的推理能力来生成规划,而第二类依赖于其他规划算法来生成规划,LLM 仅用于促进该过程,例如作为世界模型的模拟器,或作为行动规划器从当前状态估计未来的行动,或者使用 LLM 通过世界 API 重新定义行动空间。

规划生成器是整个操作的核心,它可以预测一个未来动作、多个未来动作甚至多个未来动作线程。许多近期的研究都使用 LLM 作为规划生成器,利用其多功能性来处理不同领域的场景和问题。然而,一些研究人员认为,目前的 LLM 在规划方面从根本上来说很弱。因此,许多人也提出使用 Fast Downward 这样的算法(Helmert,2006)甚至单独训练的模型来执行规划(Liu et al.,2024)。对规划生成器,尤其是非基于 LLM 规划器的探索还远未结束。例如,最近(Lehnert et al.,2024)提出 Searchformer,这是一种基于 Transformer 的规划算法,它既性能卓越又非常高效。

请添加图片描述

LLM作为动作规划器

使用 LLM 作为规划器,在很大程度上依赖于快速设计和 LLM 固有的生成和优化规划的能力。使用 LLM 生成规划的关键优势,在于它们能够理解和生成自然语言,从而使它们能够处理问题描述并生成规划,而无需大量特定领域的知识或专门的训练。然而,一个主要的缺点是 LLM 本质上是非确定性的,与使用符号规划器等工具相比,其行为更难预测。
讨论的方法分为几种:一种是带反馈的动态规划更新,比如ReAct、Reflexion、Inner Monologue、Self-Refine、ToT、SayCanPlay等;另一种是基于代码的规划和提示,比如ProgPrompt、AdaPlanner;以及采用分别训练的组件,比如描述-解释-规划-选择(DEPS);还有带约束的规划,比如TaskLama。

请添加图片描述

LLM 作为促进器

虽然使用 LLM 生成规划提供了显著的灵活性,但许多人注意到 LLM 往往无法为涉及理解和操纵世界状态的复杂、多步问题生成可行且最佳的规划 (Liu et al., 2023a)。因此,有些人仅使用 LLM 作为促进者来支持其他算法生成规划。
讨论的方法采用符号规划器,比如Ada、PARL等。

挑战问题:

  1. LLM会规划吗?
  2. LLM辅助的规划鲁棒性

注:文中插图来自AAAI‘24 tutorial “On the role of Large Language Models in Planning”​。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值