理解LLM智体的规划：综述_understanding the planning of llm agents: a survey-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/138855335

24年2月中科大和华为的论文“Understanding the planning of LLM agents: A survey”。

随着大语言模型（LLM）显示出显著的智能性，利用LLM作为自主智体的规划模块的进展引起了更多的关注。本调查首次系统地介绍了基于LLM的智体规划，涵盖了旨在提高规划能力的最新工作。对LLM Agent规划的现有工作进行分类，可分为任务分解、规划选择、外部模块、反思和记忆。对每个方向进行了全面的分析，并讨论重新搜索领域面临的进一步挑战。

自主智体已被公认为能够通过感知环境、规划和执行行动来完成特定任务的智体。规划作为智体最关键的能力之一，需要复杂的理解、推理和决策过程[Ghallab et al.，2004]。

传统的工作主要依赖于符号方法或基于强化学习的方法，如规划域定义语言（PDDL）[Aeronautiques et al.，1998；Haslum et al.，2019]或策略学习[He et al.，2015；Yao et al.，2020a]。然而，这些传统方法有几个局限性。符号方法需要从灵活的自然语言描述的问题转换为符号建模，这可能需要人类专家的努力。通常，这种方法缺乏容错能力，即使只有少数错误也会导致失败。强化学习（RL）方法通常与深度模型相结合，作为策略网络或奖励模型。虽然RL算法通常需要大量样本（与环境的交互）来学习有效的策略，但在收集数据耗时或昂贵的情况下，这可能不切实际或成本高昂。

近年来，大语言模型（LLM）在推理、工具使用、规划和指令遵循方面展现了非凡的智慧，其揭示了将LLM作为代智体的认知核心提高规划能力的潜力。已经开发了许多方法来利用LLM的潜力进行智体规划。虽然现有的调查试图总结LLM的技术[Zhao，2023a]、决策的LLM[Yang，2023a]、推理[Sun，2023]、工具学习[Qin，2023]和自主智体[Wang，2023a]，但他们在文献中往往缺乏对规划能力的详细分析。

作者挑选了一些LLM智体规划有代表性和影响力的方法，分析了它们的动机和基本思想。为了更好地了解情况，在表1中对分析进行了说明：

添加图片注释，不超过 140 字（可选）

根据该表，作者提出了一种新的基于LLM的智体规划的系统分类法，将现有工作分为五个重要类别，包括任务分解、多规划选择、外部模块辅助规划、反思和细化以及记忆增强规划，如图所示。

添加图片注释，不超过 140 字（可选）

对复杂任务的简化是一种非凡的人类能力，表现在将一个任务分解为几个更简单的子任务[Schraagen et al.，2000]，这类似于众所周知的算法策略“分而治之”。任务分解通常包括两个关键步骤：第一，分解复杂任务，称为“分解”步骤；第二，规划子任务，也称为“子规划步骤”。该域中当前的任务分解方法通常分为两类：分解优先和交错分解，如图所示。

添加图片注释，不超过 140 字（可选）

对于分解优先的方法，其优点在于在子任务和原始任务之间建立更强的相关性，降低了任务遗忘和幻觉的风险[Touvron，2023]。然而，由于子任务是在一开始就预先确定的，因此需要额外的调整机制，否则某个步骤中的一个错误将导致失败。另一方面，交错分解和子规划基于环境反馈动态调整分解，提高了容错能力。然而，对于复杂的任务，过长的轨迹可能会导致LLM出现幻觉，在随后的子任务和子计划中偏离原始目标。

尽管任务分解显著提高了解决复杂任务的能力，但挑战依然存在。第一个挑战是任务分解带来的额外开销。将一个任务分解为多个子任务需要更多的推理和生成，从而产生额外的时间和计算成本。另一方面，对于被分解为数十个子任务的高度复杂的任务，规划受到LLM的上下文长度的约束，导致规划轨迹被遗忘。

多规划选择包括两个主要步骤：多规划生成和最优规划选择。多规划生成包括生成十几条规划路径构成候选规划集。主流方法考虑在生成模型的解码过程中采用不确定性。为了在候选规划中选择最优，可采用不同策略作为启发式搜索算法。

多规划选择的可扩展性是显著有利的，在广阔的搜索空间中提供了对潜在解决方案的更广泛探索。然而，这种优势伴随着内在的权衡。计算需求的增加，特别是对于具有大token数或计算的模型，带来了实际挑战。这种成本考虑变得至关重要，尤其是在资源限制是一个重要因素的情况下，例如在线服务。此外，对LLM进行规划评估带来了新的挑战。由于LLM在排名任务中的性能仍在审查中，因此需要在这一特定背景下对其功能进行进一步验证和微调。LLM的随机性增加了选择的随机性，可能会影响所选规划的一致性和可靠性。

尽管大语言模型（LLM）具有强大的推理和任务分解能力，但当面对具有复杂约束的环境时，如数学问题解决或生成可接受的动作时，会出现挑战。为了应对挑战，有几种方法将LLM与外部规划相结合。基于引入的规划，这种方法可以分为符号规划和神经规划。

几十年来，符号规划一直是自动化规划领域的基本组成部分。这些方法基于成熟的符号形式化模型，如PDDL模型[Aeronautiques，1998；Haslum，2019]，采用符号推理来识别从初始状态到期望目标状态的最佳路径。

神经规划是在收集的规划数据上使用强化学习或模仿学习技术进行训练的深度模型，在特定领域内显示出有效的规划能力。例如，DRRN[He et al.，2015]通过强化学习将规划过程建模为马尔可夫决策过程，训练策略网络以获得深度决策模型。决策Transformer（DT）[Chen et al.，2021a]使Transformer模型用规划数据克隆人类决策行为。

对于那些利用额外规划提供帮助的策略，LLM主要起支持作用。它的主要功能包括解析文本反馈和提供额外的推理信息帮助规划，特别是解决复杂问题。具体而言，LLM在代码生成方面的能力增强，使其有可能处理符号人工智能的更通用任务。事实上，传统符号人工智能系统的一个显著缺点在于构建符号模型的复杂性和严重依赖人类专家，而LLM加速了这一过程，有助于更快、更优化地建立符号模型。符号系统带来的优势包括理论上的完整性、稳定性和可解释性。统计人工智能与LLM的结合有望成为人工智能未来发展的一大趋势。

反思和细化是规划过程中不可或缺的组成部分。它们增强了规划的容错和纠错能力。由于存在幻觉问题和对复杂问题的推理能力不足，LLM智体可能会在规划过程中因反馈有限而出错并陷入“思维循环”。反思和总结失败有助于智体纠正错误，并在随后的尝试中打破这种循环。
特别是，自我反思策略与强化学习的原理相似，在强化学习中，智体扮演决策的角色，如策略网络。环境反馈触发策略网络的更新。然而，与通过修改模型参数实现更新的深度强化学习不同，在LLM智体中，这种更新是通过LLM自身的自我反思发生的，最终以文本语言反馈达到顶峰。这些文本反馈既可以作为长记忆，也可以作为短记忆，通过提示影响智体的后续规划输出。然而，这种文本形式更新的收敛性目前缺乏有保证的证据，这表明无法证明持续的反思最终可以将LLM智体引向特定的目标。

对于智体来说，记忆是增强规划能力和增长潜力的关键途径。关于LLM智体中的记忆机制，目前有两种主要方法可以通过记忆来增强规划能力：基于RAG的记忆和具身记忆。

基于RAG和基于微调的记忆方法增强了LLM 智体的优势和局限性。基于RAG的方法主要在自然语言文本中提供实时、低成本的外部记忆更新，但依赖于检索算法的准确性。微调通过参数修改提供了更大的记忆容量，但记忆更新成本高，难以保留细粒度的细节。

记忆增强的LLM智体在规划中表现出增强的增长和容错能力，但记忆生成在很大程度上取决于LLM的生成能力。通过自我生成的记忆来证明较弱的LLM记忆仍然是一个具有挑战性的领域。