规划前询问：现实世界规划的主动语言智体

硅谷秋水

于 2024-08-14 00:19:57 发布

阅读量420

点赞数 13

分类专栏：大模型智能体人工智能文章标签：语言模型人工智能自然语言处理机器学习深度学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/141074300

版权

大模型同时被 3 个专栏收录

396 篇文章 2 订阅

订阅专栏

人工智能

208 篇文章 0 订阅

订阅专栏

智能体

107 篇文章 0 订阅

订阅专栏

24年6月来自国立新加坡大学的论文“Ask-before-Plan: Proactive Language Agents for Real-World Planning”。

大语言模型 (LLM) 的发展，增强语言智体在各种现实场景中的规划能力。尽管取得这些进步，但由 LLM 驱动智体在理解模棱两可的用户指令进行推理和决策方面的潜力，仍在探索中。这项工作引入一项新任务，即主动智体规划，它要求语言智体根据用户智体对话和智体环境交互来预测阐明需求，调用外部工具来收集有效信息，并生成满足用户需求的规划。为了研究这个实际问题，建立一个新的基准数据集，即“Ask-before-Plan”。为了解决 LLM 在主动规划方面的不足，提出一种多智体框架，即阐明-执行-规划 (CEP)，它由三个专门从事阐明、执行和规划的智体组成。引入分类智体和静态执行智体的轨迹调优方案，以及动态执行智体的记忆回顾机制。

长期以来，人们一直致力于设计出外观、行为甚至思维方式与人类相似的智能智体（Descartes & Cress，1998；Dreyfus，1992）。大语言模型（LLM）的出现及其与自主智体的集成展示逻辑推理、决策和解决问题能力的潜力（Wang et al.，2023b；Xi et al.，2023）。基于 LLM 的语言智体已在各种现实世界的规划问题中得到探索，例如旅行规划（Xie et al.，2024）、网页导航（Deng et al.，2023a）、在线购物（Yao et al.，2022）等。然而，它们有时很难消化现实世界的指令，特别是在上下文模糊或用户意图不明确的情况下。如图 (a) 所示，举例说明了智体规划的一个案例，其中语言智体在遇到不明确的用户指令时无法产生所需的规划。

请添加图片描述

受到主动信息搜索系统 (Deng et al., 2023b; Liao et al., 2023) 的启发，其可以主动提出阐明问题搞清楚查询的不确定性，最新的语言智体研究 (Qian et al., 2024; Zhang et al., 2024) 将隐式意图理解纳入下游应用程序来强调意图的澄清，如上图 (b) 所示。尽管它们在搞清楚用户查询中的不确定性方面很有效，但在智体规划场景中仍有几个挑战需要解决：(1) 完全依赖查询理解来阐明，不考虑来自环境交互的观察结果；(2) 忽视去除用户意图歧义在后续规划中的作用。

考虑到这些重要但被忽视的方面，制定一项名为主动智体规划的新任务。除了理解用户在主动信息搜索中的隐含意图之外，主动智体规划还要求语言智体根据环境观察预测阐明的需求，调用外部工具根据用户智体对话收集有效信息，并最终做出决策以实现基于用户智体对话和智体环境交互历史的共同目标，如图（c）所示。为了研究这个实际问题，基于智体规划数据集 TravelPlanner（Xie，2024）建立一个基准数据集 Ask-before-Plan，用于评估智体在现实世界中的旅行规划能力。

Ask-before-Plan 数据集

现有的语言智体基准要么只关注其提出阐明问题的能力，例如 Tell Me More（Qian，2024）和 Clamber（Zhang，2024），要么简单地假设所有用户指令都是清晰明确的，例如 TravelPlanner（Xie，2024）和 Mind2Web（Deng，2023a）。为了全面调查智体提出阐明问题以及规划和环境交互的能力，构建 Ask-before-Plan 数据集。该数据集以 TravelPlanner 基准为基础，将需要搞清楚的不确定用户指令纳入现实世界的旅行规划场景中。

任务目标是将不确定的用户指令与主动的信息搜索对话结合到工具增强规划中，让智体在面对模棱两可或模糊的用户指令时提出阐明问题。如图所示，数据集构建过程分为以下两个阶段：（1）不确定细节形成，（2）主动对话生成。

请添加图片描述

数据集构建完成后，获得 1,000 个样本，用于训练和测试数据集。不确定细节是从 11 个不同的候选类型中随机选择的。不确定细节大小的分布结构如下：10% 数据不包含不确定细节，30% 数据分别包含 1、2 或 3 个不确定细节。如表是Ask-before-Plan 数据集的统计信息：

请添加图片描述

Clarification-Execution-Planning 多智体框架

提出两种执行智体使用工具与环境交互的设置，即静态和动态交互。

对于静态交互，智体需要基于当前对话 Ct 在一步推理中生成整个工具调用有效交互 Ei−1t。动态交互视为多步推理，在这种情况下，智体预计会根据当前对话 Ct 生成一个动作 fi ，之前的交互历史为 Ei−1t = {f1, o1, . . . , fi−1, oi−1}。

如图所示，引入阐明智体和静态执行智体的轨迹调优方案，以及动态执行智体的记忆回顾。最后，规划智体根据对话历史和交互结果生成有效规划。

请添加图片描述

就现状而言，即使在调整指令或提供设计的提示之后，LLM 仍难以在对话过程中自发地阐明用户的意图（Deng et al.，2023b），也无法通过使用工具准确地获取必要的信息而不会产生幻觉（Li et al.，2024b）。为了解决这些问题并使当前基于语言的智体与任务保持一致，建议使用轨迹 (Ct-1, Et-1 ) 在静态设置中微调阐明智体和执行智体。根据拓扑顺序采样 t - 1 个细节来制作 Ct-1，并根据真值从 Ct-1 中推导出有效的交互链 Et-1。

鉴于动态工具交互，Reflexion（Shinn，2023）已被证实是一种有效的方法，将自反思反馈纳入 ReAct 框架（Yao，2023），可以提高 LLM 的推理能力。然而，当将这种方法应用于主动智体规划时，存在一个潜在的问题：动态执行智体可能会遇到 exempts 的类似类型，并在不同的回合中重复生成相同的理由。为了缓解这个缺点，引入记忆回顾机制来重用来自前几轮的自反思反馈。

给定第 t 轮对话 Ct，执行智体首先生成整个交互链 Et。接下来，根据 Ct 和 Et，阐明智体需要预测澄清需求，并在必要时询问有关 Dt 中的细节问题。如果阐明智体已恢复所有不确定的细节，则规划智体将根据对话 CT 和来自 CT 中的交互 ET 以 JSON 格式生成有效规划。

实验中子任务的基线如下：（1）阐明：设计一种基于规则的仅环境方法，并采用两种仅对话方法，包括主动和主动 CoT (ProCoT) 作为基线 (Deng et al., 2023c) 。由于目前还没有在提出阐明问题时同时考虑环境和对话的方法，直接以对话历史和交互日志作为基线提示 GPT-3.5。（2）工具学习：采用通用暴力算法和三条基线，包括静态执行设置的直接提示以及动态设置的 ReAct (Yao et al., 2023) 和 Reflexion (Shinn et al., 2023)。（3）规划：基线包括静态设置的直接提示、零样本 CoT（Kojima，2023）以及动态设置的 ReAct（Yao，2023）和 Reflexion（Shinn，2023）。此外，贪婪搜索也作为比较基线。