Tell Me More! Towards Implicit User Intention Understanding ofLanguage Model Driven Agents 论文

摘要 当前语言模型驱动的代理通常缺乏有效的用户参与机制,而鉴于用户指令中普遍存在的模糊性,这一点至关重要。尽管这些代理擅长制定策略和执行任务,但它们在寻求澄清和掌握准确的用户意图方面却举步维艰。为了弥补这一差距,我们引入了 Intention-inInteraction (IN3),这是一种新颖的基准,旨在通过显式查询检查用户的隐性意图。接下来,我们建议将模型专家作为代理设计的上游,以增强用户与代理的交互。利用 IN3,我们实证训练了 MistralInteract,这是一个强大的模型,它可以主动评估任务的模糊性,询问用户意图,并在开始下游代理任务执行之前将其细化为可操作的目标。将其集成到 XAgent 框架中,我们全面评估了增强的代理系统在用户指令理解和执行方面的表现,结果表明,我们的方法在识别模糊的用户任务、恢复和总结关键的缺失信息、设定精确和必要的代理执行目标以及最大限度地减少冗余工具使用方面表现出色,从而提高了整体效率。所有数据和代码均已发布1

图 1:用户与代理交互后,代理执行与隐性意图或显性意图的比较。

1 Introduction 简介

大型语言模型,包括 OpenAI GPT(OpenAI,2022、2023)、LLaMA(Touvron 等,2023a、b)和 Mistral 系列(Jiang 等,2023)在高质量文本和代码生成(Zeng 等,2022;Chowdhery 等,2023;OpenAI,2023;Touvron 等,2023b)、复杂逻辑推理(Wei 等,2022;Gao 等,2023;Yao 等,2022、2023)和使用外部工具(Schick 等,2023;Qin 等,2023、2024)方面取得了长足进步。这些特征使语言模型能够与外界交互并接收反馈作为AI代理来协助用户完成任务(Xi et al, 2023; Wang et al, 2023b),启发了许多专注于代理设计的开源框架,包括BabyAGI(BabyAGI, 2023)AutoGen(Wu et al, 2023b)、CAMEL(Li et al, 2023)、AutoGP(AutoGPT, 2023)和XAgent(XAgent-Team, 2023)等。这些框架通常利用骨干语言模型的卓越能力来理解用户指令并执行用户任务。然而,当前的代理设计很少考虑强大的用户交互,尽管i)用户对代理系统的初始指令通常模糊而简短,并且ii)不同的用户有不同的意图,需要明确的查询和启发。忽视用户明确而具体的需求通常会导致代理任务执行过程中出现“假成功”,即看似完成了目标,但实际上却偏离了用户的真实意图。这强调了在用户-代理交互过程中理解隐性意图的重要性,以进一步提高代理设计的稳健性和效率。当前的代理基准通常假设已完成给定任务,而将用户意图理解排除在评估的重要方面之外。鉴于评估中的这种无知,我们制定了交互意图 (IN3),这是一个基准目标通过显性任务模糊性判断和用户意图理解来测试代理的交互能力。IN3提供了数百个类别的通用代理任务,每个任务都有其模糊性、缺失细节以及每个细节的重要性级别和选项,以激发用户的真实意图。此外,我们提出了一种创新的方法来评估现有的代理系统,其指标通过结合两个强调用户参与的关键方面来解决评估中存在的差距:•指令理解:为了直接评估意图理解的过程,我们定量测量代理对指令模糊性判断的精确度、重要缺失细节的恢复率以及不同场景下用户意图总结的鲁棒性。
•指令执行:为了间接反映意图理解的有效性,我们对比给定初始(模糊)或最终(清晰)用户目标的代理任务执行,并测量代理动作的普遍性、必要性和效率。
由于语言模型是代理设计的核心,我们首先应用来自IN3的抽样任务来测试各种模型的主动交互能力,发现大多数模型严重缺乏判断任务模糊性的能力和全面理解用户意图的主动性。这进一步提出了我们的研究问题:如何通过底层模型强大的意图理解来增强代理系统的交互能力?为了解决这个问题,我们建议在代理设计中集成一个专门负责用户-代理交互的上游模型。如图1所示,为了明确理解用户的具体意图,模型应该在将任务传递给下游执行之前主动明确地询问用户缺失的细节。为了增强这种交互能力,我们在IN3中应用训练拆分任务来构建模拟模型-用户对话记录,这些记录提供明确的初始想法、带有选项的查询轮次、隐含意图的总结以及多样化的用户响应语气
通过对这些对话进行训练,我们将 Mistral7B 改编为 Mistral-Interact,这是一种强大而鲁棒的变体,能够判断用户指令的模糊性,主动查询缺失的细节并提供建议,并明确总结详细而明确的用户意图。
在实验中,我们将 Mistral-Interact 合并到 XAgent 框架(XAgent-Team,2023)中,这是一个用于解决复杂任务的自主代理系统。通过对用户指令理解和代理指令执行的全面评估,我们发现我们改编的 MistralInteract 可以 i)正确判断超过 85% 的任务的模糊性,恢复超过 70% 的最重要的缺失细节,并总结超过 96% 的隐式用户意图而没有遗漏,ii)显着减少过于笼统或不必要的目标数量,并降低代理执行期间的工具调用时间,从而提高整体代理效率。MistralInteract 的性能更符合人类偏好,远远优于之前的 LLaMA 和 Mistral 系列,同时可与闭源 GPT-4 相媲美,但规模要小得多。我们的方法证明了在用户-代理交

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值