ReAct: 在语言模型中协同推理和动作

普林斯顿大学和谷歌发表在2023 ICLR的论文“React: Synergizing Reasoning And Acting In Language Models“。

虽然大型语言模型(LLM)在语言理解和交互式决策方面的任务中表现出印象深刻的表现,但推理能力(例如思维链提示)和动作能力(例如动作规划生成)主要作为单独的主题进行研究。本文探讨LLM的使用,以插入的方式生成推理跟踪和特定任务的动作,从而在两者之间实现更大的协同:推理跟踪有助于模型诱导、跟踪和更新动作规划并处理异常,而动作与外部来源(如知识库或环境)交互并收集其他信息。

取名ReAct的方法应用于各种语言和决策任务,证明其除了提高可解释性和可信度以外,还在有效性方面超越SOTA基线方法。具体来说,在问答(HotpotQA)和事实验证(Fever)上,ReAct通过与简单的维基百科API交互,克服了思维链推理中常见的幻觉和错误传播问题,并生成类似人类的任务解决轨迹,比没有推理痕迹的基线更具可解释性。此外,在两个交互式决策基准(ALFWorld和WebShop)上,ReAct的性能优于模仿和强化学习方法,绝对成功率分别为34%和10%,其中只有一两个上下文示例提示。

如图所示:(1)比较4种提示方法,(a)标准方法、(b)思维链(CoT,仅推理)、(c)仅动作、(d)ReAct(推理+动作)等,解决HotpotQA(Yang2018)问题;(2) 比较2个提示方法,(a) 仅动作、和 (b) ReAct,去解决 一个AlfWorld 游戏(Shridhar 2020b)。在这两个方法中,省略提示中的上下文示例,仅显示模型(Act,Thought)和环境(Obs)生成的任务解决轨迹。

在这里插入图片描述

考虑智体与环境交互以解决任务的一般设置。在时间步 t 中,智体从环境中接收到 ot 的观察结果,并按照某些策略 π(at | ct) 执行动作,其中 ct = (o1, a1, · · · , ot−1, at−1, ot) 是智体的上下文。当映射 ct → at是高度隐式的并且需要大量计算时,学习策略是具有挑战性的。例如,图(1c) 所示的智体无法生成正确的最终动作(Act 4)来完成 QA 任务,因为它需要对轨迹上下文进行复杂的推理(Question,Act 1-3,Obs 1-3)。同样,图(2a)所示的智体无法从上下文中理解sinkbasin 1不包含peppershaker 1,因此不断产生幻觉动作。

ReAct的想法很简单:将智体的动作空间增加 Aˆ = A ∪ L,其中L是语言的空间。语言空间中的动作aˆt,称之为思维或推理痕迹,不会影响外部环境,因此没有观察反馈。相反,思维aˆt旨在通过推理当前上下文ct来组成有用的信息,并更新上下文ct+1 = (ct,aˆt)支持未来的推理或行动。如图所示,可能有各种类型的有用思维,例如分解任务目标和创建动作规划(图2b,Act1; 1d,Thought1),注入与任务解决相关的常识知识(图2b,Act1),从观察中提取重要部分(图1d,Thought2, 4),跟踪进度和转换动作规划(图2b,Act8),处理异常和调整动作规划(图1d, Though3)等等。

然而,由于语言空间L是无限的,在这个增强的行动空间中,学习是困难的,并且需要强大的语言先验。本文主要关注冻结的大语言模型 PaLM-540B(Chowdhery2022)的设置,提示用少量上下文示例生成特定于领域的动作和用于解决任务的自由格式语言的思维,如图(1d)和图(2b)。每个上下文中的示例都是为解决任务实例而采取的动作、思维和环境观察的轨迹。对于推理最重要的任务,如图(1),交替生成思维和动作,以便任务解决轨迹由多个思维 - 动作 - 观察步骤组成。相比之下,对于可能涉及大量动作的决策任务,如图(2),思维只需要稀疏地出现在轨迹中最相关的位置,因此让语言模型自己决定思维和动作的异步出现。

由于决策和推理功能被集成到一个大语言模型中,ReAct具有几个独特的功能:A)直观且易于设计:设计ReAct提示很简单,因为人类标注只需在他们采取的行动之上用语言输入他们的思维。B)通用和灵活:由于灵活的思维空间和思维-动作出现格式,ReAct适用于具有不同动作空间和推理需求的多样化任务,包括但不限于QA、事实验证、文本游戏和网络导航等。C)高性能和鲁棒性:ReAct对新任务实例表现出很强的泛化性,同时仅从一到六个上下文示例中学习,仅跨不同领域的推理或动作即可始终性能优于基线。D)人类对齐和可控:ReAct承诺一个可解释的顺序决策和推理过程,人类可以很容易地检查推理和事实的正确性。此外,人类还可以通过思维编辑在旅途中控制或纠正智体行为。

ALFWorld(Shridhar2020b)是一款基于合成文本的游戏,旨在与具体的ALFRED基准(Shridar2020 a)保持一致。它包括6种类型的任务,在这些任务中,智体需要通过文本动作(例如去咖啡桌1、拿纸2、用台灯1)导航和与一个模拟家庭交互来实现高级目标(例如在台灯下检查纸张)。一个任务实例可以有50多个位置,并采取50多个步骤来解决专家策略,从而挑战智体规划和跟踪子目标,以及系统地探索(例如,逐个检查所有桌子上的台灯)。特别是,ALFWorld面临的一个挑战是,需要确定常见家居用品的可能位置(例如台灯可能位于桌子、架子或梳妆台上),使这种环境非常适合LLM利用其预训练的常识知识。为了提示ReAct,从训练集中为每种任务类型随机注释三条轨迹,其中每条轨迹都包括稀疏(不连续)的想法,这些想法(1)分解目标(goal),(2)跟踪子目标完成情况,(3)确定下一个子目标(sub-goal),以及(4)通过常识推理在哪里找到目标(object)以及如何处理它。为了鲁棒性,从注释3个轨迹中的2个进行排列,为每个任务类型构造6个提示。提示Act是用相同轨迹构建的,但没有思维——由于任务实例是从训练集中随机选择的,它既不支持ReAct也不支持Act,并提供了一个公平和可控的比较来测试稀疏思想的重要性。对于基线,用BUTLER(Shridhar2020b),这是一种在每种任务类型10^5个专家轨迹上训练的模仿学习智体。

ReAct是否也可以与嘈杂的现实世界语言环境进行交互,用于实际应用?取WebShop(Yao 2022)为例,这是一个最近提出的在线购物网站环境,包含118万个真实世界的产品和12千条人类指令。与ALFWorld不同,网店包含各种各样的结构化和非结构化文本(例如,从亚马逊抓取的产品字幕、描述和选项),并要求智体根据用户指示(例如“我正在寻找一个带抽屉的床头柜。它应该有镍饰面,价格低于140美元”)通过网络交互(例如搜索“床头柜抽屉”,选择“颜色:现代镍白色”或“返回搜索”等按钮)购买产品。该任务通过500份测试说明的平均得分(所选产品涵盖的期望属性在所有事件中的平均百分比)和成功率(所选商品满足所有要求的事件百分比)进行评估。文中制定了提示Act,其中包含搜索、选择产品、选择选项和购买的操作,提示ReAct还进行了推理,以确定探索什么、何时购买以及哪些产品选项与说明相关。实验中比较用1012条人类注释轨迹训练的模仿学习(IL)方法和用10587条训练指令额外训练的模仿+强化学习(IL+RL)方法。

结果如下左右表所示。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值