REACT SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS翻译、阅读与理解

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS阅读与理解

摘要

虽然大型语言模型(LLMs)在语言理解和交互式决策方面的表现令人印象深刻,但它们的推理能力(如思维链提示)和行动能力(如行动计划生成)主要是作为单独的主题进行研究的。本文中探索了LLMs的使用,以交错的方式生成推理跟踪和任务特定的操作,允许两者之间更大的协同作用:推理跟踪帮助模型诱导、跟踪和更新操作计划以及处理异常,而操作允许它与外部来源(如知识库或环境)交互并收集额外的信息。方法(称为ReAct)应用于各种语言和决策任务,并在最先进的基线上证明了它的有效性,此外还提高了人类的可解释性和可信度。具体来说,在问答(HotpotQA)和事实验证(Fever)上,ReAct通过与简单的Wikipedia API交互,克服了思维链推理中普遍存在的幻觉和错误传播问题,并生成了比没有推理痕迹的基线更可解释的类似人类的任务解决轨迹。

此外,在两个交互式决策基准(ALFWorld和WebShop)上,ReAct在只有一个或两个上下文示例提示的情况下,其绝对成功率分别超过模仿和强化学习方法的34%和10%。

1 简介

人类智能的一个独特特征是能够将任务导向的行为与言语推理(或内部言语,Alderson-Day & Fernyhough, 2015)无缝结合,理论上这在人类认知中发挥着重要作用,以实现自我调节或策略化(Vygotsky, 1987;仅有1965;Fernyhough, 2010)和维持工作记忆(Baddeley, 1992)。“行动”和“推理”之间的紧密协同作用使人类能够快速学习新任务,并执行强有力的决策或推理,即使是在预先看不见或面临信息不确定的情况下。

最近的研究结果暗示了将口头推理与自主系统中的交互式决策相结合的可能性。一方面,适当prompt的大型语言模型(LLMs)已经展示了执行一些获得算术、常识和符号推理任务中问题答案(Wei et al, 2022)的推理踪迹步骤的涌现能力。然而,这种“思维链(chain of thought)”推理是一个静态黑盒,因为模型使用自己的内部表征来产生思想,不以外部世界为基础,这限制了它的反应性推理或更新知识的能力。这可能导致诸如事实幻觉和推理过程中的错误传播等问题(图1 (1b))。另一方面,最近的工作探索了在交互式环境中使用预训练的语言模型进行规划和行动(Ahn等人,2022;Nakano et al ., 2021;Yao等,2020;Huang等人,2022a),重点是通过语言先验预测行为。这些方法通常将多模态观察转换为文本,使用语言模型生成特定于领域的操作或计划,然后使用控制器选择或执行它们。然而,他们没有使用语言模型对高层次目标进行抽象推理,也没有维持工作记忆来支持行动,这阻碍了Huang等人(2022b)通过有限形式的口头推理来重申关于当前状态的空间事实。除了这些简单的具体化任务与几个块交互之外,还没有研究推理和行为如何以协同的方式结合起来解决一般任务,以及与单独推理或行动相比,这种结合是否能带来系统的好处。

在这里插入图片描述

本文提出了ReAct,这是一种将推理和行为与语言模型相结合的通用范式,用于解决各种语言推理和决策任务(图1)。ReAct提示LLMs以交错的方式生成口头推理痕迹和与任务相关的动作,这允许模型执行动态推理以创建、维护和调整高级行动计划(行动理由)。同时也与外部环境(如维基百科)互动,将额外的信息纳入推理(从行动到推理)

本文在四个不同的基准模型上对ReAct和SOTA模型进行了实证评估:问答(HotPotQA, Yang等人,2018),事实验证(Fever, Thorne等人,2018),基于文本的游戏(ALFWorld, Shridhar等人,2020b)和网页导航(WebShop, Yao等人,2022)。**对于HotPotQA和Fever,通过访问模型可以与之交互的维基百科API, ReAct优于普通的动作生成模型,同时与思维链推理(CoT)竞争(Wei et al, 2022)。**总的来说,最好的方法是ReAct和CoT的结合,它允许在推理过程中使用内部知识和外部获得的信息。 **在ALFWorld和WebShop上,两次甚至一次的ReAct提示能够胜过使用 1 0 3 − 1 0 5 10^3 -10^5 103105个任务实例训练的模仿或强化学习方法,成功率分别提高34%和10%。**本文还展示了稀疏、通用推理在决策制定中的重要性,展示了相对于只有行动的受控基准模型的一致优势。除了一般适用性和性能提升之外,推理和行为的结合还有助于模型的可解释性、可信度和所有领域的可诊断性,因为人类可以很容易地从模型的内部知识和外部环境中区分信息,以及检查推理痕迹以了解模型行为的决策基础。

总而言之,本文主要贡献如下:(1)引入了ReAct,这是一种新的基于提示的范式,用于在语言模型中协同推理和行为,以解决一般任务;(2)在不同的基准测试中进行了广泛的实验,以展示ReAct在几次学习设置中的优势,而不是先前单独执行推理或动作生成的方法;(3)提出了系统的消融和分析,以理解在推理任务中行动的重要性,以及在互动任务中推理的重要性;(4)我们分析了prompt下ReAct的局限性(即对推理和行动表现的有限支持),并进行了初步的微调实验,显示了ReAct在额外训练数据下的改进潜力。扩展ReAct以训练和操作更多的任务,并将其与强化学习等互补范例相结合,可以进一步释放大型语言模型的潜力。

2 .反应:协同推理+交流

考虑一个代理与解决任务的环境交互的一般设置。在时间 t t t, a g e n t agent agent接收到来自环境的观测值 o t ∈ O o_t∈O otO,并根据某个策略 π ( a t ∣ c t ) π(a_t |c_t) π(atct)采取动作 a t ∈ A a_t∈A atA,其中 c t = ( o 1 , a 1 , ⋅ ⋅ ⋅ , o t − 1 , A t − 1 , o t ) c_t = (o_1, a_1,···,o_{t−1},A_{t−1},o_t) ct=(o1,a1⋅⋅⋅ot1,At1,ot) a g e n t agent agent的上下文。当映射 c t → a t c_t →a_t ctat是高度隐式的并且需要大量的计算时,学习策略是具有挑战性的。例如,图1(1c)所示的智能体无法生成正确的最终动作(第4步)来完成QA任务,因为它需要对轨迹上下文进行复杂的推理(问题,第1-3步,任务1-3步)。同样,图1(2a)所示的 a g e n t agent agent未能从上下文理解水槽1不包含胡椒瓶1,因此不断产生幻觉行为。

ReAct的思想很简单:将代理的动作空间扩展到 A ^ = A ∪ L {\hat{A} =A∪L} A^=AL,其中 L L L是语言空间。语言空间中的一个动作 a ^ t \hat{a}_t a^t,称之为思想或推理痕迹,它不影响外部环境,因此没有观察反馈。相反,一个想法 a ^ t \hat{a}_t a^t的目标是通过对当前上下文 c t c_t ct的推理来组成有用的信息,并更新上下文 c t + 1 = ( c t , a t ^ ) c_{t+1} = (c_t, \hat{a_t}) ct+1=(ctat^)以支持未来的推理或行动。如图1所示,可以有各种类型的有用的想法,例如分解任务目标并创建行动计划(2b, Act 1;1d, Thought 1),注入与任务解决相关的常识性知识(2b, Act 1),从观察中提取重要部分(1d, Thought t2, 4),跟踪进度和过渡行动计划(2b, Act 8),处理异常和调整行动计划(1d, Thought 3),等等。

然而,由于语言空间 L L L是无限的,在这个增强的动作空间中学习是困难的,并且需要很强的语言先验。在本文中主要关注冻结的大型语言模型PaLM-540B (Chowdhery等人,2022)的设置(附录A.1中展示了一些GPT-3 (Brown等人,2020)的结果,其性能优于PaLM-540B。),该模型使用少量上下文示例提示生成特定领域的动作和用于任务解决的自由形式的语言思想(图1 (1d), (2b))。每个上下文中的例子都是解决任务实例的人类行动、思想和环境观察的轨迹(见附录C)。对于推理最重要的任务(图1(1)),交替产生思想和行动,以便任务解决轨迹由多个思考-行动-观察步骤组成。相反,对于可能涉及大量动作的决策任务(图1(2)),想法只需要稀疏地出现在轨迹中最相关的位置,因此本文让语言模型自行决定思想和动作的异步发生

由于决策和推理能力集成到一个大型语言模型中,ReAct具有几个独特的功能:a)直观且易于设计:设计ReAct提示非常简单,就像人类注释者只需在他们采取的行动上用语言键入他们的想法。没有特别的格式选择,思想设计,或例子选择在本文中使用。本文将在第3节和第4节中详细介绍每个任务的提示符设计。B)通用性和灵活性:由于灵活的思维空间和思维-动作发生格式,ReAct适用于具有不同动作空间和推理需求的多种任务,包括但不限于QA、事实验证、文本游戏、网页导航等。C)高性能和鲁棒性:ReAct在仅从一到六个上下文示例中学习时,对新任务实例显示出强大的泛化,始终优于仅在不同领域进行推理或行动的基准模型。本文还将在第3节中展示启用调优时的其他好处,并在第4节中展示ReAct的性能对提示选择的健壮性。D)与人类一致和可控:ReAct承诺一个可解释的顺序决策和推理过程,人类可以很容易地检查推理和事实的正确性。此外,人类还可以通过思想编辑在运行中控制或纠正代理行为,如第4节中的图5所示。

3 .知识密集型的推理任务

从知识密集型推理任务开始,比如多跳问答和事实验证。如图1(1d)所示,通过与Wikipedia API交互,ReAct能够检索信息来支持推理,同时也可以使用推理来确定下一步要检索的内容,从而展示了推理和行为的协同作用。

3.1 设置

考虑两个挑战知识检索和推理的数据集:(1)HotPotQA (Yang等人,2018),这是一个多步骤问答测量基准,需要对两个及以上维基百科段落进行推理;(2)FEVER (Thorne等人,2018),这是一个事实验证测试基准,其中每个声明都标注了SUPPORTS、REFUTES或NOT ENOUGH INFO,基于是否存在一个维基百科段落来验证该声明。在这项工作中,为这两个任务都设置了只提问,其中模型只接收问题/声明作为输入,而不能访问支持段落,并且必须依赖其内部知识或通过与外部环境交互来检索知识来支持推理。

动作空间 本文设计了一个简单的Wikipedia web API,其中包含三种类型的操作来支持交互式信息检索:(1)search[entity],如果存在对应的实体wiki页面,则返回前5个句子,否则从Wikipedia搜索引擎中建议前5个类似的实体;(2*)lookup[string]*,将返回包含字符串的页面中的下一个句子,模拟浏览器上的Ctrl+F功能。(3) finish[answer],用answer完成当前任务。值得注意的是,这个动作空间大多只能根据确切的段落名称检索段落的一小部分,这明显弱于目前的词汇检索器或神经检索器。目的是模拟人类如何与维基百科互动,并迫使模型通过语言的明确推理进行检索。

3.2 方法

ReAct Prompting 对于HotpotQA和Fever,从训练集中随机选择6个和3个案例(因为更多的案例并不能改善表现),手动编写ReAct格式的推理轨迹,作为prompt中的少量示例使用。与图1(d)类似,每个轨迹由多个思考-行动-观察步骤(即密集思维)组成,其中自由形式的想法被用于各种目的。具体来说,使用分解问题的思想组合(“我需要搜索x,找到y,然后找到z”),从维基百科观察中提取信息(“x开始于1844年”,“段落没有告诉x”),执行常识(“x不是y,所以z必须是……”)或算术推理(“1844 < 1989”),指引搜索的重构(“也许我可以搜索/查找x”),并综合最终答案(“……所以答案是x ')。详见附录C。

基准模型 系统地删除ReAct推理轨迹以构建多个基准模型的prompt(格式如图1(1a-1c)):(a)标准提示(Standard),它删除ReAct轨迹中的所有想法、动作和观察。(b)思维链提示(CoT) (Wei et al ., 2022),它消除了行动和观察,并作为唯一的推理基线。建立自我一致性基准模型(CoT- sc) (Wang等人,2022a;b),在推理过程中采样21个解码度为0.7的CoT推理轨迹,并采用多数答案,这可以持续提高CoT的性能。©仅行动提示(Act),它删除了ReAct轨迹中的想法,大致类似于WebGPT (Nakano等人,2021)与互联网交互以回答问题的方式,尽管它在不同的任务和动作空间上运行,并使用模仿和强化学习而不是提示。

结合内部和外部知识 将在3.3节中详细介绍,能够观察到ReAct所展示的解决问题的过程更真实和接地气,而CoT在制定推理结构方面更准确,但容易产生事实或想法的幻觉。因此,建议合并ReAct和CoT-SC,让模型根据以下启发式方法决定何时切换到另一种方法:A) ReAct→CoT-SC:当ReAct未能在给定步骤内返回答案时,退回到CoT-SC。为HotpotQA和FEVER分别设置了7和5个步骤,因为更多的步骤不会提高ReAct的性能(在所有最终正确答案的推理轨迹中,HotpotQA上7步和FEVER上5步的轨迹分别只占0.84%和1.33%。)。B) CoT-SC→ReAct:当n个CoT-SC样本中的大多数答案出现少于n/2次(即内部知识可能无法自信地支持任务)时,退回到ReAct。

微调 由于大规模手动注释推理痕迹和动作的挑战,我们考虑了一种类似于Zelikman等人(2022)的自引导方法,使用ReAct生成的3,000个具有正确答案的轨迹(也用于其他基线)来微调较小的语言模型(PaLM-8/62B),以解码基于输入问题/声明的轨迹(所有思想、动作、观察)。详情见附录B.1。

3.3 结果与观察

表1显示了使用PaLM-540B作为基本模型使用不同提示方法的HotpotQA和Fever结果。我们注意到ReAct在这两项任务上都优于Act,这证明了推理对指导行动的价值,特别是在综合最终答案方面,如图1 (1c-d)所示。微调结果也证实了推理痕迹对更明智的行为的好处。

在这里插入图片描述

ReAct vs. CoT 另一方面,ReAct在Fever上的表现优于CoT(60.9比56.3),略微落后于HotpotQA上的CoT(27.4比29.4)。Fever对支持/反驳的主张可能只有轻微的差异(见附录D.1),因此采取行动获取准确和最新的知识是至关重要的。为了更好地理解HotpotQA上ReAct和CoT的行为差异,本文分别从ReAct和CoT中随机抽取50个正确和错误答案(由EM判断)的轨迹(总共200个例子),并在表2中手动标记其成功和失败模式。主要观察结果如下:

在这里插入图片描述

A)幻觉是CoT的一个严重问题,在成功模式下导致的假阳性率远高于ReAct (14% vs. 6%),并且是其主要失败模式(56%)。相比之下,由于外部知识库的访问,ReAct的问题解决轨迹更有基础、事实驱动和值得信赖。

B**)推理、行动和观察步骤交错在提高ReAct的接地性和可信度的同时,这种结构约束也降低了其制定推理步骤的灵活性,导致推理错误率高于CoT。**能注意到有一种特定于ReAct的常见错误模式,在这种模式中,模型重复地生成先前的想法和操作,我们将其归类为“推理错误”的一部分,因为模型无法推理出下一步应该采取什么适当的操作并跳出循环(这可能是由于次优贪婪解码过程,未来使用更好的解码(例如波束搜索)可能有助于解决这个问题。)。

C)对于ReAct来说,通过搜索成功地检索信息知识是至关重要的。非信息性搜索占错误案例的23%,它使模型推理细节化,使其很难恢复和重新形成思想。这可能是事实性和灵活性之间的预期权衡,这激发了本文提出的结合两种方法的策略。

在附录E.1中提供了每种成功和失败模式的示例。还发现一些HotpotQA问题可能包含过时的答案标签,例参见图4。

在这里插入图片描述

ReAct + CoT-SC对LLMs的提示效果最好。从表1可以看出,HotpotQA和Fever的最佳提示方式分别是ReAct→CoT-SC和CoT-SC→ReAct。

此外,图2显示了不同方法在使用的CoT-SC样品数量方面的表现。虽然两种ReAct + CoT-SC方法在每个任务中都是有利的,但它们在不同数量的样本中都显著且始终优于CoT-SC,仅使用3-5个样本就可以在21个样本中达到CoT-SC性能。这些结果表明模型内部知识和外部知识的合理结合对于推理任务的价值。

在这里插入图片描述

ReAct微调表现最好 图3显示了HotpotQA上prompting/finetuning 四种方法**(Standard、CoT、Act、ReAct)**的缩放效果。对于PaLM-8/62B,prompting-ReAct在四种方法中表现最差,因为很难从上下文示例中学习推理和行为。然而,当仅使用3,000个示例进行微调时,ReAct成为四种方法中最好的方法,其中经过PaLM-8B微调的ReAct优于所有PaLM-62B提示方法,而经过PaLM-62B微调的ReAct优于所有540B提示方法。相比之下,对于PaLM8/62B来说,调优Standard或CoT比调优ReAct或Act要差得多,因为前者本质上是教模型记忆(可能是幻觉)知识事实,而后者则教模型如何(推理和)行动以从Wikipedia获取信息,这是一种更通用的知识推理技能。由于所有提示方法与特定于领域的最先进的方法(表1)相差甚远,本文认为使用更多人工编写的数据进行调优可能是释放ReAct功能的更好方法。

在这里插入图片描述

4 . 决策任务

在两个基于语言的交互式决策任务(ALFWorld和WebShop)上测试了ReAct,这两个任务具有复杂的环境,需要代理以稀疏的奖励进行长期行动,从而保证需要推理来有效地行动和探索。

ALFWorld ALFWorld (Shridhar等人,2020b)(图1(2))是一款基于文本的合成游戏,旨在与具体化的ALFRED测试基准保持一致(Shridhar等人,2020a)。它包括6类型的任务,其中agent需要实现一个高层次的目标(如检查desklamp下纸)导航和与模拟家庭通过文本交互行为(例如去coffeetable 1,把纸2,使用desklamp 1)。一个任务实例可以有50多个地点和政策专家50多采取措施解决,因此具有挑战性的一个代理来计划和跟踪子目标,以及探索系统(如一个接一个检查所有desklamp桌子)。特别是,ALFWorld中内置的一个挑战是需要确定常见家庭物品的可能位置(例如,台灯可能在桌子、架子或梳妆台上),使这个环境非常适合LLMs利用他们预先训练的常识知识。为了prompt ReAct,本文从每个任务类型的训练集中随机标注三个推理轨迹,其中每个轨迹包含稀疏的想法(1)分解目标,(2)跟踪子目标的完成,(3)确定下一个子目标,以及(4)通过常识推理在哪里找到一个对象以及如何处理它。在附录C.4中显示用于ALFWorld的prompt。根据Shridhar等人(2020b)的研究,本文在特定任务设置中评估了134个未见过的评估游戏。为了增强鲁棒性,我们通过对我们标注的3条轨迹中的2条轨迹进行排列,为每种任务类型构建了6个prompt。Act prompt使用相同的轨迹构建,但没有想法——因为任务实例是从训练集中随机选择的,它既不支持ReAct也不支持Act,并提供了一个公平和可控的比较来测试稀疏想法的重要性。对于基准模型,使用BUTLER (Shridhar等人,2020b),这是一种模仿学习代理,针对每种任务类型训练了105个专家轨迹(Micheli & Fleuret(2021)在3553个任务实例上对GPT-2模型进行了微调,并取得了比BUTLER更好的性能,但它是在所有任务类型上进行训练的,因此没有作为基准模型。)。

WebShop 在实际应用中,ReAct可以与嘈杂的现实世界语言环境交互吗? WebShop (Yao et al, 2022)是一个最近提出的在线购物网站环境,其中包含118万个真实产品和12k个人类指令。与ALFWorld不同,Webshop包含各种各样的结构化和非结构化文本(例如产品标题、描述和从亚马逊抓取的选项),并要求代理根据用户指令购买产品(例如“我正在寻找一个带抽屉的床头柜,它应该有镍表面,价格低于140美元。”)。通过网络交互(例如,搜索“床头柜抽屉”,选择“颜色:现代镍白”或“返回搜索”等按钮)。该任务通过500个测试指令的平均分数(所选产品覆盖的期望属性在所有集中的平均百分比)和成功率(所选产品满足所有需求的集的百分比)来评估。本文用搜索、选择产品、选择选项和购买的动作来制定Act prompts,ReAct prompts需要额外的推理来确定要探索什么,什么时候购买,以及哪些产品选项与指令相关。参见附录中表6的示例提示,表10中的模型预测。本文比较了模仿学习(IL)方法,用1012条人类注释轨迹训练,另外用10587条训练指令训练了一种模仿+强化学习(IL + RL)方法。

结果 ReAct在ALFWorld(表3)和Webshop(表4)上的表现都优于Act。在ALFWorld上,最佳ReAct试验的平均成功率为71%,显著优于最佳Act(45%)和BUTLER(37%)试验。事实上,即使是最差的ReAct试验(48%)也胜过两种方法中最好的试验。此外,在6个对照试验中,ReAct优于Act的优势是一致的,相对性能增益从33%到90%不等,平均为62%。

在这里插入图片描述

定性地说,在没有任何想法的情况下,Act不能正确地将目标分解为更小的子目标,或者失去对环境当前状态的跟踪。比较ReAct和Act的示例轨迹可以在附录D.2.1和附录D.2.2中找到。

在Webshop上,one-shot Act prompting已经与IL和IL+RL方法表现相当。通过额外的稀疏推理,ReAct实现了明显更好的性能,比之前的最佳成功率提高了10%。通过检查示例,我们发现ReAct更有可能通过推理来识别与说明相关的产品和选项,以弥合嘈杂的观察和行动之间的差距(例如,“为客厅节省空间的奥斯曼长凳”,该项目有“39x18x18英寸”和“蓝色”选项,看起来很值得购买。)然而,现有的方法与人类专家的表现还相距甚远(表4),专家执行更多的产品探索和查询重新配方,这对于基于提示的方法来说仍然是一个挑战。

关于内部推理与外部反馈的价值 据所知,ReAct是第一个将LLM应用于闭环系统内的交互环境的推理和行动相结合的演示。或许最接近的先前研究是Huang等人(2022b)的《内心独白》(Inner Monologue, IM),在该研究中,一个具身主体的行动是由同名的“内心独白”驱动的。然而,IM的“内心独白”仅限于对环境状态的观察,以及agent需要完成什么才能满足目标。相比之下,ReAct中用于决策的推理轨迹是灵活和稀疏的,允许为不同的任务诱导不同的推理类型(参见第2节)。

为了证明ReAct和IM之间的差异,并强调内部推理与对外部反馈的简单反应的重要性,我们使用由类似IM的密集外部反馈组成的思维模式进行了消融实验。从表3中可以看出,ReAct大大优于im风格的提示(ReAct- im)(总成功率为71比53),在6个任务中的5个任务上具有一致的优势。定性地说,由于缺乏高层次的目标分解,ReAct-IM经常在确定子目标何时完成,或者下一个子目标应该是什么的时候犯错误。此外,由于缺乏常见性推理,许多ReAct-IM轨迹难以确定一个项目在ALFWorld环境中的可能位置。

这两个缺点都可以在ReAct范例中解决。关于ReAct-IM的更多细节见附录B.2。在附录C.4中可以找到一个ReAct-IM的示例提示符,在附录D.2.3中可以找到一个示例轨迹。

5 相关工作

语言模型用于推理 也许使用LLMs进行推理的最著名的工作是思维链(CoT) (Wei et al ., 2022),它揭示了LLMs为解决问题制定自己的“思维过程”的能力。此后进行了几项后续工作,包括解决复杂任务的least-to-most prompting(Zhou et al ., 2022),zero-shot-Cot(Kojima et al ., 2022)和自一致性推理(Wang et al ., 2022a)。最近,(Madaan & Yazdanbakhsh, 2022)系统地研究了翻译的形式和结构,并观察到符号、模式和文本的存在对翻译的有效性至关重要。其他工作也被扩展到更复杂的推理架构,而不是简单的prompt。例如,Selection-Inference (Creswell et al, 2022)将推理过程分为“选择”和“推理”两个步骤。STaR (Zelikman等人,2022)通过根据模型本身生成的正确基本原理对模型进行微调,从而引导推理过程。Faithful reasoning(Creswell & Shanahan, 2022)将多步推理分解为三个步骤,每个步骤分别由一个专门的LM执行。类似的方法,如Scratchpad (Nye et al, 2021),在中间计算步骤上对LM进行微调,也证明了对多步骤计算问题的改进。与这些方法相比,ReAct执行的不仅仅是孤立的、固定的推理,还将模型操作及其相应的观察集成到一个连贯的输入流中,以便模型更准确地推理并处理推理之外的任务(例如交互式决策)

语言模型用于决策 LLMs的强大能力使其能够执行语言生成之外的任务,利用LLMs作为决策的策略模型越来越受欢迎,特别是在交互式环境中。WebGPT (Nakano et al ., 2021)使用LM与web浏览器交互,浏览网页,并从ELI5中推断复杂问题的答案(Fan et al ., 2019)。与ReAct相比,WebGPT没有明确地对思维和推理过程进行建模,而是依赖于昂贵的人工反馈来进行强化学习。在对话建模中,像blendbot (Shuster等人,2022b)和Sparrow (Glaese等人,2022)这样的聊天机器人和像SimpleTOD (Hosseini-Asl等人,2020)这样的面向任务的对话系统也训练LM对API调用做出决策。与ReAct不同的是,它们也没有明确地考虑推理过程,并且还依赖于昂贵的数据集和人工反馈集合来进行策略学习。相比之下,ReAct以更便宜的方式学习策略,因为决策过程只需要对推理过程进行语言描述。(人类的反馈也可以以一种互补的方式被纳入,但我们把它留给未来的工作。)

LLMs也越来越多地用于规划和决策的交互式和具体化环境。也许在这方面与ReAct最相关的是SayCan (Ahn等人,2022)和Inner Monologue (Huang等人,2022b),它们使用LLMs进行机器人行动计划和决策。在SayCan中,LLMs被prompt直接预测机器人可能采取的行动,然后由基于视觉环境的功能模型重新排序,以进行最终预测。Inner Monologue通过添加同名的“Inner Monologue”进行了进一步的改进,这是作为来自环境的注入反馈来实现的。据所知,Inner Monologue是第一个展示ReAct所基于的闭环系统的作品。然而,本文认为Inner Monologue并不真正包括"Inner"的想法——这在第4节中详细阐述。本文还注意到,在交互式决策过程中,利用语言作为语义丰富的输入已被证明在其他环境下是成功的(Abramson等人,2020;Karamcheti et al, 2021; Huang等,2022a;Li et al ., 2022)。越来越明显的是,在LLMs的帮助下,语言作为一种基本的认知机制将在互动和决策中发挥关键作用。更重要的是,LLMs的进步也激发了Reed(2022)等Agent的多方面的发展。

6 结论

本文提出了ReAct——一种简单而有效的方法,用于在大型语言模型中协同推理和行为。通过对多跳问答,事实检查和交互式决策任务的各种实验,表明 ReAct具有可解释的决策痕迹,从而具有优越的性能。尽管方法很简单,具有大动作空间的复杂任务需要更多的演示才能学好,不幸的是,这很容易超出上下文学习的输入长度限制。

本文在HotpotQA上探索初步结果令人鼓舞的微调方法,但是从更多高质量的人类注释中学习将是进一步提高性能的必要条件。通过多任务训练扩展ReAct,并将其与强化学习等互补范例相结合,可能会产生更强大的agents,从而进一步释放LLMs的潜力,用于更多的应用。

再现性声明

本文的主要实验是在PaLM上完成的(Chowdhery等人,2022),这还不是一个公开可访问的模型。为了提高可重复性,在附录C中包含了所有使用过的prompts,在附录A.1中包含了使用GPT-3 (Brown et al, 2020)进行的其他实验,并在https://anonymous.4open.science/r/ReAct-2268/中包含了相关的GPT-3 ReAct提示代码。

道德声明

包含了使用GPT-3 (Brown et al, 2020)进行的其他实验,并在https://anonymous.4open.science/r/ReAct-2268/中包含了相关的GPT-3 ReAct提示代码。

道德声明

ReAct促使大语言模型生成比以前的方法更多的人类可解释、可诊断和可控的任务解决轨迹。然而,将大型语言模型与外部环境(例如网络、物理环境)进行交互有潜在的危险,例如查找不适当的或私人的信息,或者在环境中采取有害的行动。本文的实验通过将交互限制在没有私人信息的特定网站(Wikipedia或WebShop),在动作空间设计中没有任何危险动作(即模型不能真正在研究基准WebShop上购买产品,或编辑维基百科)来最小化此类风险。本文认为,在未来设计更广泛的实验之前,研究人员应该意识到这些风险。

  • 24
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清辉依次减

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值