点燃语言智能:从思维链推理到语言智体的指南

23年11月论文“Igniting Language Intelligence: The Hitchhiker’s Guide From Chain-of-Thought Reasoning to Language Agents“,来自上交、AWS和耶鲁。

大语言模型(LLM)极大地增强了语言智能领域,在一系列复杂推理任务中的强大经验表现证明了这一点。此外,理论证明阐明了他们的涌现推理能力,有力地展示了在语言环境中的高级认知能力。LLM在处理复杂推理任务方面的显著功效至关重要,它利用了有趣的思维链(CoT)推理技术,迫使它们在得出答案的过程中制定中间步骤。CoT推理方法不仅在增强推理性能方面表现出熟练,而且在增强可解释性、可控性和灵活性方面也表现出熟练特性。鉴于这些优点,最近的研究工作扩展了CoT推理方法,以培养自主语言智体的发展,这种智体能够熟练地遵守语言指令并在不同的环境中执行动作。这篇论文策划了一场深入的讨论,贯穿了重要的研究维度,包括:(i)CoT技术的基本机制,重点是阐明其功效背后的环境和理由;(ii)CoT的范式转变;以及(iii)CoT方法强化的语言智体的兴起。前瞻性的研究途径包括对通用性、效率、定制、可扩展性和安全性的探索。

CoT推理是LLM的一种具有代表性的涌现能力(Wei et al.,2022)。它提供了一种熟练的策略,可以将复杂的问题分解为更小、可管理的子问题,通过逐步的方法系统地实现解决方案。如图所示是CoT推理与直接推理的比较。这种方法通常比直接推理更有效,后者试图同时解决整个问题。

添加图片注释,不超过 140 字(可选)

利用预训练过程中开发的推理能力(Xie et al.,2022;Wang et al.,2023a),CoT提示能够熟练地识别推理过程所必需的核心知识成分,并无缝集成它们的关系,从而构建中间的、连贯的推理步骤(Prystawski&Goodman,2023;Wang&Wang,2023)。在解决这些子问题时,可以使用知识检索和验证工具来进一步增强推理过程(Gou,2023a;Qin,2023b)。将CoT扩展为感知、记忆和推理的综合框架,以LLM为动力的语言智体,已经能够熟练地遵守语言指令,并在现实世界或模拟环境中执行动作(Rawles,2023;Zhang&Zhang,2023)。这些语言智体有两种风格:(i)自主智体(Adept,2022;Richards,2023;Hong,2023;Nakajima,2023)和(ii)通信智体(Park et al., 2023; Wang et al., 2023c; Zhu et al., 2023; Hong et al., 2023)。如图概述了在感知、记忆和推理中使用思维链CoT机制的语言智体框架。

添加图片注释,不超过 140 字(可选)

思维链的概念是指为解决问题或得出答案而产生的一系列中间推理步骤(Wei et al.,2023b),其形式为<input→推理链→output→映射。这种方法通常比传统的直接推理更有效,后者试图同时解决整个问题。例如,标准分类、多选和问答问题通常以<input>的形式利用直接推理→output→映射。

指令通常是短句,用于提示LLM生成所需格式的答案。它们引导LLM在推理过程中一步一步地思考。将指令记为p,根据任务要求,它被设置为不同的文本序列。

将CoT推理的中间过程一致称为“基本原理”。推理可以包括解决方案、中间推理步骤或与问题相关的任何外部知识。将基本原理定义为r。如果r是由LLM生成的,则指令p可以用于获得 r ~ pθ(x,p)。如果r是由人编写的,则可以免除指令p,并且r = f(x),其中f(‧)表示手写操作。

在少样本提示方法中,示例通常被呈现为期望的输入-输出对,每个方法都包含问题、基本原理和答案。在生成测试时间示例的预测之前,示例用作输入输出关系的上下文演示。示例通常连接在输入问题之前。

零样本CoT不要求用户提供示例。相反,它通常依靠指令来促进LLM进行逐步推理,从而生成答案。例如,(Kojima2023)首先使用指令p1(如“让我们一步一步地思考”)引发LLM生成基本原理r,然后使用指令p2(如“答案是”)获得问题和基本原理之后的最终答案。
少样本CoT涉及提供一组具有相关理由的范例。这些示例与问题连接在一起,以提示LLM生成基本原理和答案。

CoT技术已经显示出各种各样的优点,包括提高推理性能、可解释性、可控性和灵活性。

改进的推理性能。CoT有助于LLM推理过程的逐步推进。通过将复杂的多步骤问题分解为中间阶段,CoT将忽略关键细节的风险降至最低。此外,它还确保了将额外的计算资源有效地分配给需要更高推理步骤的问题。许多研究已经最终证明了CoT在广泛领域的有效性,包括算术推理、常识推理和符号推理(Wei,2023b;,Kojima 2023;Wang,2023f)。

改进的可解释性。CoT为LLM的决策过程提供了一个可解释点。将复杂的推理任务分解为一系列相互关联的思想,可以更容易地理解LLM做出的决策或结论背后的潜在逻辑和推理。它揭示了模型是如何得出具体答案的,为调试和确定推理过程可能偏离正确路径的地方提供了有价值的见解。然而,需要注意的是,充分表征支持答案的模型计算仍然是一个悬而未决的挑战(Wei et al.,2023b)。

提高的可控性。通过提示LLM输出一系列相互关联的思想,用户可以对LLM的认知过程施加更大的影响。许多研究(Yao,2023a;Ling,2023)致力于识别和纠正特定思维单元,其推理路径可能偏离了轨道或需要额外信息的地方。这种增加的可控性允许更深思熟虑和准确的答案。

改进的灵活性。在足够大的现成LLM中,通过简单地在零样本CoT的输入问题末尾添加指令或结合用于少样本CoT的示例,可以很容易地提示CoT推理的使用(Wei et al.,2023b)。CoT的灵活性超出了推理任务的范围,使其适用于广泛的领域,包括经典的自然语言处理(NLP)、科学应用和基于智体的系统。

尽管CoT已经显示出有希望的益处,但它可能不是能适合任何条件(Kojima,2023;Wei,2023b;Zhang,2023d):

从工程的角度来看,(Wei2023b)认为CoT推理在三个条件下是有帮助的:(i)使用LLM;(ii)该任务具有挑战性,需要多步骤推理;(iii)在模型大小缩放的同时,直接提示的性能不会显著提高。值得注意的是,(Tay2022)进一步提供了证据,证明在混合去噪函数上预训练的200亿个参数LLM也可以实现有效的CoT推理。否则,CoT技术往往难以处理较小规模的LLM(Wei,2022)。可能会导致幻觉,因为LLM缺乏支持性知识(Zhang et al.,2023d)和较差的推理能力(Magister et al.,2022)。CoT推理在简单的步骤任务中也不太有效,如匹配、序列tokens(Qin et al.,2023a)和单选问题(Chen et al.,2021)。

从理论角度来看,(Prystawski&Goodman2023)证明,当训练数据(可能被视为LLM中的参数知识)由相互影响很大的局部变量簇组成时,CoT推理是有帮助的。这一发现意味着LLM必须具备与任务相关的知识,才能支持CoT推理。我们把这种知识称为核心知识。
由于CoT推理通常由上下文学习(ICL)引发,如零样本CoT和少样本CoT,另一条研究线试图从ICL的角度理解CoT何时工作。(Zhang2023c)表明,当使用不同的样本进行提示时,CoT推理仍然有效。(Wang2023a)发现,与查询相关的理由和正确排序推理步骤是CoT提示有效性的关键。

除了提示之外,在训练语料库中引入LLM的推理材料和必要知识,也大大提高了LLM的CoT推理能力(Yu et al.,2023b)。最近的研究发现,使用代码数据进行预训练(Chung et al.,2022)或使用CoT风格数据进行微调(例如,指令调整)有利于有效的CoT推理(Yue et al.,2023)。也就是说,可以改进在同样LLM的CoT推理,或者可以在较小的模型中诱导CoT推理能力。

基于以上讨论,CoT在两个总体条件下证明了有效性:第一,当使用特别具有至少200亿个参数的LLM时,第二,当LLM中的参数知识包括(i)与手头任务相关的知识片段和(ii)保持强大的相互关联时。

最近的研究采用了实证和理论方法,试图理解CoT有效性的根本原因。

根据经验,(Wei2023b)认为,CoT推理的成功构成了一个多方面考虑的现象,可能涉及各种涌现能力。这些能力包括语义理解、符号映射、主题连贯、算术能力和忠实度。有趣的是,(Zhang-2023c)发现,范例推理中的错误不会导致绩效显著下降。(Wang-2023a)报道了一个类似的观察结果,即LLM可以生成连贯的推理步骤,并实现80-90%以上的性能,尽管在示例中出现了无效的推理步骤。这些发现表明,LLM在预训练后已经具有天生的推理能力(Zhang et al.,2023c;Wang&Wang,2023)。CoT提示指定了一种输出格式,该格式将模型生成规则化,以便在有序且与查询相关的情况下逐步生成(Wang,2023a)。换句话说,CoT技术有助于迫使模型进行推理,而不是教它如何完成推理(Zhang et al.,2023c)。

从理论上讲,贝叶斯推理是从理论角度研究CoT为什么有效的一种流行方法(Prystawski&Goodman,2023;Wang-&-Wang,2023)。(Prystawski&Goodman2023)证明了当训练数据相对于变量之间依赖性表现出局部化结构时,CoT是有效的。在LLM的上下文中,可以解释LLM中的参数知识包括与目标问题相关的知识片段,并且这些知识片段彼此之间具有强大的相互联系。为了验证这一证据,(Bi2023)对代码数据进行了实证研究,发现数据的局部结构特性对提高CoT推理能力至关重要。(Prystawski&Goodman2023)和(Bi2023)的这些发现有力地表明,CoT可以帮助识别用于推理的核心知识片段,并将其与中间推理步骤之间的关系联系起来。同样,(Wang&Wang2023)使用知识图进行分析,发现将已知事实组织为“链”,即CoT,会显著影响推理的有效性。通过这样做,LLM能够从已知事实中准确地推断出以前未见过的事实,回答给定的查询,无需显式地编码推理规则。

在阐明了决定CoT何时有效以及为什么有效的一般条件后,对CoT对LLM的推理能力的改进有更深刻和直观的理解。截至2023年10月,总结CoT在七个最具象征性的推理任务中的最佳性能。将这些性能与没有CoT的性能进行了比较,在如图展示。这七项推理任务跨越不同的类别,包括:(i)算术推理:GSM8K(Cobbe et al.,2021)、AQuA(Ling et al.,2017)和SVAMP(Patel et al.,2020);(ii)常识推理:CSQA(Talmor,2019)和战略QA(Geva,2021);(iii)符号推理:最后一个字母连接(Wei,2023b)和硬币翻转(Wei et al.,2023b)。

添加图片注释,不超过 140 字(可选)

上图清楚地表明,复杂推理任务中的基准性能发展迅速,CoT对LLM在所有七个任务中的推理能力产生了重大影响。值得注意的是,除了常识性推理之外,(Wei2023b)提出的相对简单的CoT格式,Manual-CoT,与算术和符号推理中的直接提示相比,大大提高了整体准确性。
随着人们对CoT的兴趣越来越大,研究人员不断努力利用它的全部潜力来增强LLM的推理能力。如图所示是CoT概览图,包括在三个关键方向:(i) 提示模式(指令生成和范例生成);(ii)推理格式(CoT公式、推理聚合和CoT验证);以及(iii)应用场景(多语言、多模式和通用任务)。

添加图片注释,不超过 140 字(可选)

提示模式主要可分为两个部分:指令生成和范例生成。指令生成主要侧重于找到提示LLM的最佳指令,能够进行逐步推理,而不是直接回答问题。这种方法的主要目的是最大限度地提高LLM的零样本能力。示例生成主要集中于找到少样本CoT最佳输入-输出的示范示例对集合。这些示例用于提示LLM和测试输入,使模型能够预测相应的输出。

推理格式的增强主要包括三个方面:CoT公式化、推理聚合和CoT验证。CoT公式侧重于将顺序CoT转换为各种认知结构,如树、图或表格格式,从而结合结构思维线索。推理聚合主要涉及通过聚合从LLM采样的结果来增强LLM-CoT推理精度。CoT验证主要强调引入验证方法来验证和修改CoT推理过程。

如图是CoT的公式变化,按时间顺序说明了五种具有代表性的CoT公式:(i)思维链(CoT),(ii)思维程序(PoT)(Chen et al.,2022),(iii)思维表(Tab-CoT)(Ziqi&Lu,2023),(iv)思维树(ToT)(Yao et al.,2023a),(v)思维原理图(GoT-rationale)(Besta et al.,2021)。

添加图片注释,不超过 140 字(可选)

CoT验证最初侧重于通过多轮提问进行自我验证,使模型能够验证自己的回答。后来的工作涉及利用外部工具进行信息验证,如信息检索、计算器或程序执行。

LLM能否进行可靠的CoT验证?尽管CoT验证方法作为提高推理性能和可靠性的补救措施,但验证的作用和有效性仍受到质疑。最近的工作试图检验LLM在推理任务中的自我验证能力(Valmickam,2023;Huang,2023a;Stechly,2022)。(Huang2023a)发现,在CoT验证研究中观察到的增强通常是通过使用启示oracles来促进的,启示oracles使用基本事实标签、外部工具或来自环境的反馈来指导自我纠正过程,评估响应的正确性。然而,重要的是,要注意在现实世界的应用中获得高质量的外部反馈是具有挑战性的。在没有启示oracle的情况下,LLM仅仅依靠其固有能力纠正初始响应遇到了困难——这是不完美验证。在不完美验证场景中,LLM倾向于不存在违规行为,并用假阳性过度纠正推理过程——直接绕过正确的解决方案,尤其是在验证过程中出现错误时(Valmickam,2023)。这一现象引发了人们对LLM准确评估其推理过程正确性的内在能力的担忧。很明显,实现有效CoT验证的关键在于利用外部高质量的反馈进行验证。例如,将搜索引擎和计算器等外部工具集成到验证过程中已经证明是有益的(Chen,2022;2023d;Olausson,2023;Pan,2024)。

受上述增强LLM推理能力的启发,CoT技术随着其应用场景的变化显示出更大的影响。应用场景的转变包括从单语言任务扩展到多语言任务,从单模态扩展到多模态,从复杂推理任务扩展到通用任务。

如图是多模态CoT的公式化。将CoT中的多模态分为两种类型:(i)输入多模态:各种模态,如文本、图像(Zhang et al.,2023d)、字幕(Huang et al.,202 3b)和图(Tao2023c)被纳入模型的输入中;(ii)输出多模态:包括文本和图像在内的多模态(Rose et al.,2023)被引入模型的输出中。

添加图片注释,不超过 140 字(可选)

CoT推理对人工智能社区产生了更广泛的影响,特别是推动了现实生活中自主智体的发展。构建能够在不同环境中学习和动作的智能自主智体是人工智能(AI)的长期目标(Searle,1969;Wooldridge&Jennings,1995;Maes,1995;Hendler,1999;Wang,2023b;Xi,2023;Zhou,2023d)。CoT推理方法已被用于感知、记忆和推理,即语言智体,从而实现了在日益复杂的环境中的交互。这些能力是开发自主智体的基础,通过人-智体和智体-智体之间的协作来帮助解决复杂任务。

因此,在CoT技术的支持下,基于LLM的语言智体已经出现在广泛的研究领域,如工程(Li,2023a;Mehta,2023;Qian,2024)、自然科学(Bran,2025;Kang&Kim,2023,Boiko,2026)和社会科学(Aher,2027;Akata,2028;Ma,2029;Dan,20210)。这些语言智体能够在真实世界或模拟环境中遵循语言指令并执行动作。如图展示了自主控制(Rawles et al.,2023;Jiang et al.,2022)、研究(Bran et al.,2021;Boiko et al.,2020)、编程(Bairi,2023)和交互(Park et al.,202)等智体的代表性应用场景。

添加图片注释,不超过 140 字(可选)

现有智体的详细技术比较如表所示。具体来说,将记忆模块分为两种主要类型:短期记忆和长期记忆。短期记忆本质上是动态的,可以通过提示轻松地读写。最常见的短期记忆形式是聊天记录。另一方面,长期记忆是静态的,通常存储在数据库中,可以通过各种检索方法访问,包括树搜索、文本搜索和矢量检索。对于外部工具模块,将工具分为三种类型:Web搜索(Web)、代码解释器(Code)和其他工具(other)。

添加图片注释,不超过 140 字(可选)

与RL智体相比,语言智体有哪些新功能?开发通用智能智体一直是人工智能研究的长期目标。在早期阶段,对智体的研究主要是RL技术(Wilkins,2014;Mnih,2015)。RL智体被训练通过与环境的迭代交互来做出决策,接收奖励或惩罚形式的反馈——正确的动作会得到奖励,而错误的动作会受到惩罚。这个迭代过程旨在最大限度地减少错误并最大限度地做出准确的决策。RL智体具有一个关键特性:通过与环境的持续相互作用进行自我进化的能力(Bai,2023a)。然而,RL智体面临一些限制。其严重依赖专家数据,并为特定任务精心设计奖励函数。因此,它们的有效性往往局限于单个任务,阻碍了对新任务或领域的泛化能力(Kim et al.,2023a)。此外,RL智体的内部工作往往缺乏透明度和可解释性(Lundberg&Lee,2017;Yang,2018)。相反,语言智体利用LLM中嵌入的常识先验与RL智体区分开来。这些先验减少了对人工注释和试错学习的依赖,使其能够轻松适应新的任务或环境,并允许更好地利用CoT进行解释(Yao,2022;Shah,2023)。然而,语言智体在响应环境变化而进化其参数方面面临挑战,主要是因为它们主要通过提示或微调LLM的高昂成本来适应环境。虽然最近对语言智体的研究,如Retroformer(Yao et al.,2023b),已经结合了类似RL的策略来增强语言智体的能力,但重点仍然主要局限于语言推理任务。它有望看到如何弥合RL代理和语言代理之间的差距,以促进未来的体系结构在复杂环境中以强大的性能和高可解释性工作。考虑到RL智体和语言智体的优缺点,如下表提供更多详细信息。

添加图片注释,不超过 140 字(可选)

从技术实践的角度总结语言智体的一般概念框架,如图所示:给定用户指令(也称为目标),智体需要通过跨环境的多个交互步骤来完成任务,可能需要使用工具进行操作;在不丧失通用性的情况下,在引入框架时将重点放在单个智体上。值得注意的是,在多智体环境中,多智体可以相互合作或竞争。

添加图片注释,不超过 140 字(可选)

智体主干模型。语言智体可以建立在单一模态LLM或多模态LLM上。完成一项任务通常需要多个交互步骤。整个过程被称为一集(episode),由一系列的转折组成。为了完成任务,智体需要提前规划,做出决定,并在每一集的转折点执行行动。规划、决策和行动执行的过程可以反映LLM的推理能力,因为LLM暴露在LLM预训练期间不存在的真实世界或虚拟环境中。在这种环境中,LLM必须感知世界的知识并采取行动,在这种情况下,CoT有助于弥合环境感知与LLM天生能力之间的差距。这样的智体扩展了语言模型的范围,在特定领域竞争,包括应用程序操作、网络搜索和网络购物。有两种流行的语言智体:自主和交际。自主智体的典型例子是AutoGPT(Richards,2023)、BabyAGI(Nakajima,2023)。相反,交际智体是具有人类行为的个性化和社会化智体,可以相互交流(Park et al.,2023;Wang,2023c;Zhu,2023)、合作(Hong et al.,2021;Qian2022)和辩论(Liang et al.,2020 3;Du2021 3;Xiong2023a)。它们通常部署在身临其境的环境中。

环境交互。语言智体的一个内在特征是与环境交流、互动和进化。这样的环境包括操作系统、第三方应用程序、网页和虚拟环境。LLM使用两种方法处理环境,即环境解析和多模态感知,这取决于LLM是否有能力对多模态输入进行建模。环境解析是指利用OCR和图标检测器等外部工具(Zhang et al.,2021;Sunkara et al.,2022)将环境解析为文本元素(例如,HTML布局)作为LLM的输入方法。相比之下,多模态感知,也称为第一原理思维(Zhang&Zhang,2023),是指使用多模态LLM同时处理不同模态的输入。为了构建多模态LLM,一种流行的方法是使用简单的投影矩阵将预训练的大型视觉模型(例如,CLIP(Radford,2021)和BLIP-2(Li,2023c),集成到LLM中(Liu,2023b;Zhang,2023a)。最近的研究还探索了将不同模态的输入建模到同一向量空间中,从而导致任意-到-任意表示学习(Huang et al.,2023b;Wu et al.,2021;Moon et al.,202)和交织多模态表示学习(Li et al.,2020 3b;Zhao et al.,2022)。

工具使用。工具的使用可以被视为语言模型能力边界的扩展,补偿了用于推理的参数知识,并奠定了语言模型与环境交互的能力(Qin et al.,2023b)。正在发挥作用的工具包括知识库、搜索引擎、代码解释器、在线模型、应用程序、数据库,甚至是专门为特定任务创建的定制工具,克服了通用API的限制(Li,2023d;Schick,2023;Cai,2023%;Zhou,2023d;Team,2023)。工具使用的目的有三个方面:

  • 动作执行。语言模型不仅仅局限于预测下一个动作;它有能力在真实环境中执行它。这包括从通过网页上的JavaScript元素选择执行代码或查询(Zhou等人,2023c),到通过代码解释器或编译器执行程序(Gur等人,2023;Ni等人,2022;Dídac等人,2024;Ruan等人,2023a;Gou等人,2023b),与充当可调用API的在线专家模型交互(Shen et al.,2023;Patil et al.,2021;Ge et al.,2020)。这些步骤可以根据任务要求和计算能力通过工具集的有效缩放进行动态调整(Yuan et al.,2023)。
  • 外部知识获取。检索增强已被证明是非常有效的,被视为缓解事实缺陷的标准解决方案(Trivedi,2022;Yao,2022)。为了增强CoT过程的能力,可以通过搜索引擎访问最新的知识(Khattab,2022;Nakano,2021),而通过专家候选人访问特定领域的知识(Bran,2023;Ge et al.,2023)。使用工具的目的不仅仅是扩大语言模型的范围;其使语言模型能够适应复杂的环境或庞大的应用生态系统,并确保信息语言模型能够访问的应用生态是最新的,并确保该信息语言模型可以访问的也是最新,从而降低生成非事实信息的倾向(Wang et al.,2023b)。
  • 推理和验证。在推理过程中,语言模型有时容易出错。提供准确、实时知识的工具可以帮助纠正推理错误,并制定更准确的答案。这些工具的证据片段被用来重写初始输出以进行自我校正(Gou,2023a)。代码LLM可以通过程序执行器的执行结果进行进一步验证(Ni,2023)。涉及深度优先或广度优先方法的多工具和多步骤规划和检索策略可以用于深度或不同范围的可能途径(Liu et al.,2023e;Qin et al.,2021)。

语言智体被置于与外部环境的交互循环中(Sumers,2023)。接口循环可以通过三种方式引出,即感知、记忆和推理。CoT方法从所有三个角度赋予智体权力。

如图展示的多模态感知方法包括(a)以语言为中心的方法;(b) 图像中心法;(c) 统一的方法。

添加图片注释,不超过 140 字(可选)

以语言为中心的认知是未来吗?多模态感知是实现通用人工智能的关键步骤之一。当前的趋势可能受到语言模型推理能力的启发,主要采用以语言为中心的感知方法,即图(a)。通常,使用不同的编码器来处理来自各种模态的输入,例如图像。然后,通过交叉注意或补充适配器将产生的编码链接到现有的语言模型,促进将多模态输入集成到语言模型的嵌入空间中(Alayrac,2022;Liu,2023a;Wu,2023;Dress,2023;Chen,2023c;Bai,2023b;Zhang,2023a)。与这种流行的以语言为中心建模相反,(Rust2023)提出了一种以图像为中心的方法,如图(b),将文本渲染为图像,能够基于正交相似性或像素的同激活在语言之间传递表示。为了更好地调整来自不同模态的输入,并方便地放大模型参数,最近的研究工作探索了一种统一的方法,如上图(c)。例如,在视觉语言模态的上下文中,图像块被视为token并线性投影到Transformer的嵌入层中,而不是采用单独的图像编码器。然后将这些补丁与语言token的表示融合,实现无缝集成(Huang,2023b;Bavishi,2023)。

短期记忆。短期记忆是作为时间信息形成的,可以在一集(episode)的不同步骤中改变,注:在(Sumers2023)中也称为工作记忆。短期记忆更具时间特异性,提供了明确的、最近的上下文,有助于智体工作。一方面,短期记忆显示出对当前状态的直接支持和更密切的关系。另一方面,短期记忆对整个环境的影响相对较小。例如,短期记忆可以在多步骤任务的一集、动作链史(Zhang&Zhang,2023)或多跳问答的最后几跳理由或子问题中建模(Yao et al.,2022;Khattab et al.,2020)。由于具有显著的时间特征,短期记忆很少引起存储问题。

长期记忆。长期记忆为智体提供了在事件中保留和回忆静态信息的能力(Weng,2023)。与短期记忆相比,长期记忆对任务更为普遍,是对整个世界的宏观和抽象理解。这可以包括存储生产系统本身的过程记忆、存储关于世界事实的语义记忆以及存储智体过去行为序列的情节记忆(Sumers,2023)。例如,给定一个目标,对最新帖进行投票,在不同的环境状态下,观察到实现该目标的两个动作链:(i)[打开Instagram,转到主页,查看最新帖,对最新帖进行投票]和(ii)[转到主页屏幕,打开Instagram、转到主页看帖,对最近帖进行投票]。可以发现,核心动作[打开Instagram、进入主页、查看最新帖、投票支持最新帖]可以作为实现这一目标的长期记忆,即静态记忆链。长期记忆可以依赖于参数和非参数知识存储。它们可以来自语言智体的可训练参数,也可以作为检索系统利用的外部知识来维护。例如,前一集的早期跳是来自智体参数的长期记忆,输出动作公式是参数长期记忆。

实现高效的记忆操作。在智体与环境的交互过程中,随着序列的延长,将记忆建模为线性自然语言序列变得低效。此外,LLM的上下文窗被预先确定为长度有限。为了追求更有效的记忆操作,最近的研究探索了两种类型的方法,即利用(i)树搜索和(ii)向量检索。
受LLM逐步推理能力成功启发,CoT也被应用于通过规划或决策诱导智体推理。更重要的是,语言智体的CoT方法需要仔细设计来处理动作执行和状态观察。

推理和行动之间的差距是通过将思维、行动和观察交织在一起来弥合的(Yao,2022;Khattab,2022;Shinn,2023)。通过探索使用LLM以交错的方式生成CoT跟踪和任务特定动作,已经发现推理和动作实现了相互促进。推理跟踪有助于模型制定行动规划和处理异常,而动作则允许LLM与外部来源(如知识库或环境)对接,收集额外的信息用于知识支持。(Xu et al.,2023b)将推理过程与外部观察分离,减少CoT的多个步骤中的token消耗。

同样,AgentBench(Liu et al.,2023c)强迫语言智体通过“思考”和“行动”步骤完成任务。此外,(Zhang&Zhang2023)提出了一种动作链技术——利用一系列中间的先前动作历史和未来动作规划——来帮助智能体决定执行什么动作,将决策转化为CoT推理问题。

如何扩大智体的能力?目前,主流的兴趣是应用CoT提示方法,在与环境的交互过程中激发LLM的推理能力,如上所述。基本假设是LLM已经具备了作为相关任务的语言智体先验知识,而CoT提示方法在调用这些知识方面是有效的。这些提示技术具有灵活性和方便性优点,因为它易于根据任务要求和特点设计和调整提示。然而,LLM的性能已被证明对提示很敏感,并且缺乏证据表明LLM实际上可以从提示中学习域知识。因此,纯粹的提示方法可能不足以使LLM推广到新领域。

为了扩展语言智体的能力边界,最近人们对在精心策划的数据集上微调LLM构建有效的智体产生了兴趣。(Chen2023a)呼吁,当目标任务和数据格式已知并且可以收集到足够的数据时(例如,可能使用GPT-4自动收集),重新考虑微调语言模型。结果表明,微调不仅可以获得较强的泛化能力和鲁棒性,而且可以提高性能。(Gou2023b)策划了由自然语言CoT和工具集成程序组成的交错工具使用数据。然后,在这些高质量的注释上训练了一个工具集成的推理智体,并在各种数学推理任务上获得了显著的性能提升。

尽管LLM、CoT推理和语言智体领域取得了快速进展,但仍有许多有希望的挑战需要更深入的探索,特别是在对看不见的领域进行泛化、在冗余交互中提高效率、开发可定制的智体、扩大语言智体、确保语言智体的安全以及能力评估方面。

  • 13
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值