基于大语言模型智体的终身学习：路线图-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/145151977

25年1月来自华南理工大学、MBZUAI和腾讯公司的论文“Lifelong Learning of Large Language Model based Agents: A Roadmap”。

终身学习，也称为持续或增量学习，是推进通用人工智能 (AGI) 的关键组成部分，它使系统能够在动态环境中不断适应。虽然大语言模型 (LLM) 在自然语言处理方面表现出令人印象深刻的能力，但现有的 LLM 智体通常是为静态系统设计的，缺乏随时间的推移适应新挑战的能力。本综述首次系统地总结将终身学习纳入基于 LLM 智体的潜在技术。将这些智体的核心组件分为三个模块：用于多模态输入集成的感知模块、用于存储和检索不断发展的知识记忆模块以及用于与动态环境进行扎实交互的动作模块。其重点介绍这些支柱如何共同实现持续适应、减轻灾难性遗忘并提高长期绩效。本综述为致力于开发 LLM 智体终身学习能力的研究人员和从业者提供路线图，提供对新兴趋势、评估指标和应用场景的见解。

终身学习 [1], [2]，也称为持续学习或增量学习 [3], [4]，已成为智能系统开发的一个重点。如图所示，近年来，终身学习引起了越来越多的研究关注。它在使这些系统能够随时间的推移不断适应和改进方面起着至关重要的作用。正如 Legg [5] 所指出的，人类智能从根本上讲就是快速适应各种环境，这凸显人工智能系统需要表现出同样的适应性。终身学习是指系统获取、整合和保留知识的能力，同时避免忘记以前学到的信息。这种能力对于在动态、复杂环境中运行的系统尤其重要，因为在这种环境中，新任务和新挑战经常出现。与通常在固定数据集上进行训练并针对特定任务进行优化的传统机器学习模型相比，终身学习系统旨在不断发展。它们积累新知识，并在遇到新情况时不断完善其能力。

请添加图片描述

尽管人工智能具有巨大潜力，但其进步与终身学习的实际应用之间仍然存在巨大差距。虽然人类可以自然地整合新知识，同时保留旧知识，但当前的人工智能系统在终身学习中面临两大挑战：灾难性遗忘 [6] 和可塑性丧失 [7]，[8]。这些挑战形成稳定性-可塑性困境 [9]。一方面，灾难性遗忘发生在系统学习新任务时忘记以前学习过的信息时，这在环境发生变化时尤其成问题。另一方面，可塑性丧失是指系统无法适应新任务或环境。这两个问题代表学习范围的两端：静态系统避免遗忘但缺乏适应能力，而专注于适应的系统则面临忘记过去知识的风险。克服这一困境是推动人工智能发展的关键，也是迈向通用人工智能 (AGI) 的一项基础性挑战 [5]。

大语言模型 (LLM) [11]、[12] 的最新进展极大地改变自然语言处理领域。GPT-4 [12] 等模型旨在通过从大量文本数据中学习来处理和生成类似人类的文本。由于它们能够理解复杂的语言模式，因此在文本生成、机器翻译和问答等任务中表现出色。然而，传统的 LLM [11]、[12] 在训练后是静态的，这意味着它们一旦部署就无法适应新任务或环境。它们的知识是固定的，如果不重新训练，它们就很难整合新信息，这限制它们在动态现实世界场景中的适用性。

相比之下，LLM 智体代表一种更高级的人工智能形式。与处理输入文本并根据先前的训练生成输出的标准 LLM 不同，LLM 智体 [13]、[14] 是能够与环境交互的自主实体。这些智体可以感知多模态数据（例如文本、图像、传感数据），将这些信息存储在内存中，并采取行动来影响或响应周围环境 [15]–[17]。LLM 智体旨在不断适应新环境，它们从互动和经验中学习，随着时间的推移提高决策能力。

如图 LLM 与 LLM 智体之间的终身学习比较。（a）传统的 LLM 终身学习范式，其中 LLM 被视为没有环境反馈的静态黑盒子系统；（b）LLM 智体的新型终身学习范式，其中智体与不断变化的环境进行交互。

请添加图片描述

如图提供相关说明：终身 LLM 智体可以适应其环境并通过交互实现行为进化。

请添加图片描述

在实际应用中，LLM 智体有望适应各种环境，如游戏、网页浏览、购物、家务和操作系统，而无需为每种新环境设计单独的智体。通过整合终身学习能力，这些智体可以克服这些限制。它们不断学习和存储来自多种模态（例如视觉、文本、感官数据）的知识，从而能够在环境变化时进行实时适应和决策 [18]–[21]。将终身学习融入 LLM 智体可充分发挥其在动态实际应用中的潜力 [22], [23]。因此，这些智体可以不断进化，获取新知识并保存关键信息，从而增强其适应性和多功能性。这种持续的学习过程对于经常出现新挑战的环境至关重要，例如自主机器人、交互式助手和自适应决策支持系统 [14]。如图提供终身学习 LLM 智体的图示。

请添加图片描述

本调查全面概述为基于 LLM 的智体开发终身学习系统所涉及的关键概念、技术和挑战。下表总结本文与现有综述之间综述的联系和差异。“范围”：LLM 表示大型语言模型，LL 表示终身学习，NLP 表示自然语言处理。V 符号表示调查明确针对给定领域。

请添加图片描述

终身学习，其理念是智能系统应该像人类一样，在较长时间内不断获取、改进和保留知识。与传统的机器学习方法不同，传统的机器学习方法假设可以访问固定的、静止的数据集，而终身学习框架面临的现实是数据和任务会随着时间的推移而发展，模型必须适应而不忘记以前掌握的技能。如图显示终身学习的发展。

请添加图片描述

人类和神经科学观点：终身学习的原则从人类认知发展中汲取灵感。人类不会在固定的数据集上进行训练；相反，这里从多样化和不断变化的经验中积累知识 [34]。人类大脑中的记忆巩固涉及海马体和大脑皮层之间的复杂相互作用，可确保新学习不会完全覆盖旧记忆。神经科学中对突触可塑性和学习的研究有助于为算法提供信息，这些算法试图在适应新信息的同时保留和整合先前获得的表征。将这些原理融入神经网络一直是一个长期的挑战，也是终身学习研究的动力 [35]–[37]。

LLM 的终身学习

随着大规模预训练的出现，尤其是在语言模型中，人工智能的格局已经重塑。像 GPT-3 [11] 这样的 LLM 引入上下文觉察的词语表示，使模型能够高效地执行各种自然语言处理 (NLP) 任务。LLM 中的终身学习最初侧重于传统的 NLP 任务，例如文本分类、机器翻译和指令跟踪。在此期间开发的技术包括参数高效的微调 [11]、[47]、检索增强学习 [48] 和基于提示的自适应 [11]。这些方法使 LLM 能够不断整合新的语言知识并适应不断发展的语言模式，而无需进行大量的再训练，从而提高其在既定的 NLP 基准上的性能。这一时期的关键应用和方法包括：
持续预训练：在域特定语料库或新数据集（如维基百科）上对模型进行持续预训练，吸收最新知识或适应更多语言 [49]。

持续指令调整：对模型进行增量微调，以提高其遵循各种指令的能力，增强其在摘要、翻译和指令遵循等各种任务中的表现 [50]，[51]。
持续对齐：确保模型在学习新任务时，其输出与人类价值观、道德准则和用户偏好保持一致，从而保持可信度和相关性 [52]。
持续知识编辑：处理 LLM 中过时或不正确的信息，有效降低出现幻觉或不准确输出的风险 [53]，[54]。

LLM 智体的终身学习

从 2023 年左右开始，终身学习的重点已从传统的 NLP 任务扩展到基于 LLM 智体所体现的更现实、更复杂的应用。与主要处理文本生成和分类等任务的 LLM 不同，基于 LLM 智体旨在与动态环境交互并执行复杂的任务，如在线购物、家庭管理、操作系统操作等。这些智体需要高级终身学习能力来管理多模态输入、执行连续的决策过程，并在各种不断发展的任务中保持一致的性能。

这一时期的主要进步包括：
动态任务适应：开发可以在不同任务之间无缝切换的模型，而不会影响先前学习的任务的性能 [21]–[23]。
多模态集成：增强智体处理和集成来自多种模态（例如文本、图像和传感器数据）信息的能力，以执行复杂的现实世界任务 [18]–[20]。
记忆和知识管理：实现复杂的记忆系统，使智体能够保留和有效检索过去的经验，从而促进更好的决策和知识转移 [55]–[57]。
强化学习集成：将终身学习与强化学习技术相结合，使智体能够在交互环境中不断学习最优策略 [15]、[33]、[58]。
外部知识集成：使智体能够利用外部工具和数据库来增强其能力，以及集成检索机制以动态访问相关信息 [48]、[59]。
更广泛的现实世界应用：开发能够维持长期对话、适应用户偏好并在网络或游戏环境中执行任务的聊天机器人和交互式智体 [60]– [62]。

这些进步使基于 LLM 的智体能够在更具交互性和不可预测的环境中运行，反映现实世界的复杂性。例如，在线购物助理不仅必须理解和生成自然语言，还必须浏览产品数据库、处理用户偏好并随着时间的推移适应新的产品类别。同样，家庭管理智体必须整合来自摄像头的视觉输入、解释语音命令并学习管理各种家用设备，同时保留来自先前交互的知识。

基于 LLM 终身学习智体架构旨在不断调整、整合和优化其在一系列任务和环境中的行为。三个实现终身学习的基本模块包括：感知、记忆和行动。这种划分遵循先前工作 [14] 中引入的框架，但有一个显着的区别：没有保留“大脑”模块，而是采用 [14] 中提出的“记忆”模块，提供更清晰的功能和更好的模块化。如图提供此整体架构的说明：

请添加图片描述

每个模块都与其他模块交互，以确保智体可以处理新信息、保留有价值的知识并选择适合上下文的操作。这三个模块的基本原理源于智体需要 (i) 感知和解释不断变化的数据，(ii) 存储和管理来自过去经验的知识，以及 (iii) 执行适应不断变化的情况的任务。
这些模块形成一个动态反馈回路：感知模块将新信息传递给记忆模块，在那里存储和处理。然后，记忆模块指导动作模块，影响环境并为未来的感知提供信息。通过这个连续的循环，智体逐渐完善其知识并提高其适应性，最终提高其在复杂、动态环境中的表现。
如图总结该综述的组织：

请添加图片描述

感知模块

基于 LLM 的终身学习型智体的感知模块，负责从环境中获取和整合信息。与通过感官输入不断更新理解的人类类似，智体必须感知和处理不同的数据源，才能在不同任务中保持有效。该模块在根据新的或不断发展的环境调整智体的行为方面起着至关重要的作用。
将感知模块分为两个主要类别：单模态感知和多模态感知。

单模态感知：这是指智体从单一模态（通常是文本信息）中不断学习的能力。这使智体能够开发深度领域特定知识，例如理解网页或参与游戏或其他专门任务中的文本交互。

多模态感知：这扩展智体将来自多种模态（例如视觉、听觉和文本数据）的信息整合到对环境统一理解中的能力。通过结合这些不同的感官输入，多模态感知使智体能够形成更全面、更强大的理解，这对于需要来自各种来源的背景信息的任务（例如，机器人控制、多媒体分析）至关重要。

单模态和多模态感知的集成使基于 LLM 的智体能够不断学习并适应多样化、不断变化的环境。

记忆模块

终身学习型 LLM 智体中的记忆模块，允许智体存储、保留和回忆信息——这对于从过去的经验中学习和改进决策至关重要。记忆是智体发展连贯的长期行为、做出明智决策以及与其他智体或人类进行有意义互动的能力基础。因此，记忆模块支持智体从经验中学习、避免灾难性遗忘和实现协作行为的能力。

将记忆模块分为四种主要类型：工作记忆、情景记忆、语义记忆和参数记忆。这四种类型共同构成一个全面的记忆系统：
工作记忆：这代表智体的短期记忆，负责处理即时上下文，例如提示、用户输入和相关工作区信息。它使智体能够实时根据当前上下文采取行动，为短期推理和决策提供基础。
情景记忆：这种类型的记忆存储长期经验和事件，例如用户交互、先前的任务结果或多轮对话。情景记忆帮助智体回忆过去的经验以改进其未来的行动，同时保持长期行为和学习的一致性。
语义记忆：这种类型的记忆充当外部知识存储，帮助智体获取和更新世界知识。通过持续知识图学习和持续文档学习等机制，语义记忆促进新知识融入智体的内部框架。通过利用外部数据库（例如知识图或动态文档语料库），语义记忆可确保智体能够随时了解不断发展的信息，从而提高其回答查询的能力并增强长期学习。
参数记忆：与过去事件的显式记忆不同，参数记忆驻留在模型的内部参数中。这些参数的变化（例如通过微调或训练更新）反映长期知识并
有助于智体的一般知识库。这种记忆类型允许智体在任务之间保留知识，而无需存储显式事件详细信息。

这些记忆类型之间的协同作用支持智体不断学习、适应和避免灾难性遗忘的能力，使其具有终身学习的能力。

动作模块

动作模块使智体能够与其环境交互、做出决策并执行影响其学习过程的行为。在终身学习框架中，动作对于关闭反馈循环至关重要：动作影响环境，环境提供反馈，用于改进未来的动作。

将动作分为三种主要类型：基础动作、检索动作和推理动作：
基础动作：这些是智体与环境交互的主要方式。基础动作涉及物理或数字影响环境，无论是通过操纵目标、生成文本还是触发特定行为。这些动作的影响可能会持续存在，从而影响未来的行为和反馈循环。
检索动作：这些动作使智体能够从其记忆中访问和检索相关信息，无论是来自语义记忆（例如，一般知识）还是情景记忆（例如，过去的经历）。检索动作可帮助智体保持一致性、获得新见解并增强决策能力。
推理动作：这些动作涉及智体使用其工作记忆、过去的经验和外部数据来执行复杂的推理、规划或决策任务。推理动作对于需要长期规划、多步骤决策或整合各种信息源的任务至关重要。

这三种动作类型允许智体不断与其环境交互、学习和适应，从而支持终身改进和行为进化的过程。

基于 LLM 智体的单模态感知主要涉及文本信息的接收。在整个终身学习过程中，智体遇到的文本信息来源可能来自各种结构和环境。在自然文本环境中，当前基于 LLM 的系统已经展示通过文本输入和输出与人类交流的基本能力 [12]，[63]。在此基础上，智能体需要从非自然文本环境中获取文本信息，以更好地模拟现实世界中的信息感知。

现实世界包含多种多样的数据模态，单模态感知方法不足以应对其复杂性。随着网络平台上图像、文本和视频内容的爆炸式增长，开发能够持续感知多模态信息的基于LLM智体变得至关重要。这些智体必须有效地整合来自不同模态的信息，同时保持先验知识的积累和适应。这使它们能够更好地模拟人类在多模态环境中终身学习过程，从而提高其整体感知和认知能力。

下表对终身学习智体多模态感知相关方法进行比较和总结： ”Focus”：MA 表示处理模态无关的输入，CKT 表示跨模态知识转移，DA 表示动态适应多模态，MCF 表示减轻灾难性遗忘； ”Modality”：V 表示在方法中涉及的模态。

请添加图片描述

如图所示感知多模态信息的智体比较：（a）传统智体需要跨模态数据进行联合训练；（b）终身学习智体逐步学习新模态信息，无需进行联合模态再训练。

请添加图片描述

在涉及多种模态感知的终身学习场景中，智体必须关注不同模态之间的交互以及对新模态的感知和处理，以更好地处理现实世界中快速演变的信息形式。许多研究探索智体如何在涉及现有模态的任务上保持稳定性，同时在遇到涉及新模态的任务时提高处理新任务的能力。

新知识感知分为以下两种场景：模态完全学习和模态不完全学习。新知识感知强调基于 LLM 的智体在现实复杂环境中对多模态信息的增量感知，智体感知新的模态输入，并将新知识与已有模态经验相结合，实现终身学习感知。

在终身学习过程中，智体不仅需要利用已有的模态经验来完成涉及新模态的任务，还必须在接收新信息后保持旧知识的稳定性。基于正则化的方法旨在通过引入正则化项来限制学习新任务过程中模型参数的变化，以减轻灾难性遗忘现象。根据约束应用的方法，基于正则化的方法可以细分为两个方向：权重正则化和函数正则化。

基于重放的方法是一种通过保存和重复使用先前学习过的经验来缓解灾难性遗忘的方法。在多模态持续感知学习中，根据重放的具体内容，该方法可分为经验重放和生成重放。

旧知识感知侧重于智体在终身学习过程中不断接收多模态信息时保留和感知旧知识的能力。通过结合现有的终身学习方法，智体可以显著缓解灾难性遗忘的问题。

工作记忆主要表现为智体的短期记忆，包括提示、工作空间记忆和用户提供的上下文等元素。智体利用这些提示或上下文输入作为其工作记忆来生成响应或进行规划和行动。工作记忆作为智体的操作记忆，促进实时交互和决策过程。简而言之，工作记忆是智体的活动工作空间，在此处理和操纵即时信息以产生响应或指导后续操作。工作记忆包括五个主要角度：提示压缩、长上下文理解、角色扮演、自我纠正和提示优化，如图所示。

请添加图片描述

工作记忆是智体的短期记忆，包括提示语、工作空间记忆以及用户提供的上下文，智体利用这些信息生成响应或进行规划和行动。为了在有限的提示语长度内包含更多的上下文内容，智体会对用户输入的提示语进行压缩，这有助于提高信息处理的效率，避免在将旧提示语整合到新提示语中时遗忘历史信息。此外，智体需要在工作记忆中处理长文本输入，这不仅可以提高对长文本的理解能力，还可以达到在不断处理长文本的同时适应新文本的效果。在角色扮演方面，智体被设计为在用户命令中扮演特定角色，这些角色具有不同的性格和特点，使智体与用户之间的交流更加丰富和多维。考虑到自我纠正，智体会根据用户输入的特定提示语，回顾和评估工作记忆中先前的响应，识别和纠正潜在的错误，实现自我纠正功能。为了提高智体对用户命令的响应质量和准确性，引入提示优化技术来细化和明确用户的命令。这有助于智体更深入地理解用户的意图，并提供更精确和预期的响应。

情景记忆是智体过去经历的储存库。它是智体参与过的特定事件、遭遇和互动的记忆。这种形式的记忆对于从过去的互动中学习以及发展可以为未来行动提供参考的历史理解至关重要。它使智体能够回忆以前的对话，从过去的错误中吸取教训，并在成功的基础上继续前进，从而随着时间的推移提高其性能。情景记忆的工作包括如下：数据重放和特征重放、持续强化学习和自我体验，如图所示。

请添加图片描述

工作记忆充当智体的操作记忆和活动工作空间，促进实时交互。与工作记忆相比，情景记忆是智体存储过去经验的存储库，包括特定事件、遭遇和交互的记忆。数据重放和特征重放，通过重用旧任务的数据或特征分布来训练新任务。持续强化学习，允许智体通过数据缓冲区中收集的经验从早期历史记忆中学习，从而加速学习过程并打破不良的时间关联。智体利用经验结果和外部环境对其行为的反馈来构成自我体验存储库，最终从中检索相关信息以增强决策过程和行动规划。

在基于 LLM 智体中，语义记忆是一种外部记忆机制，在存储和更新世界知识方面发挥着关键作用。语义记忆不仅可以帮助智体检索已知信息，还可以通过逐步整合新知识来实现终身学习。语义记忆的终身学习实现，包括持续知识图谱学习和持续文档学习，如图所示。

请添加图片描述

知识图谱嵌入 (KGE) [195] 是一种将知识图谱中的实体和关系映射到低维向量空间的技术，这对于各种下游应用至关重要。然而，随着知识的快速增长，传统的静态 KGE 方法 [196]– [198] 通常需要在新知识出现时保留整个知识图谱，从而导致巨大的训练成本。为了应对这一挑战，持续知识图谱嵌入 (CKGE) 任务应运而生。CKGE 利用增量学习来优化知识图谱的更新过程，旨在高效地学习新知识 [169] 同时保留现有知识 [164], [166], [199]。当前的 CKGE 方法大致可分为三类：基于重放的方法、基于正则化的方法、基于架构的方法。

基于 LLM 的智体可以使用信息检索 (IR) 系统将用户查询映射到相关文档。先前的研究 [202] 主要侧重于从静态文档语料库中进行基于生成的检索。然而，在实践中，可供检索的文档在不断更新和扩充，尤其是在新闻、科学文献和其他快速变化的信息领域等动态来源中。文档的这种快速演变给检索系统带来重大挑战。因此，近年来，更多的研究集中在如何快速有效地将新信息集成到动态语料库中，特别是在信息检索领域。

在 RAG 应用环境中，知识文档的增量更新对于确保域特定知识的及时同步至关重要。当前的研究主要采用两种策略进行增量更新：文档级更新和块级更新。文档级更新涉及对新添加或更新的文档进行全面解析和矢量化。块级更新侧重于识别文档中新添加、修改、删除或未更改的知识块。

参数记忆嵌入在 LLM 结构中，是三者中最无形的。它是模型内部参数中编码的集体知识，由模型训练的数据和它经历的微调过程塑造。与其他两种记忆不同，这种记忆无法明确访问或检索，这使模型能够理解和生成类似人类的文本，进行推理，并根据其积累的知识适应新的环境。参数记忆的分析包括以下三个方面：持续指令调整、持续知识编辑和持续对齐，如图所示。

请添加图片描述

考虑到四种记忆模块之间的差异，工作记忆是智体的短期记忆，情景记忆存储长期经验，语义记忆存储外部世界知识。与其他三类明确存储经验或知识的记忆模块不同，参数记忆是LLM中最抽象的记忆形式，它通过模型内部参数中编码的知识，由训练数据和微调过程塑造。这种记忆不像其他记忆那样可以明确访问或检索，但它使模型能够理解和推理，并根据积累的知识适应新情况。

在持续的指令调整过程中，LLM的参数记忆通过持续使用指令数据集来调整模型隐式参数来更新。这是一个持续的过程，使模型能够不断提高终身学习的一般或特定能力。在持续的知识编辑过程中，智体不断使用更新的数据集来修改先前模型中隐含的错误或过时信息。这一过程不仅能防止因学习新知识而丢失旧知识（灾难性遗忘），还能让智体实现终身学习，适应不断变化的环境。持续对齐是指智体通过不断吸收人类的反馈和偏好来微调其内部模型参数。与传统的单步对齐相比，多步对齐要求模型在反映人类偏好的变化数据集的情况下适应新任务，这是持续对齐的挑战。

在下表中，概述旨在提高 LLM 智体动作质量的研究。

请添加图片描述

动作落地的挑战

作为智体的大脑，LLM 负责从环境中获取文本观察作为输入，并生成文本动作作为输出。与 [64] 类似，将输入动作落地定义为感知和理解文本环境描述的过程，将输出动作落地定义为生成可被环境解析为动作的文本。

输入和输出落地动作之间的差异，凸显终身学习在 LLM 智体中的重要性。LLM 需要调整其最初为预训练阶段设计的输入和输出落地动作，以适应不同环境的特定要求。此外，它还需要不断调整这些动作，以有效应对不断变化的环境。

适用于不同环境的解决方案

具有终身学习能力的 LLM 智体不仅可以从预训练阶段调整其落地动作以适应特定环境，还可以通过与周围环境的交互不断发展。然而，不同环境之间的多变性带来独特的挑战，促使现有研究中开发出各种解决方案。为了清晰全面地概述这些解决方案，将常用环境分为三类，从简单到复杂如下：工具、网络和游戏。

值得注意的是，虽然有些方法特定于某些环境 [12]，但大多数这些方法都可以转移到不同的环境中。例如，制作可执行程序以不断提高智体能力的想法 [251] 也可以应用于网络环境。在这种情况下，智体可以在执行可执行程序后生成后续规划或动作，而不是在每次简单的鼠标/键盘动作（例如，单击按钮）之后，从而减少动作历史和观察历史的长度，从而提高智体行为的长期一致性。还可以组合不同的方法来增强终身 LLM 智体的性能。

LLM 智体需要外部信息来生成高质量的落地动作和推理动作。对于落地动作，只有当 LLM 的生成与环境指定的模式匹配时，它才能被解析为动作。简单地微调 LLM 以强制其生成符合环境约束的输出是不切实际的，因为这种方法不仅会产生大量的资源成本，而且无法适应不断变化的动作空间。此外，由于不可接受的上下文长度和中间丢失问题，直接将所有可能的动作描述包含在提示中是不可行的 [281]。对于推理动作，来自语义记忆的全面外部知识和来自情景记忆的准确历史轨迹，是做出正确决策的关键因素。然而，互联网规模的文本无法完全包含在 LLM 的上下文长度中。动作历史和观察历史的长度也会随着智体的活动而逐渐增加，最终超过 LLM 的上下文长度。

这些挑战凸显检索动作对于终身 LLM 智体的关键重要性。通过检索动作，LLM 智体可以处理不断增长的动作历史和观察历史，这有助于保持 LLM 行为的长期一致性。它还可以通过从不断更新的知识源中检索来获取实时知识，从而在不断变化的环境中表现更佳 [282]。从终身学习的角度来看，智体还可以检索在之前任务中获得的知识，以提高其在当前任务上的表现。此外，检索动作还可以提高智体的可解释性及其在知识密集型任务上的表现 [283]。根据检索源将允许智体从记忆中检索的工作分为两部分，即语义记忆和情景记忆。语义记忆的检索和利用过程可以表述如下。LLM 智体只能在试验开始时或在生成每个动作之前执行检索动作。在这里，假设 LLM 智体仅在试验开始时执行检索动作，这是现有研究中的常见做法 [62]，[273]。情景记忆的提取和利用过程与语义记忆相似。

从语义记忆中检索

预训练的 LLM 通常不足以充当智体的大脑，因为有两个关键限制：缺乏背景知识和缺乏演示。这两个限制可以通过从语义记忆中检索来解决，语义记忆是一种存储世界知识的外部记忆机制。

缺乏背景知识，通常表现为 LLM 无法从所有可能的动作中选择正确的动作，或者无法生成环境能够理解的动作。为了解决这个问题，GITM [62] 从 Minecraft Wiki 中检索相关文本，为 LLM 提供 Minecraft 世界知识，使 LLM 能够按正确的顺序执行动作。SwiftSage [267] 和 ToolLLM [245] 都使用 SentenceBERT [285] 从数据库中检索可能的动作，通过缩小动作空间帮助 LLM 选择合适的动作。当动作的参数有限时，SentenceBERT 还可以用于将 LLM 生成的、环境无法理解的动作参数转换为有效参数 [263], [266]。

缺乏演示会降低智体的落地操作和规划操作的质量。演示已被证明在 LLM 性能中发挥着重要作用 [11]。然而，在提示中包含不相关或过时的演示可能会极大地损害 LLM 智体的性能 [271]。为了验证相关问题，Re-Prompting [273] 和 STE [249] 使用 SentenceBERT 从演示集中选择最相似的演示。

从情景记忆中检索

虽然从语义记忆中检索可以通过提供额外的背景知识和演示来提高智体的能力，但它既不能解决利用过去经验的缺乏能力，也不能解决 LLM 缺乏长期一致性的问题。然而，这两个限制可以通过从情景记忆中检索来解决。与语义记忆不同，情景记忆主要存储过去的经验。

克服缺乏利用过去经验的能力是终身 LLM 智体的一个关键特征。利用过去的经验，LLM 智体可以在与环境的交互过程中逐渐提高自身。当前利用过去经验的研究大致可分为两类，均旨在从终身学习的角度增强智体的能力。第一类涉及在智体成功完成任务后将其轨迹存储在数据库中 [62]、[260]。当新任务出现时，智体会从数据库中检索类似的任务轨迹并将其纳入提示中。这类研究提高智体推理行为的质量。第二类研究侧重于将智体的任务解决步骤表示为可执行程序 [61]、[73]、[251]、[262]。这些程序主要由环境定义的可接受动作组成，可以看作是智体生成的高级动作。面对新任务时，智体可以直接重用这些程序，也可以将它们组合起来以应对新挑战。这类研究扩展环境的动作空间，提高智体的落地能力。

缺乏长期一致性主要源于 LLM 的上下文长度是有限的，这使得它们无法将整个观察和动作历史纳入提示中。提高长期一致性可以使智体更类似于人类。 MemoryBank [55] 不仅可以检索过去对话的摘要，还可以与聊天历史保持一致，从而提高 LLM 在终身交互场景中的表现。
大多数现有的 LLM 智体研究仅侧重于从语义记忆或情景记忆中进行检索。然而，值得注意的是，从语义记忆和情景记忆中进行检索可以进一步提高智体的性能。这种方法反映人类使用长期记忆和短期记忆的方式。此外，终身 LLM 智体还可以利用 RAG 领域成熟的技术，例如迭代检索 [286]–[288] 或持续构建更高质量的检索源 [289]，以提高检索内容的质量。

情节内推理行为

情节内推理行为是指利用同一情节中的经验进行推理的行为。根据这些研究是在同一次试验中激发 LLM 的内在推理能力，还是在不同试验中逐步增强其推理能力，进一步将它们分为两类。

一方面，几乎所有研究都鼓励 LLM 智体在单次试验中以 ReAct [194] 风格进行推理。ReAct 允许 LLM 根据来自环境的实时反馈不断改进其推理过程，最终得出更准确的规划或决策。另一方面，许多研究将推理分解为几个关键步骤，并分配不同的 LLM 来处理每个步骤。例如，α-UMi [255] 对两个 LLM 进行微调，其中一个负责规划，另一个负责总结。类似地，API-Bank [268] 使用五个 LLM 来处理推理过程的每个状态，最终生成高质量的工具学习训练数据。这些研究提高智体或智体系统的推理动作质量。

此外，许多研究通过引入特定于环境的策略来增强 LLM 智体在复杂环境中的推理能力。例如，LASER [259] 将该过程建模为状态空间探索，并通过仅允许 LLM 在相邻状态之间转换来降低推理难度。类似地，SteP [256] 通过动态组合手工制作的策略来增强 LLM 在复杂环境中的推理能力，每个策略都充当从指定的复杂环境中提取信息的方法。

许多研究通过模仿人类的推理过程，进一步提高智体在不同试验中的推理能力。这些研究使智体不仅可以利用当前试验的经验，还可以利用以前试验的经验。智体还被指示以 ReAct 风格进行推理。反思 [58] 是最具代表性的研究之一。它使 LLM 能够通过回顾过去失败的试验进行自我反思。这个反思过程有助于智体改进其推理，最终在未来的试验中产生更准确的结果。应用反思时的动作生成过程可以表述如下。LLM 智体将在每次新试验开始时反思其过去的轨迹，并根据需要重复此过程，直到成功实现给定的目标。

另一类研究利用不完整试验。这些研究通常使用树结构来管理每个不完整的试验。在推理过程中，从根节点到叶节点的每条路径都可以看作一次不完整的试验。借助树结构，LLM 智体可以执行前瞻和回溯等高级操作，不断提高跨多次试验的推理操作质量 [264]，[270]。同样由于树结构，许多经典的树搜索算法，如广度优先搜索、深度优先搜索 [264] 和最佳优先搜索 [290]，可以无缝集成到推理过程中。此外，许多研究使用蒙特卡洛树搜索 (MCTS) 来增强在复杂环境中运行的智体推理能力 [257]，[265]，[266]，[271]。MCTS 使智体能够更有效地探索和利用复杂环境，最终通过推理行为制定正确的规划。

情景间推理行为

情景间推理行为是指使用来自不同情景经验的推理行为。这些经验随着 LLM 智体与终身环境的交互而逐渐积累。经验可以有多种形式，例如成功的推理轨迹 [62]、[260]、[273]、可执行代码 [61] 或文本摘要 [55]、[262]。这些经验通常存储在额外的数据库中。当遇到新任务时，LLM 智体首先检索最相关的经验并将其添加到工作记忆中，然后使用这些经验来指导其推理过程。特别地，AMOR [284] 利用来自先前任务的反馈来微调模型，从而提高其在特定环境下的推理动作质量。

此外，一些研究重点是如何使 LLM 智体能够探索复杂的环境，采用课程学习来安排不同的任务。此外，一些研究重点是让LLM智体探索复杂环境，采用课程学习来更好地利用过去的经验。这些研究[61]，[261]将任务从易到难排列，提供源源不断的新任务或挑战。通过课程学习，LLM智体可以在终身探索过程中逐渐掌握推理行动技巧。

小结

当前的研究主要利用以前的试验或情景经验来不断提高智体的推理能力。然而，现有的研究，特别是使用树结构的研究 [264]、[270]、[286]、[290]，往往忽视复杂环境的动态性质，并假设在线推理过程中的任何状态都是可追溯的。这在实践中是不现实的。例如，在网络环境中，付款可能是不可逆的。未来的研究应该探索如何在更现实的环境中促进推理技术的终身积累，例如那些以不可逆行为为特征的环境中。

评估指标、数据集和基准是终身 LLM 智体研究的重要组成部分。与传统 LLM 智体相比，终身 LLM 智体可以通过与环境的交互保留有用的历史经验。这些经验使 LLM 智体能够在过去和未来的任务上取得更好的表现。因此，许多评估指标旨在通过衡量 LLM 在任务上的表现来证明终身学习方法的优越性。然而，为了有效地比较不同的终身学习方法，仅仅拥有强大的评估指标是不够的。可靠的数据集和高度现实且可重复的基准也是必不可少的。

在数字时代，基于 LLM 的智体在日常生活和专业环境中发挥着越来越重要的作用。在终身学习范式进步的推动下，这些智体不断调整和优化其功能以满足用户不断变化的需求。这些终身智体的应用大致可以分为两个领域：日常应用和特定领域应用。相关研究的摘要如图所示。

请添加图片描述