大模型智能体的记忆机制综述

人工智能大模型讲师培训咨询叶梓

已于 2024-05-24 06:46:02 修改

阅读量6.2k

点赞数 16

分类专栏：人工智能文章标签：人工智能 agent 智能体语言模型内存记忆培训

于 2024-05-23 16:30:00 首次发布

本文链接：https://blog.csdn.net/weixin_44292902/article/details/139134242

版权

人工智能专栏收录该内容

312 篇文章

订阅专栏

在人工智能的快速发展中，大型语言模型（LLM）基础智能体逐渐成为研究的热点，它们通过模拟复杂的交互和自我进化能力，为实现更高层次的人工智能铺平了道路。要使这些智能体真正理解和适应动态变化的环境，记忆机制成为了一个不可或缺的关键技术。本文将探讨LLM基础智能体记忆的概念、重要性以及实现和评估方法，同时展示记忆增强智能体在多种应用场景中的潜力和未来发展方向，旨在为这一领域的研究者和实践者提供全面的视角和深入的洞见。

图1在论文中展示了基于大型语言模型（LLM）的智能体中记忆模块的重要性。该图强调了记忆在智能体与环境交互中的关键作用，包括信息的感知、存储和检索。记忆模块使得智能体能够积累经验、抽象知识，并在此基础上进行有效的决策和行动。在角色扮演、个人助理、游戏等多样化的应用场景中，记忆模块的作用尤为突出，它不仅提升了智能体的性能，还增强了其适应性和泛化能力。

记忆是什么：LLM基础智能体的核心组件

记忆的定义

在狭义上，智能体的记忆仅与同一试验内的历史信息有关，即智能体在某个步骤t之前的所有交互信息。这种定义强调了智能体如何利用当前任务中的先前步骤来影响其决策和行动。而广义上的记忆定义则更为宽泛，它包括了跨不同试验的信息以及超出智能体与环境交互的外部知识。智能体的记忆可以整合来自多个任务的经验和知识，以及通过API调用等手段获取的外部信息。

记忆的作用

记忆不仅仅是一个简单的信息存储仓库，而是一个复杂的系统，负责信息的收集、处理、存储和检索。这些功能对于智能体在复杂环境中的表现至关重要。

记忆管理系统允许智能体有效地组织信息，确保可以快速准确地检索到所需的数据。这种管理包括对信息的分类、索引和优先级排序，以及在必要时更新或删除过时或无关信息。良好的记忆管理策略可以帮助智能体避免信息过载，并保持其决策过程的清晰和高效。

记忆的应用体现在智能体能够利用存储的信息来指导行动和做出决策。智能体可以根据历史经验来优化其策略，避免重复错误，并在面对新情况时做出更加合理的判断。

记忆的组成

记忆的组成反映了智能体能够访问和利用的信息类型：

内部试验信息：这是智能体在执行任务时与环境互动产生的信息。例如，在一个旅行规划任务中，智能体可能会记录关于航班预订、酒店选择和用户偏好的详细信息。

跨试验信息：这种类型的记忆信息允许智能体将一个任务中学到的经验应用到其他任务中。这可能包括先前任务的成功策略、常见问题解决方案或用户在不同情境下的反馈。

外部知识：智能体可以通过集成外部数据源来扩展其记忆。这些数据源可能包括在线数据库、知识库、实时数据流或通过API访问的专业服务。例如，一个医疗咨询智能体可能会访问最新的医学研究数据库来提供准确的建议。

记忆的实现

记忆的实现是LLM基础智能体中的一个核心过程，它确保智能体能够有效地与环境互动并从中学习。这一过程通常被划分为三个主要环节：写入、管理和读取。

写入过程

写入是记忆实现的第一步，它涉及到将智能体通过感知得到的原始观察数据转换并存储为记忆内容。这个过程要求智能体能够识别和提取与当前任务相关的信息，并将这些信息转换成一种格式，使其能够被记忆系统所记录和后续处理。例如，如果智能体正在执行一个旅行规划任务，它需要将与旅行相关的所有细节，如航班时间、酒店预订和用户偏好等，写入其记忆中。

管理过程

记忆管理是确保记忆内容保持有用性和准确性的关键环节。这包括对已存储信息的更新，以反映环境的最新状态；整合相似或冗余的信息，以减少记忆负担并提高检索效率；以及遗忘那些不再相关或过时的信息，防止它们干扰智能体的决策过程。有效的记忆管理策略可以帮助智能体维持一个清晰、有序的记忆空间，从而提高其整体性能。

读取过程

记忆读取是智能体根据当前的需求和上下文从记忆中检索信息的过程。这要求智能体能够快速准确地找到并利用存储在记忆中的相关信息来支持其决策和行动。读取过程通常涉及到对记忆内容的搜索、匹配和提取，这些操作需要根据智能体当前的目标和环境反馈来执行。例如，如果智能体需要为用户推荐一家餐厅，它将检索存储在记忆中的用户偏好和先前的成功推荐，以生成一个合适的建议。

图3(b)说明了记忆的读取、写入和管理过程。在这个图中，虚线表示跨试验（cross-trial）信息可以被整合进记忆模块。记忆写入（Memory Writing）是将环境的观察结果转换为记忆内容的过程。记忆管理（Memory Management）涉及对存储的记忆信息进行处理，例如通过抽象化、合并或遗忘来优化记忆内容。记忆读取（Memory Reading）则是根据当前的上下文和需要采取的行动，从记忆中检索相关信息。

为什么我们需要LLM基础智能体的记忆

认知心理学的角度

记忆在人类的心智过程中扮演着核心角色。它不仅是我们学习知识的基础，通过积累重要信息和抽象高层次概念，而且也是我们形成社会规范的关键，通过记忆文化价值和个人经历，我们能够构建社会行为准则。此外，记忆还帮助我们采取合理的行动，通过想象潜在的正面和负面后果来做出决策。因此，为了让LLM基础智能体能够像人类一样执行任务，模仿人类的工作机制，设计包含记忆模块的智能体是自然而然且必要的选择。

自我进化的角度

强调了记忆的重要性。智能体为了在动态环境中完成不同的实际任务，必须具备自我进化的能力。在这个过程中，记忆对于经验的积累至关重要，它能够帮助智能体记住过去错误的规划、不当的行为或失败的经历，从而在未来处理类似任务时更加高效。此外，记忆还支持环境探索，智能体通过记忆历史信息来更好地决定何时以及如何进行探索。最后，记忆有助于知识抽象，智能体能够从原始观察中总结和抽象出高层次的信息，这是智能体适应性和泛化性的基础。

智能体应用的角度

记忆在许多应用中是不可或缺的组件。例如，在对话智能体中，记忆存储有关历史对话的信息，这对于智能体生成下一个响应是必要的。没有记忆，智能体就无法了解上下文，也就无法继续对话。在模拟智能体中，记忆对于保持角色一致性至关重要，没有记忆，智能体可能在模拟过程中容易偏离角色。

如何实现LLM基础智能体的记忆

实现LLM基础智能体的记忆可以从记忆来源、记忆形式和记忆操作三个角度进行。记忆来源可以是内部试验信息、跨试验信息和外部知识。记忆形式主要有两种：文本形式和参数形式。记忆操作包括记忆写入、记忆管理和记忆读取，这些操作共同支持LLM的推理过程。

记忆来源

是构建智能体记忆的第一步。智能体可以从当前试验（Inside-trial Information）中获取信息，这包括它与环境的直接互动和观察结果。例如，在进行一项任务时，智能体需要记住与任务相关的所有行动和观察结果。此外，智能体还可以利用跨试验（Cross-trial Information）信息，这涉及到将先前试验的经验教训整合到当前任务中，从而帮助智能体避免重复错误并提高效率。最后，智能体可以接入外部知识（External Knowledge），如数据库、API和其他在线资源，以获取超出其本身经验范围的信息。

Table 1 提供了一个关于不同模型如何利用记忆来源的概览。通过这个表格，我们可以具体了解到各种LLM基础智能体模型是如何从内部试验信息、跨试验信息和外部知识这三个来源中获取记忆内容的。“Inside-trial Information” 栏目下的标记指示了模型是否利用了当前试验内的信息。这包括智能体在与环境交互过程中产生的所有行动和观察结果。从表格中可以看出，大多数模型都采用了这种信息源，因为它们与智能体当前的任务直接相关，为智能体提供了最具体和最及时的上下文信息。“Cross-trial Information” 栏目显示了模型是否整合了跨不同试验的信息。这种信息源允许智能体从先前的试验中提取经验，包括成功的行动方案和失败的教训。例如，Reflexion模型就是通过将过去的试验经验以言语形式整合到后续试验中，以此来提升性能的。“External Knowledge” 栏目指出了模型是否利用了外部知识。这涉及到智能体能够访问的非交互性质的信息，如通过API调用获取的数据或从在线百科全书中检索的信息。例如，ReAct模型就是通过利用Wikipedia API来获取外部知识，以支持其在多步推理问题上的表现。

记忆形式

记忆形式是智能体记忆设计中的一个关键方面，它决定了智能体如何存储、处理和回忆信息。在LLM基础智能体中，记忆形式主要有两种：文本形式（Textual Form）和参数形式（Parametric Form）。

文本形式的记忆是当前最为主流的方法，它以自然语言的形式存储信息，这种方式的优势在于其良好的可解释性和易于实现的特点。在文本形式的记忆中，信息可以是非结构化的，如原始的自然语言文本，也可以是结构化的，比如以元组、数据库条目等形式存在。文本形式的记忆能够详细记录智能体与环境的互动历史，包括完整的对话记录、最近的交互摘要、基于相关性的检索结果，以及通过API等工具获取的外部知识。这种形式的记忆便于人类理解和审查，因为它们以直观的语言形式存在，但同时也面临着存储和处理效率的挑战，尤其是在处理长文本和大量数据时。

参数形式的记忆则采用了一种不同的方法，它将记忆信息编码为模型的参数，这些参数通常是连续的实数值向量，存储在模型的权重矩阵中。这种方式的优势在于其高信息密度和存储效率，因为参数形式的记忆不需要存储大量的文本内容，而是通过模型参数的微调来隐式地表示信息。这种形式的记忆对于智能体在处理大量数据和进行快速推理时更为高效，但相比于文本形式，它的可解释性较差，因为信息被编码在了模型的参数中，而不是以直观的语言形式展现。

Table 2 提供了一个关于不同模型如何实现记忆形式的概览。这个表格详细列出了各种模型在记忆形式上的取舍，特别是在文本形式（Textual Form）和参数形式（Parametric Form）之间的选择，以及它们在记忆操作方面的具体实现，包括完整的交互记录、最近的交互记录、检索到的交互记录以及外部知识的整合。通过表格，我们可以观察到不同的模型在记忆实现上的多样性。例如，一些模型如“MemoryBank”和“ChatDB”采用了完整的交互记录和检索到的交互记录，而没有采用外部知识的整合。这表明这些模型可能更侧重于利用内部生成的数据来构建记忆，而不是依赖外部数据源。像“RET-LLM”和“ReAct”这样的模型则采用了包括外部知识在内的多种记忆形式，这可能使得它们能够在更广泛的知识背景下进行决策和交互。在参数形式的记忆方面，表格显示了不同模型是否采用了微调或编辑技术来实现记忆。微调通常涉及对模型参数的精细调整，以适应特定的任务或数据集，而编辑则可能涉及到对模型知识库中特定事实的直接修改。

记忆操作

记忆操作是LLM基础智能体记忆机制的核心组成部分，它涵盖了智能体如何动态地与记忆内容进行交互的全过程。这一过程包括了记忆的写入、管理和读取三个关键操作。

记忆写入是记忆操作的起始步骤，它涉及到智能体如何将环境中的观察结果转化为记忆中的存储内容。在这个过程中，智能体需要识别和提取关键信息，并将这些信息以一种可供后续使用的形式保存起来。例如，智能体可能需要从一段对话中提取出关键的讨论点，并将其作为记忆的一部分存储起来。记忆写入还可能涉及到信息的压缩和概括，以减少存储空间的需求并提高信息的可用性。

记忆管理是确保记忆内容有序和有效性的过程。智能体需要不断地维护和更新其记忆内容，以保持信息的相关性和准确性。这可能包括合并相似的记忆条目以减少冗余，遗忘不再重要的信息以释放存储空间，以及通过反思和抽象生成更高层次的记忆。例如，智能体可能会将多次成功的任务执行策略总结为一般性的规则或模式，以指导未来的决策。记忆管理的目标是优化记忆的使用效率，同时确保智能体能够快速地访问到最相关的信息。

记忆读取是智能体根据当前任务的需求从记忆中检索信息的过程。这个操作对于智能体做出决策和采取行动至关重要。智能体需要根据当前的上下文和目标，从可能非常庞大的记忆库中找到并提取出最相关的信息。记忆读取可能涉及到复杂的搜索和匹配机制，以及对记忆内容的解释和应用。例如，在一个开放世界的游戏环境中，智能体可能需要回忆起先前探索过的区域信息，以决定下一步的探索策略。

Table 3 在论文中提供了对不同LLM基础智能体模型在记忆操作方面实现的详细概览。这些记忆操作包括记忆写入（Memory Writing）、记忆管理（Memory Management）、以及记忆读取（Memory Reading），它们是智能体记忆功能中不可或缺的组成部分。表格还涉及了合并（Merging）、反思（Reflection）和遗忘（Forgetting）等高级记忆管理功能。

在整个记忆操作过程中，智能体需要不断地评估和调整其记忆使用策略，以适应不断变化的任务需求和环境条件。有效的记忆操作不仅能够提高智能体的性能，还能够帮助智能体更好地模拟人类的学习和记忆过程，从而在复杂和动态的环境中实现更加智能化的行为。

如何评估LLM基础智能体的记忆

评估LLM基础智能体的记忆可以通过直接评估和间接评估两种策略。直接评估将智能体的记忆作为一个独立组件来衡量其能力，包括主观评估和客观评估。间接评估则通过特定任务的完成情况来评估记忆模块的有效性，如对话、多源问答、长期应用等。

Figure 5，我们可以看到一个评估记忆模块的多维度方法。直接评估提供了对记忆能力的直接测量，而间接评估则通过实际任务表现来验证记忆的有效性。这两种策略相辅相成，为研究者提供了全面评估LLM基础智能体记忆的途径。

直接评估（Direct Evaluation）

直接评估是一种评估LLM基础智能体记忆的策略，它将记忆模块作为一个独立的单元，直接对其进行能力测试和性能评价。这种评估方式允许研究者和开发者独立于智能体的其他功能，专注于记忆模块的表现和效率。

主观评估是直接评估中的一种方法，它依赖于人类评估者的直觉和判断。在缺乏明确客观标准或当自动化评估难以实现时，这种方法尤其有用。例如，评估者可能会观察智能体在对话中的表现，判断其记忆输出是否与对话上下文连贯，并给出相应的评分。这种评估可以揭示智能体的记忆在模拟人类交流中的自然度和合理性。然而，主观评估可能受到评估者个人偏见的影响，因此通常需要多名评估者参与，以提高评估的可靠性和一致性。

与主观评估相对的是客观评估，它基于可量化的数值指标来评价记忆模块的性能。这种评估方式更加精确和可重复，便于比较不同记忆模块的性能。

结果正确性是客观评估中的一个关键指标，它直接衡量智能体基于记忆提供答案的准确性。例如，如果智能体被问到“你昨天提到要去哪家餐厅吃饭？”，智能体能够准确回忆并回答昨天提到的餐厅名称，这将被视为一个正确的结果。这种评估方式通常涉及到预设问题和已知答案的测试集，允许通过准确率等统计方法来量化智能体的表现。

参考准确性则关注智能体检索到的记忆内容与问题的相关性。即使智能体没有直接给出最终答案，如果它能够提供与问题紧密相关的信息，这样的记忆输出仍然被认为是有价值的。例如，如果智能体在回答关于历史事件的问题时，能够检索到与该事件相关的重要日期或人物，即使没有直接给出完整答案，这些信息仍然对问题的解答有帮助。通常，会使用如F1分数这样的评估指标来量化智能体在这类任务上的表现。

时间和硬件成本关注的是记忆操作的效率，包括记忆写入、管理和读取操作所需的时间，以及这些操作对计算资源的需求。在资源受限的环境中，或者在需要实时响应的应用场景中，记忆操作的效率尤为重要。通过测量记忆操作的延时和对GPU等硬件资源的使用情况，可以评估记忆模块在实际部署时的可行性。

直接评估为评估LLM基础智能体的记忆提供了一种透明、可量化的方法，使研究者能够深入理解记忆模块的性能，并据此进行优化和改进。

间接评估（Indirect Evaluation）

间接评估是一种通过观察智能体在执行特定任务时的表现来推断其记忆模块有效性的方法。这种方法的核心思想是，如果一个智能体能够在依赖于记忆的任务中表现出色，那么它的记忆模块很可能是有效的。以下是间接评估中几种常见任务的详细解释：

对话（Conversation）：在对话任务中，智能体需要维持与人类用户之间的连贯交流。这不仅要求智能体能够理解用户的话语，还需要它能够记住之前的交流内容，以便在对话中引用相关信息。一致性（Consistency）是衡量对话中记忆能力的一个重要指标，它反映了智能体是否能够保持话题的连贯性，避免突兀地改变主题。用户参与度（Engagement）则是另一个重要指标，它衡量用户对对话的兴趣和参与程度。如果智能体能够通过引用过去的话题或展现出对用户兴趣的敏感性来吸引用户，这通常意味着它的记忆模块能够有效地支持对话的流畅性和吸引力。

多源问答（Multi-source Question-answering）：在多源问答任务中，智能体面临的挑战是整合和利用来自不同信息源的数据来回答问题。这可能包括内部试验信息、跨试验信息以及外部知识库。智能体必须能够访问、存储并有效地检索这些信息，以便提供准确和全面的答案。如果智能体能够展示出在处理这类任务时的高准确率，这通常表明它的记忆模块能够很好地处理和整合多源信息。

长期应用（Long-context Applications）：长期应用任务要求智能体处理和理解长篇的文本或长时间的交互历史。这可能涉及到长文本的检索、总结或推理任务。在这些任务中，智能体需要展示出对长篇上下文的深入理解，以及能够从这些上下文中提取关键信息的能力。例如，如果智能体能够准确地总结一篇长文章的要点，或者在一系列交互中准确地回忆起重要的历史信息，这表明它的记忆模块在处理长期记忆方面是有效的。

其他任务（Other Tasks）：除了上述任务外，还有其他一些任务可以用来间接评估智能体的记忆能力。例如，成功率（Success rate）可以衡量智能体在完成特定任务时的效率，而探索度（Exploration degree）则可以衡量智能体在探索环境或解决问题时的广泛性和深度。这些指标可以帮助我们了解智能体的记忆模块在支持复杂任务和决策过程中的作用。

间接评估的优势在于它能够直接反映智能体在实际应用中的表现，而不仅仅是记忆模块的孤立性能。通过综合考虑智能体在各种任务中的表现，我们可以更全面地理解其记忆模块的实际效果和潜在价值。

记忆增强的智能体应用

记忆增强的智能体在多种场景中都有应用，包括角色扮演与社会模拟、个人助理、开放世界游戏、代码生成、推荐、特定领域的专家系统等。在这些应用中，记忆模块发挥着重要的作用，帮助智能体提供更加个性化和连贯的服务。