基础智能体的进展与挑战第 3 章【记忆】-CSDN博客

第三章

记忆

记忆对于人类和人工智能都至关重要。对人类而言，它是认知的基石，是一个巨大的经验和知识库，使我们能够学习、适应并驾驭世界的复杂性。从婴儿期开始，我们编码、存储和检索信息的能力就支撑着我们习得语言、掌握技能和建立关系的能力。神经科学和认知心理学的数十年研究阐明了记忆的多方面作用，揭示了它对我们自我意识、创造性努力和决策过程的影响。同样，在蓬勃发展的人工智能领域，记忆越来越被认为是智能行为的基石。正如人类依赖过去的经验来指导当前的行动一样，人工智能智能体需要强大的记忆机制来处理复杂任务、预测未来事件并适应动态环境。因此，深入理解人类记忆——其组织、过程和局限性——为开发更强大、适应性更强的人工智能系统提供了宝贵的见解。本节将首先简要概述人类记忆，重点关注编码、巩固和检索的关键阶段。然后，我们将探讨设计人工智能智能体记忆系统所采用的各种方法，从传统的符号表示到尖端的基于神经网络的方法。这些人工记忆系统与其人类对应物之间的批判性比较将突出在适应性、上下文理解和韧性等领域存在的差距。最后，我们将考虑源自神经科学和认知心理学的原则如何为未来的研究提供信息，提出可能导致创建出展现出更大鲁棒性、细微差别，并最终更接近人类记忆非凡能力的人工记忆系统的研究方向。

3.1 人类记忆概述

3.1.1 人类记忆的类型

人类记忆通常被概念化为一个多层次系统，在不同的处理水平和时间尺度上捕获、存储和检索信息。来自认知科学、神经科学和心理学领域的研究人员提出了各种模型来描述这些层次。一个普遍接受的层级区分了感知记忆、短期记忆（包括工作记忆）和长期记忆 [170, 171]。在长期记忆中，又进一步划分了外显（陈述性）和内隐（非陈述性）形式 [172]。图 3.1 展示了这样一种层级框架：

感知记忆。感知记忆是原始感觉信息的初始、短暂存储。它将来自环境的输入维持毫秒到几秒钟的时间，允许后续过程确定刺激的哪些部分与进一步分析相关 [173]。图像记忆（用于视觉输入）[174] 和声音记忆（用于听觉输入）[175] 是两种众所周知的子类型。
• 短期记忆和工作记忆。短期记忆（STM）涉及将有限量的信息保持在易于访问的状态下，持续时间为几秒到不到一分钟。术语“工作记忆”通常用于强调对信息的操纵而不仅仅是维持。虽然一些模型将工作记忆视为 STM 的子集，但其他模型将其视为一个独特的系统，管理数据的存储和主动处理（例如，在头脑中进行算术）[176, 177]。STM 或工作记忆的容量是有限的，通常被认为是大约七加减二个信息块 [98]，尽管个体差异和任务因素可以调节这个数字。

图 3.1: 人类记忆系统的层级分类。

• 长期记忆（LTM）。长期记忆容纳了更持久的信息存储，可以持续数小时至数十年 [178, 179]。这个存储库支持技能的学习、事实知识的获取以及个人经历的回忆。尽管长期记忆有时被描述为具有巨大或近乎无限的容量，但诸如衰退、干扰和检索线索等因素会影响存储信息的可访问程度 [180]。

– 陈述性（外显）记忆。陈述性记忆包含可以被有意识地回忆和表达的记忆 [181]。在这个广泛的类别中，研究人员经常讨论：

$*$ 语义记忆：关于世界的事实知识，包括概念、词语及其关系 [182]。例子包括回忆词汇术语的含义或知道一个国家的首都。
$*$ 情景记忆：个人经历的事件，保留了诸如时间、地点和相关人物等上下文细节 [183]。这种形式的记忆允许个体在精神上回到过去重温经历。
$*$ 自传体记忆：情景记忆的一种形式，侧重于与个人历史相关的事件和经历 [184]。虽然有时被视为情景记忆的一个子类别，但自传体记忆特别强调自我及其不断发展的生命叙事。

– 非陈述性（内隐）记忆。非陈述性记忆指的是在不需要意识的情况下影响行为的记忆 [185]。关键子类型包括：

$^*$ 程序性记忆：运动技能和习惯（例如，骑自行车、在键盘上打字）的逐渐习得，这些技能和习惯随着重复而变得自动化 [186, 187]。
$^*$ 启动效应：先前接触刺激影响后续反应的现象，通常没有明确识别出先前的接触 [188]。
$^*$ 经典条件反射：两种刺激之间习得的关联，其中一种刺激开始引起原本由另一种刺激产生的反应 [189]。
$^*$ 非联想记忆：在反复接触单一刺激后行为发生的适应性改变。习惯化（对重复的无害刺激反应减少）和敏感化（接触有害或强烈刺激后反应增强）是代表性例子 [190, 191]。

尽管这些类别看起来井然有序，但人类记忆过程常常重叠。例如，自传体记忆通常嵌套在情景记忆中，但其对自我相关经历的特别关注使得一些理论家将其视为一个略有不同的类别。同样，短期记忆和工作记忆之间的界限可能因理论视角而异。一些学者更倾向于功能性、过程导向的工作记忆观，而另一些学者则采用严格的容量导向的短期存储概念。在每种情况下，这些对记忆的不同视角都突显了人类认知的复杂性和细微差别。

3.1.2 人类记忆模型

人类记忆激发了广泛的理论模型，每种模型都对信息如何获取、组织和检索提供了不同的见解。尽管没有单一的框架获得普遍认同，但几个有影响力的观点塑造了认知科学、神经心理学和人工智能研究领域的讨论。以下内容重点介绍了一些用于解释记忆多方面性的最突出的模型和架构。

图 3.2: Atkinson-Shiffrin 的人类记忆三阶段模型 [170]。

多存储（模态）模型。Atkinson 和 Shiffrin [170] 提出的一个开创性提议引入了多存储或“模态”模型，该模型假定传入信息有三个主要存储库：感知记忆、短期记忆和长期记忆。控制过程（例如，注意、复述）调节数据如何在这些存储库之间转换。图 3.2 展示了这种记忆模型。尽管相对简单，但该模型仍然是理解短暂的感觉印象最终如何形成稳定、持久表征的基础。

图 3.3: Baddeley 的工作记忆模型 [192]。

工作记忆模型。认识到短期记忆也涉及主动维持，Baddeley 和 Hitch [192] 提出了一个工作记忆框架，强调信息的动态操纵。他们最初的模型描述了一个中央执行器，协调两个子系统：语音环路（口头）和视觉空间画板（视觉/空间）。随后的改进引入了情景缓冲器，以整合来自这些子系统和长期记忆的材料 [193]。图 3.3 展示了工作记忆模型的框架。诸如 Cowan 的嵌入式过程模型 [194] 等替代方案同样强调了注意在管理信息如何被短暂维持和操纵中的作用。

串行-并行-独立（SPI）模型。Tulving [195] 最初倡导情景记忆、语义记忆和程序性记忆之间的区别，后来他将自己的想法完善为串行-并行-独立（SPI）模型，如图 3.4 所示。在这个框架中，记忆被分为两个主要的系统。认知表征系统处理感知输入和语义过程，包括事实、概念和上下文（情景）知识。相比之下，行动系统支撑着程序性技能，如舞蹈套路、驾驶操作或打字熟练度。Tulving 的 SPI 模型假定记忆形成可以发生在多个层面：严格的感知编码可以支持基本的情景记忆，而更丰富的情景表征则受益于语义中介。例如，患有语义性痴呆（难以记住词义）的患者仍然可以形成一些情景记忆，但通常缺乏完整语义网络所赋予的全部上下文细节。通过强调程序性记忆及其自动、直观的特性，SPI 模型旨在整合结构（记忆的内容）和功能（记忆如何被使用），超越了早期主要关注外显存储和检索的理论。尽管有这些优点，批评者指出该模型未能充分说明工作记忆在更广泛系统中的运作方式，并且连接认知和行动子系统的反馈机制仍然定义松散。

图 3.4: 人类记忆的串行-并行独立（SPI）模型 [195]。

全局工作空间理论（GWT）和 IDA/LIDA 框架。由 Baars [196] 发展的全局工作空间理论（GWT）将意识和工作记忆概念化为一种将信息分发给专门处理器的“广播”机制。基于 GWT，Franklin [197, 198] 提出了 IDA（智能分发智能体）模型，后来扩展为 LIDA（学习型 IDA），作为一个全面的认知架构。在这些框架中，多个记忆系统（例如，感知、情景、程序性）通过迭代的“认知循环”相互作用，全局工作空间充当注意和决策的中心枢纽。从人工智能的角度来看，IDA/LIDA 展示了类人记忆过程如何可以被操作化以指导智能体的感知、行动选择和学习。

ACT-R 和认知架构。ACT-R（Adaptive Control of Thought—Rational）[199] 是一个全面的认知架构，将记忆、感知和运动过程整合到一个统一的理论框架中。它已广泛应用于不同领域，包括学习和记忆、问题解决、决策、语言理解、感知和注意、认知发展以及个体差异。图 3.5 展示了 ACT-R 的过程。ACT-R 的核心是不同的模块（例如，视觉、手动、陈述性、程序性），这些模块通过专用缓冲器与系统交互。陈述性记忆存储事实性的“块”，而程序性记忆编码用于行动和策略的 if-then 产生式规则。认知通过模式匹配器展开，该匹配器根据当前的缓冲器内容选择一个单一的产生式来触发。这个符号产生式系统由子符号过程增强，这些过程由数学方程指导，动态调节激活、检索延迟和产生式效用。通过结合符号和子符号层面，ACT-R 提供了一种机制性的解释，说明个体如何获取、检索和应用知识——从而揭示了诸如反应时间、错误模式以及学习过程塑造等经验现象。

上述每个模型都阐明了记忆的不同方面。多存储模型提供了对存储阶段的直接介绍，工作记忆模型强调主动维持和操纵，而像 IDA/LIDA 或 ACT-R 这样的框架则将记忆嵌入到认知的全面视图中。在实践中，研究人员经常借鉴多种视角，反映了人类记忆的复杂性及其在感知、学习和适应性行为中的不可或缺的作用。

3.2 从人类记忆到智能体记忆

在建立了人类记忆的基础之后，我们现在关注基于大语言模型（LLM）的智能体如何管理和存储信息。记忆不仅仅是一种存储机制，它对人类和人工智能都至关重要。

图 3.5: ACT-R 模型中最重要过程的抽象表示 [199]。

人工智能至关重要。记忆支撑认知，使人类能够学习、适应和解决复杂问题。同样，对于基于大语言模型的智能体来说，记忆提供了维持上下文、从经验中学习以及随时间连贯行动的关键支架。没有记忆，即使是能力很强的大语言模型也很难适应变化的环境或在长时间的交互中保持专注。

虽然基于大语言模型的智能体和生物系统在根本上不同，但指导人类记忆的原则——上下文保留、选择性遗忘和结构化检索——与智能体设计高度相关。因此，审视人类记忆和人工记忆之间的相似点和区别是有益的。在功能上，我们可以进行类比：智能体的短期记忆缓冲器类似于前额叶皮层在工作记忆中的作用，而在向量数据库中的长期存储则类似于海马体在巩固情景记忆中的功能。智能体记忆设计可以受益于模仿人类记忆的机制，包括选择性注意、优先编码和线索依赖检索。然而，存在关键差异。

人类记忆建立在生物神经网络之上，将存储和计算整合在神经元的连接和活动模式中。这提供了高度的并行性和适应性。相比之下，当前的智能体记忆系统主要依赖于数字存储和算法，使用符号表示和逻辑运算，从而将存储和计算分开。这影响了信息处理：人类记忆是联想性的和动态的，能够进行模糊匹配和创造性跳跃，而当前的智能体记忆依赖于精确匹配和向量相似性，难以处理歧义。尽管数字存储容量巨大，但它尚不能复制人类记忆的复杂性和动态性，尤其是在细微的模式识别和长期稳定性方面。人类记忆虽然不完美，但擅长从嘈杂的数据中提取关键信息。智能体记忆系统在当前阶段，与人类记忆的复杂性相比仍处于初级阶段，在组织、整合、适应性遗忘和知识转移方面面临局限。

在基于大语言模型的智能体中，对专用记忆模块的需求至关重要。虽然外部知识库（数据库、搜索引擎、API）[200] 提供了有价值的信息，但它们无法捕捉智能体的内部推理、部分推断或特定任务的上下文。智能体记忆系统内化了中间步骤、不断演变的目标和历史对话，从而实现了自我参照的探索和适应。这对于需要智能体基于先前判断或维持对用户目标的个性化理解的任务至关重要。

早期的智能体记忆方法，例如将对话历史附加到输入提示（一种基本的工作记忆形式）[201]，已经发展。现代架构采用了更复杂的技术，包括用于快速检索记忆的向量嵌入 [202] 以及将推理链选择性地整合到后续推理步骤中 [203, 204]。这些多样化的方法共享一个共同目标，即在不损害系统响应能力的情况下管理大型信息库。

然而，与人类记忆的复杂性相比，当前的智能体方法存在局限性。许多系统缺乏连贯的长期记忆巩固策略，导致日志混乱或信息突然丢失。存储知识和正在进行的处理之间灵活、双向的相互作用，这是人类工作记忆的特征，通常是缺失的。元认知监督——选择性回忆、遗忘以及对过时信息的警惕——在基于大语言模型的智能体中也发展不足。像人类那样平衡全面的回忆和实际效率仍然是一个关键挑战。

为基于大语言模型的智能体构建健壮且适应性强的记忆涉及解决三个核心研究问题：首先，应如何表示记忆以捕获不同类型的信息并促进有效访问？其次，智能体记忆如何演变，整合新经验，适应变化的环境，并保持一致性？最后，存储的记忆如何有效地增强推理、决策和整体智能体性能？以下各节将深入探讨这些关键领域，探索当前的方法、局限性和潜在的未来方向。

3.3 智能体记忆的表示

受人类认知系统 [285] 的启发，当前智能智能体中的记忆架构采用了一个层级框架，该框架整合了通过感知记忆 [205] 的感知、通过短期记忆 [286, 287] 的实时决策以及通过长期记忆 [288, 289, 48] 的持续知识保留。这种多层结构使智能体能够管理即时任务，同时保持更广泛的上下文理解，从而在各种交互中促进适应性和无缝连续性。

具体来说，记忆系统将原始环境输入转化为结构化的、可操作的表示。感知记忆充当入口，捕获并选择性地过滤感知信号，为认知处理提供基础。短期记忆将这些即时感知与任务级理解联系起来，缓冲最近的交互并通过经验回放和状态管理实现动态适应。然后，长期记忆在较长时间内巩固和存储信息，促进跨任务泛化和持久知识的积累。

这些记忆组件共同形成了一个连贯的感知、解释和响应循环。这个循环支持实时决策，并使智能体能够持续学习和进化，反映了响应能力和成长之间的复杂平衡。下面将深入探讨每种记忆类型的构建方式，探索它们在智能体认知架构中的独特作用和相互作用。

3.3.1 感知记忆

在人类认知系统中，感知记忆是作为通过感官——触觉、听觉、视觉等——收集信息的机制，其特点是寿命极短。类似地，感知记忆在智能智能体中充当文本、图像和其他感知数据等输入的嵌入表示。它代表了环境信息处理的初始阶段，充当将原始观察转化为有意义的表示以供进一步认知处理的入口。

智能智能体中的感知记忆超越了被动的信息接收。它动态地编码和过滤感知信号，将即时感官输入与智能体的内部状态、目标和先验知识联系起来。这种适应性过程有助于快速感知环境变化、任务连续性和实时上下文感知信息处理。采用复杂的注意机制来确保感知记忆层的相关性和焦点，为决策和适应奠定关键基础。

形式上，感知记忆的形成包括三个连续步骤：感知编码、注意选择和瞬时保留。首先，感知编码将原始感官信号转化为可处理的表示，数学上表示为：

$\phi(o_{t})=\operatorname{Encode}(o_{t},s_{t})$

其中 $o_{t}$ 是时间 $t$ 的感官输入， $s_{t}$ 代表智能体的状态。例如，RecAgent [205] 采用基于大语言模型的感知记忆模块来编码原始观察，同时过滤噪声和不相关内容。

图 3.6: 智能智能体中记忆模块的树状图。

扩展到基于文本的感知之外，多模态感知记忆系统如 Jarvis-1 [228]、VideoAgent [209] 和 WorldGPT [210] 集成了多模态基础模型来处理不同模态的输入。

接下来，注意选择从编码的感官数据中提取关键信息。这个过程由注意机制引导，表示为：

$\alpha_{t}=\mathrm{Attention}(\phi(o_{t}),c_{t})$

其中 $\phi(o_{t})$ 是编码后的输入， $c_{t}$ 表示影响注意力的上下文信息。例如，RecAgent [205] 采用了一种带有重要性评分系统的注意机制，该系统为压缩后的观察分配相关性分数，优先处理关键输入（如特定项目的交互），同时降低不太重要的行动的权重。这有助于提取高优先级信息以供记忆保留。

最后，瞬时保留将选定的感官信息暂时存储为感知记忆：

$M_{\mathrm{sensory}}=\{\alpha_{t}\ |\ t\in[t-\tau,t]\}$

已经实施了几种策略来管理时间窗口。例如，RecAgent [205] 通过将每个观察与用户行为模拟环境中模拟轮次开始时的时间戳相关联来建模保留，表示为三元组 <观察，重要性分数，时间戳> 。类似地，CoPS [206] 采用固定大小的感知记忆池作为时间窗口，其中包含用于个性化搜索的用户搜索请求，以促进“重新查找”行为。当收到新查询时，系统首先检查感知记忆以查找相关匹配。如果找到匹配项，则将查询分类为重新查找实例，从而实现快速的感知响应。

3.3.2 短期记忆

受认知启发的智能智能体中的短期记忆充当连接感知记忆和长期记忆的瞬时动态工作空间。它对于存储和处理任务相关信息以及最近的交互序列至关重要，支持实时决策和适应性行为。受人类短期记忆和工作记忆的启发，它暂时保留信息以促进复杂的认知任务，确保智能体操作的连续性和连贯性。

智能智能体中的短期记忆可以分为上下文记忆和工作记忆。一方面，上下文记忆将上下文窗口视为大语言模型的短期记忆。例如，MemGPT [214] 受操作系统中分层记忆系统的启发，管理不同的存储层以将上下文扩展到大语言模型固有的限制之外。[290] 引入了一种神经符号上下文记忆，通过启用符号规则基础化和基于大语言模型的规则应用来增强大语言模型。

另一方面，工作记忆涉及获取和整合相关的外部知识，以在智能体操作期间持有必要的信息。Generative Agent [50] 利用短期记忆来保留情境上下文，促进上下文敏感的决策制定。Reflexion [48] 利用滑动窗口机制来捕获和总结最近的反馈，平衡详细的即时经验和高级抽象，以增强适应性。RLP [218] 维护说话者和听话者的对话状态，将它们用作短期记忆提示，以支持对话理解和生成。

对于交互式和创造性的游戏场景，CALYPSO [219] 通过从场景描述、怪物细节和叙事摘要构建短期记忆来协助地下城主进行《龙与地下城》的叙事，从而实现适应性叙事和动态参与。类似地，Agent S [211] 和 Synapse [291] 设计用于基于 GUI 的自主计算机交互，将其短期记忆定义为任务轨迹，包括按钮点击和文本输入等操作。这种形式化支持行为克隆并增强了在新的 GUI 导航任务中的适应性。

在机器人应用中，SayPlan [292] 利用场景图和环境反馈作为短期记忆，以指导在可扩展机器人环境中的规划和执行。KARMA [215] 利用有效且适应性的记忆替换机制来动态记录物体位置和状态的变化，从而启用短期工作记忆。LLM-Planner [293] 用环境观察迭代更新短期记忆，以提示大语言模型进行动态规划。

3.3.3 长期记忆

受认知启发的智能智能体中的长期记忆能够长时间保留和检索信息，使智能体能够泛化知识并有效地适应新环境。与处理瞬时或即时数据的感知记忆和短期记忆不同，长期记忆支持累积学习和跨任务适应性。它通过整合外显和内隐组件来模仿人类长期记忆，促进更丰富的上下文理解和直观行为。

一方面，外显记忆涉及有意识的回忆，类似于人类的陈述性记忆。它包括存储一般知识（如事实和概念）的语义记忆，以及记录特定事件和交互历史的情景记忆。智能智能体中的语义记忆可以从领域知识库预加载，或通过交互动态获取。例如，在像 TextWorld 这样的环境中，语义记忆捕获结构化事实，如“食谱包含金枪鱼”或“食谱在桌子上”。相比之下，情景记忆记录情境上下文和顺序动作，如“从厨房到客厅，然后到花园”。整合语义和情景记忆使智能体能够保留静态和上下文信息，从而实现类似人类的适应性和上下文感知响应。

另一方面，内隐记忆通过程序性记忆和启动效应塑造智能体行为。程序性记忆使智能体能够通过回忆特定技能和可重用计划来高效执行重复性任务。例如，它可以在不需要明确指令的情况下自动化常规任务，提高任务执行效率。同时，启动效应捕获状态变化和相应的响应，使智能体能够快速适应类似的情境。启动效应通过将观察直接匹配到行动或持续链接行动来增强流畅性和上下文敏感的决策。内隐记忆受与认知模块交互的影响而形成，能够实现快速适应，通常在接触新刺激后只需极少暴露即可。

大多数智能智能体在其记忆模块中同时实现了语义和情景记忆。例如，专为 GUI 自动化任务设计的 Agent S [211] 包含语义记忆以自然语言形式存储在线网络知识，而情景记忆则捕获高级、分步骤的任务经验。类似地，针对具身模拟任务的 AriGraph [221] 使用事实图编码语义环境知识，并通过事件图记录情景导航历史。在像 MemoryBank [207] 这样的 AI 伴侣系统中（用于 SiliconFriend），语义记忆以自然语言构建用户画像，而情景记忆保留交互历史，增强了个性化和上下文感知的行为。

为了实现内隐记忆，当前的智能体系统主要采用对模型友好的记忆格式，例如键值对存储、可执行代码或可重用例程。例如，AAG [226] 通过类比定义和泛化程序，将知识从一种情境（基础）映射到另一种情境（目标）。这种结构可以表示为一个线性有向链图，其中输入作为根节点，输出作为叶节点，每个中间步骤作为链中的一个节点。类似地，Cradle [227] 和 Jarvis-1 [228] 通过以代码形式存储和检索技能来实现程序性记忆，这些技能可以从头学习或预先定义。一旦整理好，技能就可以在记忆中添加、更新或组合。然后，检索与给定任务和上下文最相关的技能以支持行动规划。

3.4 记忆生命周期

在本节中，我们介绍人工智能智能体中记忆的生命周期，如图 3.7 所示。生命周期包括保留和检索的双重过程。保留包括获取、编码和衍生，而检索包括记忆匹配、神经记忆网络和记忆利用。

3.4.1 记忆获取

记忆获取是智能智能体从其环境中接收原始感知信息的基础过程。这第一步对于后续的学习、适应和决策至关重要 [305]。获取过程中的一个主要挑战是环境输入的巨大数量和复杂性。智能体不断受到视觉、听觉、文本和其他形式数据的轰炸，其中大部分是冗余的或与智能体目标无关的。因此，记忆获取的核心方面不仅仅是捕获数据，还包括启动初步的过滤过程。这种过滤利用了两个主要机制：初始信息压缩和经验巩固。

在这个早期阶段，信息压缩涉及使用基本技术来降低数据维度。这可能包括对图像进行下采样、使用简单启发式方法从文本中提取关键短语，或识别音频流中的显著变化 [306]。目标是快速、有损压缩，以优先处理潜在相关的信息。例如，LMAgent [230] 提示大语言模型执行信息压缩，在构建感知记忆时减少不相关和不重要的内容，以提高操作效率。同时，ReadAgent [231] 和 GraphRead [307] 分别采用不同的策略来压缩长文本，即分段分页和基于图的结构化，以最大化信息保留，同时确保效率。

另一方面，经验巩固，即使在获取阶段也发挥作用。智能体此时还没有丰富的记忆，但它可以开始应用先前学到的、非常通用的规则或偏见。例如，如果智能体预先存在对移动物体的偏见，它可能会优先处理包含运动的视觉数据，甚至在完全编码之前 [308]。为了增强基于记忆的经验的动态巩固，[235] 定义了诸如上下文相关性和回忆频率等指标，以确定是否更新向量数据库中的长期记忆。

表 3.1: 各种智能体中记忆模块的总结。请参考图 3.6 获取缩写说明。

方法	领域	记忆表示			记忆生命周期
方法	领域	感知	短期	长期	获取	编码	衍生	检索	利用
Synapse [291]	GUI	多模态	上下文	程序性, 情景性	用户演示		层级规划		动作执行
Agent S [211]	GUI	多模态	工作	语义, 情景性	压缩历史	对比学习	选择性保留	索引	长期规划
Automanual [108]	GUI	多模态	上下文	程序性, 情景性	用户演示	分层任务	分解	任务相似性	子目标实现
AutoGuide[294]	GUI	多模态	上下文		屏幕捕获		行动计划		动作执行
Agent-Pro [295]	GUI	多模态	上下文		捕获状态		层级规划		动作执行
MemGPT [214]	文档	文本	工作, 上下文		外部数据库			页面调用	文档问答
SeeAct [296]	Web	多模态	上下文		屏幕截图		行动计划		交互
AutoWebGLM [297]	Web	文本	上下文		HTML 结构	HTML 解析	HTML 相似性		交互
SteP [298]	Web	文本	上下文	任务特定	HTML 结构	HTML 解析	HTML 相似性	元素定位	交互
AWM [299]	Web	文本		程序性	工作流	自动化		设置	工作流执行
AriGraph [221]	TextWorld	文本		语义, 情景性	观察	知识图谱	图遍历	相似性检索	动作规划
MemoryBank [207]	对话	文本		情景性	对话记录			时间顺序	响应生成
PromptAgent [300]	通用	文本	上下文		提示		提示生成	内容相似性	提示优化
ECL[301]	具身	多模态	上下文	情景性	记录轨迹	对比学习	经验总结	相似性 & 近时性	策略学习
LEO [302]	具身	多模态	工作	长期视野表示	观察	时空学习	目标条件	分层检索	执行视野
IER [303]	具身	多模态	上下文	情景性	环境交互	多模态嵌入	迭代优化	相似性匹配	行动规划
Voyager [47]	具身	文本	工作	程序性	课程学习	技能库	提示工程	相似性	技能执行
A3T [49]	具身	文本	上下文		提示模板	Token 化 & 嵌入	行动规划		动作执行
STARLING[304]	机器人	多模态	上下文	程序性	演示	权衡	技能检索	相似性检索	技能执行

Expel [69] 构建了一个经验池来收集和提取训练任务中的见解，促进对未见任务的泛化。最近，MindOS [233] 提出了一个以工作记忆为中心的中央处理模块，用于构建自主人工智能智能体，其中工作记忆将任务相关经验巩固为结构化思想，以指导未来的决策和行动。

这两个机制与初步的大语言模型输入协同工作。为了应对初始挑战，必须部署几种机制。智能体必须配备机制来快速评估传入信息的潜在相关性。这种初步过滤可以防止认知过载。获取阶段也受益于大语言模型。

3.4.2 记忆编码

记忆编码在获取的基础上，将过滤后的感知信息转化为适合存储和后续使用的内部表示。编码的一个关键方面是选择性过滤。这种选择性注意模仿了人类的认知过程 [309]。编码的固有挑战源于原始感知数据的复杂性、高维度和通常带有噪声的特性。有效的编码需要先进的机制来识别关键特征，紧凑地压缩它们，并整合来自多种模态的信息。现代方法通过利用选择性注意和多模态融合来应对这些挑战。

图 3.7: 记忆生命周期示意图。记忆保留过程包括三个连续步骤——记忆获取、编码和衍生，而记忆检索过程包含几个独立的应用，包括匹配（向量搜索）、神经记忆网络和记忆利用（用于长上下文建模和幻觉缓解）。

选择性注意机制，受人类认知启发，允许智能体动态地将计算资源集中在输入的最相关部分。这可能涉及关注图像的特定区域、文本中的关键词或音频信号中的特定频率。可以根据模态和任务使用不同的注意机制。例如，随着候选记忆动态扩展，MS [237] 采用基于大语言模型的评分器来选择性地保留得分最高的一半，从而在多个智能体系统之间创建更紧凑的共享记忆。在其他模态中，GraphVideoAgent [238] 利用基于图的记忆来实现选择性和多轮视频场景理解，从而提高问答性能。在机器人控制中，[240] 将选择性注意实现为一种过滤机制，从桌子上所有感知到的对象集合中提取与任务相关的对象。

多模态融合 [310] 对于整合来自不同感官输入的信息（例如，结合视觉和听觉数据来理解场景）至关重要。这涉及到创建一个统一的表示空间，其中来自不同模态的特征被对齐。跨模态编码器和对比学习技术通常用于实现这种融合。例如，JARVIS-1 [228] 使用通用领域的视频-语言模型 CLIP [51] 来计算多模态键值记忆中的对齐，其中键包含任务、计划和视觉观察等元素，值是成功执行计划的基于文本的表示。此外，Optimus-1 [241] 通过利用 MineCLIP [311]（一个在 Minecraft 游戏玩法上预训练的领域特定视频-语言模型）来优化记忆表示和多模态编码器，以对齐和融合过滤后的视频流与文本指令和计划，将智能体的多模态经验编码到一个抽象的记忆池中。这种集成表示增强了跨模态的信息检索和推理，并充当了另一个过滤器，强化了一致的数据。利用大语言模型的语义理解来有效提取相关特征。

3.4.3 记忆衍生

记忆衍生专注于从获取和编码的记忆中提取有意义的知识和见解。这个过程超越了简单的存储。这个阶段对于增强智能体的学习能力至关重要。目标是持续优化智能体记忆的结构和内容。衍生的一个重大挑战是对信息价值的动态评估。应对这些挑战的策略包括反思、总结、知识蒸馏和选择性遗忘。

反思涉及智能体主动分析其记忆以识别模式、关系和潜在的不一致性。它可以由特定事件（例如，意外结果）触发，或作为后台进程定期发生。这个过程可能包括比较记忆、推理因果关系和生成假设 [300]。ExpeL [69] 利用反思来收集过去的经验，以便泛化到未见过的任务，并支持失败后的试错重试。R2D2 [243] 将记忆建模为回放缓冲区，并应用反思通过纠正 Web 智能体中失败的执行轨迹来对其进行细化。然后将这些纠正后的轨迹与成功的轨迹相结合，构建反思性记忆，作为未来决策的参考。

总结旨在生成大量信息的简洁表示，同时保留其最基本的内容。这可以包括从文档中提取关键句子、生成对话的抽象性摘要或浓缩事件序列。总结技术范围从简单的抽取方法到由大语言模型（LLM）驱动的高级抽象方法 [245, 312, 246]。例如，[248] 引入了一种针对对话历史和先前记忆的递归总结策略，以支持长期对话记忆的衍生。在此基础上，Healthcare Copilot [247] 通过将代表完整进行中医疗咨询的对话记忆转换为仅保留与患者病史相关的关键信息的历史记忆来维持简洁的记忆。

知识蒸馏 [313] 使智能体能够将知识从更大、更复杂的模型（或集成模型）转移到更小、更高效的模型。这对于资源受限的智能体和增强泛化能力尤其重要。蒸馏还可以涉及将来自多个专门模型的知识整合到一个单一的通用模型中。例如，AoTD [250] 将子任务执行轨迹中的文本思维链蒸馏到一个 Video-LLM 中，以增强视频问答任务中的多步推理性能。LDPD [251] 将教师智能体（即专家缓冲区）的决策结果转移给学生智能体，优化学生的策略以与教师的策略保持一致。在多智能体系统中，MAGDi [253] 通过将多轮交互结构化地表示为图，将多个大语言模型之间的推理交互蒸馏到较小的模型中，从而提高较小大语言模型的推理能力。

选择性遗忘 [314] 是移除或降低被认为不相关、冗余或过时的记忆权重的关键过程。这对于维持记忆效率和防止认知过载至关重要。遗忘机制可以基于时间（较旧的记忆更可能被遗忘）[247]、使用频率（不常访问的记忆更可能被遗忘）[203] 以及与当前任务或上下文的相关性 [255]。在更细粒度的遗忘机制中，MemoryBank [207] 应用艾宾浩斯遗忘曲线来量化遗忘率，同时考虑了时间衰减和间隔效应，即重新学习信息比第一次学习更容易的原则。相比之下，Lyfe Agent [254] 采用分层总结和遗忘策略：它首先聚类相关的记忆，将它们提炼成简洁的摘要，然后移除与较新记忆高度相似的较旧记忆。这种方法能够为实时社交互动实现高效、低成本的记忆更新。

3.4.4 记忆检索与匹配

记忆检索是一个模仿人类回忆相关知识和经验以解决问题的能力的过程。目标是从庞大且多样化的记忆池（包括感知、短期和长期记忆）中高效、准确地提取最相关的记忆片段，以指导智能体的决策、规划和行动。正如人类依靠过去的经验来应对复杂情况一样，智能体需要一个复杂的记忆检索机制来有效地处理各种任务。

然而，实现这一目标存在几个重大挑战。首先，智能体的记忆库通常是异构的，包含各种形式的记忆，如自然语言描述、结构化知识图谱和状态-动作-奖励序列。这些记忆在数据结构、表示和语义粒度级别上根本不同，给统一检索带来了挑战。其次，检索到的记忆片段必须与当前上下文高度相关，包括智能体的状态、任务目标和环境观察。简单的关键字匹配不足以捕捉有意义检索所需的更深层次的语义关系。因此，开发一个能够根据当前情况动态调整检索策略的上下文感知语义匹配机制至关重要。第三，智能体与环境实时交互的特性要求高效的记忆检索，以支持快速决策和行动 [315]。对效率的这种需求因智能体计算资源的限制而进一步加剧。最后，智能体的记忆不是静态的，而是随着新经验、知识和技能的获取而不断演变。确保存储的记忆的及时性、可靠性和相关性，同时避免过时或错误信息的干扰，是一个持续的挑战。

一个全面的方法可以应对这些挑战，包含四个关键组成部分。首先，基础步骤涉及构建统一的记忆表示和索引方案。这旨在通过将不同类型的记忆嵌入到共同的向量空间中来弥合它们之间的表示差距。可以利用像 BERT 或 Sentence-BERT [316] 这样的预训练语言模型将基于文本的记忆转换为语义向量，而图神经网络（GNN）可以学习结构化记忆（如知识图谱）的向量表示，捕捉节点和边的关系 [317]。为了促进高效检索，多层混合索引结构至关重要。这整合了诸如用于关键字匹配的倒排索引、用于相似性搜索的 Faiss [318] 或 Annoy [319] 等向量索引以及用于结构化查询的图索引 [320] 等技术，从而支持多样化的查询需求。

其次，也许是最关键的，系统必须发展上下文感知的语义相似度计算。这使得检索过程能够理解和利用当前上下文，例如智能体的状态、目标和观察，从而实现超越关键字重叠的更深层次的语义匹配。这涉及到将上下文信息编码为向量表示，并有效地将它们与记忆向量融合。注意机制在这里起着至关重要的作用，它动态计算上下文和记忆向量之间的相关性，并根据其上下文相关性为记忆片段分配不同的权重 [261]。这强调了与当前情况更相关的记忆。

第三，将记忆检索与智能体的任务执行相结合，需要一个面向任务的序列决策和动态路由机制。这利用任务的结构信息来指导记忆检索和利用，从而实现复杂的任务分解、规划和动态调整。通过构建任务依赖图，智能体可以对子任务进行拓扑排序以确定执行顺序。在执行期间，每个子任务的目标作为记忆检索的上下文，提取相关的知识和经验。此外，智能体必须适应环境反馈和任务进展，动态调整执行计划。每个决策点都涉及根据当前状态和目标重新检索记忆，以选择最佳行动并处理意外情况。这方面也强调了智能体如何利用其技能记忆来解决问题，包括技能蒸馏、组合和创新。模式识别允许总结通用的问题解决步骤，而结构化知识组织则将技能排列成可检索的格式。智能体可以进一步从特定技能中蒸馏出通用技能，组合多种技能以应对复杂挑战，甚至创新新的技能组合。这些过程从根本上依赖于一个高效的记忆检索系统，该系统能够根据任务需求识别适当的技能或技能组合。

最后，一个健壮的记忆管理机制对于维持记忆池的及时性、相关性和效率至关重要。该机制应包含一个遗忘和更新策略，模仿人类的遗忘机制 [321]。这可能涉及根据基于时间的衰减（随时间推移减弱记忆强度）和基于频率的衰减（清除低频记忆）定期清除过时、冗余或不常用的记忆。同时，当检索到与当前任务相关的记忆片段时，会更新其时间戳和访问频率，增加其重要性并确保存储的记忆动态更新。通过这些协同努力，大语言模型智能体可以配备一个强大、灵活且上下文感知的记忆检索和匹配系统，使它们能够有效地利用其积累的知识，支持复杂的决策制定，并展现出更智能的行为。

3.4.5 神经记忆网络

神经记忆网络代表了人工智能研究中一个引人入胜的前沿领域。它们旨在将记忆无缝地整合到神经网络的结构中。这种方法不同于传统的记忆架构，它通过直接在网络的权重或激活中编码记忆，将网络转变为动态的、可读写的记忆存储介质。这种紧密的集成有望在效率和存储信息的利用方面取得重大进展。然而，实现这一愿景提出了几个艰巨的挑战。

一个主要关注点是在记忆容量和稳定性之间取得平衡。在神经网络的有限参数内编码大量信息，同时保持长期稳定性，这是一个主要障碍。网络必须能够存储大量的记忆，而不会遭受灾难性遗忘或相似记忆之间的混淆。同样关键的是开发有效的记忆读写操作机制。网络需要可靠地写入新信息、更新现有记忆，并按需准确检索存储的信息，同时保持计算效率。除了简单地存储记忆之外，最终目标是赋予神经网络从其存储的信息中进行泛化和推理的能力。这将使它们能够执行超越死记硬背的高阶认知功能，允许基于过去经验进行富有洞察力的连接和推断。为了应对这些挑战，正在探索几种方法，特别是通过联想记忆和参数集成。

一方面，受大脑中神经元相互连接的启发，联想记忆提供了一条有前途的途径。像利用能量函数的 Hopfield 网络 [262, 263] 和支持异构联想回忆的双向联想记忆（BAM）[322] 等模型，提供了基于神经元之间权重编码和检索模式的机制。此外，神经图灵机（NTM）[264] 和记忆增强神经网络（MANN）[323, 324, 275, 265] 通过外部记忆模块增强神经网络，采用注意和总结机制与这些记忆进行交互。

另一方面，参数集成是另一个关键的研究方向，旨在将记忆直接编码到网络的权重中。这有助于将世界知识和积累的经验无缝集成到智能人工智能智能体的操作行为中。例如，一些先前的工作修改模型参数，通过更新 [325, 326, 327] 或遗忘特定知识 [328] 来实现持续学习。其他研究将大语言模型视为独立的记忆模块，在预训练 [329]、后训练 [330] 和在线部署 [331] 期间将世界知识整合到其参数中。例如，MemoryLLM [265] 引入了记忆 token，而 SELF-PARAM [266] 则利用知识蒸馏将世界知识和过去人工智能智能体的经验嵌入到模型参数中。这种方法在 $\mathbf{M}+$ 模型 [332] 中得到了进一步增强，增加了长期记忆机制和共同训练的检索器，提高了其泛化到更长历史记忆的能力。此外，[333] 利用编码的记忆来促进进一步的推理，从而提高了存储知识的泛化能力。最近，MemoRAG [267] 和 ${\tt R}^{3}$ Mem [270] 被提出来，不仅用于编码记忆，而且能够从神经记忆网络中可靠地检索，将记忆存储和检索的双重过程统一到一个单一模型中。这一进展有助于开发下一代基于生成的检索系统，支持终身人工智能应用。此外，Titans [269] 被引入，通过元学习来记忆测试时数据点，从而实现更高效的测试时跨任务泛化。

未来的研究将继续专注于创建更大容量和更稳定的神经记忆模型。同时，开发更高效、更灵活的记忆读写机制将至关重要。一个关键的研究领域将涉及将这些记忆增强网络应用于复杂的认知任务，推动人工智能所能达到的界限。该领域的进展将为构建能够以日益接近人类认知的方式学习、记忆和推理的智能智能体解锁新的可能性。

3.4.6 记忆利用

智能体设计的一个关键方面在于记忆利用，它专注于最大化存储的记忆片段对于当前任务的价值。核心目标是有效且适当地应用这些记忆，以增强推理、决策、规划和行动生成，最终提高智能体的性能和效率，同时避免不相关或错误记忆干扰的陷阱。然而，实现这一点存在几个挑战。

一个主要挑战是在庞大的记忆存储与其有效利用之间取得平衡。智能体必须应对潜在的信息过载，确保存储的相关记忆得到充分利用，而不会使系统不堪重负。另一个障碍是抽象化和泛化的需求。智能体需要将特定的记忆片段提炼成更通用的知识，并将这些知识应用于新的、多样化的情况。此外，大语言模型内部的幻觉和错误记忆问题需要仔细考虑。防止生成与存储信息相矛盾或歪曲的内容至关重要，识别和纠正可能存在于记忆存储本身的错误信息的能力也同样重要。

为了应对这些挑战，采用了几种策略。检索增强生成（RAG）[334] 结合了检索和生成模型，通过利用外部知识源来增强大语言模型的能力。与记忆检索和匹配中提到的方法不同，RAG 专注于将检索到的信息整合到生成过程本身。当被提示时，智能体检索相关的记忆片段，并将它们整合到生成模型提供的上下文中。这种上下文丰富引导模型产生更符合事实和信息量更大的输出。例如，当响应用户查询时，智能体可以首先从其知识库中检索相关条目，然后基于这些检索到的信息生成答案，从而将响应建立在已有的知识基础上。最近，一些研究将记忆模块与 RAG 集成，结合了自我反思 [274] 和自适应检索机制 [272]，以提高生成的可靠性和效率。例如，Atlas [273] 利用因果中介分析，而 [284] 则采用基于一致性的幻觉检测来确定模型是否已经拥有必要的知识——允许直接生成——或者是否需要检索，在这种情况下，模型首先检索相关信息，然后生成响应。在一个统一的框架中，RAGLAB [271] 为评估和分析主流 RAG 算法提供了一个全面的生态系统。HippoRAG [222] 采用受人类记忆海马索引理论启发的策略，为记忆创建一个基于知识图谱的索引，并使用个性化 PageRank 进行记忆检索。

此外，长上下文建模在管理大量记忆存储方面起着至关重要的作用。这种方法增强了大语言模型处理长序列和大规模记忆的能力，允许更深入地理解和利用长程依赖关系。通过采用像 Transformer-XL [324] 和 Longformer [335] 这样的 Transformer 模型变体，或通过分层和递归处理技术，如递归记忆 transformer (RMT) [275, 276]，智能体可以扩展其上下文窗口。这使它们能够处理明显更广泛的记忆存储，并在更广阔的背景下进行推理和决策。例如，智能体在处理大量文档或进行长时间对话时可以保持更长的记忆跨度。此外，一些研究利用记忆来压缩长上下文，从而实现更有效的长上下文建模。例如，AutoCompressor [277] 引入摘要向量作为记忆，将信息从先前的上下文窗口传输到当前窗口，促进长上下文理解。类似地，上下文自编码器（ICAE）[278] 生成能够准确全面地表示原始上下文的记忆槽，而 LLMLingua [336, 337]、Gist [279] 和 CompAct [280] 则进一步优化长提示压缩以减少输入上下文长度。

最后，幻觉缓解策略对于确保证成输出的可靠性至关重要。这些策略旨在最小化大语言模型产生事实不正确或无意义内容的倾向。一种方法是实施事实核查机制 [338]，对照已建立的知识或记忆存储验证生成的内容。另一种方法涉及不确定性估计 [339, 340]，模型评估其生成内容的置信度，并标记或过滤掉低置信度输出。此外，可以在生成阶段采用基于知识的解码策略，引入约束以引导模型产生更符合事实的内容。这些技术共同有助于生成更值得信赖的、与智能体已建立的知识库一致的输出。最近的研究引入了专家记忆子网络，例如 PEER [283] 和 Lamini Memory Tuning [281]，它们专门用于记忆特定类型的信息，包括世界知识和人工智能智能体的过去经验。这些子网络将记忆任务卸载到专用参数上，减少了主模型产生幻觉的倾向。通过实施这些记忆利用策略，智能体可以变得更有能力、更准确、更可靠。它们可以成功地利用其记忆存储在复杂任务中实现卓越性能。

3.5 总结与讨论

真正智能智能体的开发不仅取决于健壮的记忆系统，还取决于它们与其他认知功能（如感知、规划、推理和行动选择）的无缝集成。记忆不是一个孤立的模块；它与这些其他过程深度交织在一起。例如，感官输入在存储之前被编码和过滤（如在记忆表示和生命周期部分所讨论的），突显了感知和记忆之间的相互作用。长期记忆，尤其是程序性记忆，通过学习到的技能和例程直接指导行动选择。检索机制，如上下文感知的语义相似度计算，对于规划至关重要，允许智能体访问相关的过去经验。这种相互作用延伸到“世界模型”的概念。

智能智能体的核心在于它们构建和利用内部世界模型的能力。这些模型代表了智能体对其环境的理解，能够进行模拟、推理后果和预测。健壮的世界模型对于更高层次的认知、规划和类人智能至关重要。世界模型本质上是一种高度结构化、通常具有预测性的长期记忆形式。记忆为构建世界模型提供了原材料——知识和经验——而世界模型反过来又充当组织框架，影响新记忆如何被编码、巩固和检索。例如，一个发展良好的世界模型可能会优先存储令人惊讶的事件，因为这些事件表明了智能体理解中的差距。

然而，开发有效的世界模型和记忆系统提出了重大挑战。这些挑战包括管理现实世界环境的复杂性，确定适当的抽象级别（平衡准确性、复杂性和计算效率），以及整合多模态信息。高效地学习和更新这些模型，避免偏见，确保存储的泛化能力，并实现持续适应也至关重要。此外，基于模型的规划需要高效的搜索算法来处理模型预测中固有的不确定性。

未来的研究应侧重于通过借鉴人类记忆的优势，特别是其灵活性、适应性和效率，来增强智能体记忆系统。虽然智能体记忆已经取得了相当大的进步，但在这些关键领域仍然落后于人类记忆。人类记忆具有显著的联想性，能从不完整或嘈杂的线索中检索信息，并且它表现出一种复杂的“遗忘”形式，涉及巩固和抽象，优先处理相关信息并从经验中泛化。相比之下，智能体记忆通常依赖于精确匹配，并且难以处理歧义。

几个有前途的研究方向应运而生。探索受生物启发的机制，例如神经记忆网络（如前所述），可能导致重大突破。另一个关键领域是开发能够主动“管理”其内容的记忆系统——反思信息、识别不一致之处并综合新知识。这需要在智能体架构中集成元认知能力（监控和控制自身的认知过程）。此外，创建更健壮、更细致的情景记忆形式，不仅捕捉事件的“什么”和“何时”，还捕捉“为什么”和情感背景，对于能够真正从经验中学习并与人类自然互动的智能体至关重要。

克服这些挑战需要在深度学习、强化学习和认知科学交叉领域进行创新。开发更复杂、适应性更强的世界模型和记忆系统——反映人类认知优势的系统——将为具有更深层次环境理解的智能体铺平道路，从而实现更智能、更有意义的交互。