语言智体的认知结构_cognitive architectures for language agents-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/139542655

23年9月来自普林斯顿大学的论文“Cognitive Architectures for Language Agents“。

用外部资源（例如，互联网）或内部控制流（例如，提示链接）增强大语言模型（LLM），可用于需要落地或推理的任务，从而产生一类新语言智体。虽然这些智体在经验上取得了实质性的成功，但缺乏一个系统框架来组织现有智体和规划未来的发展。本文借鉴认知科学和符号人工智能的丰富历史，提出语言智体的认知架构（CoALA）。CoALA描述了一种具有模块化记忆组件的语言智体，一个与内部记忆和外部环境交互的结构化动作空间，以及一个选择动作的广义决策过程。用CoALA来调查和组织大量最近的工作，并前瞻性地确定针对更强智体的可行方向。总之，CoALA将当今的语言智体置于更广泛的人工智能历史中，并勾勒出一条通往基于语言通用智能的道路。

如图所示是LLMs的不同使用方法：A：在自然语言处理（NLP）中，LLM将文本作为输入并输出文本。B：语言智体将观察转化为文本并用LLM选择动作，将LLM置于与外部环境的直接反馈循环中。C：认知语言智体用LLM学习和推理来管理智体的内部状态。

添加图片注释，不超过 140 字（可选）

记忆。基于心理学理论，Soar用几种类型的记忆来追踪智体的状态（Atkinson&Shiffrin，1968）。工作记忆（Baddeley&Hitch，1974）反映了智体的当前环境：它存储智体最近的感知输入、目标和中间内部推理的结果。长时记忆分为三种不同的类型，程序记忆存储生产系统本身：可以应用于工作记忆以确定智体行为的一组规则。语义记忆存储关于世界的事实（Lindes&Laird，2016），而情景记忆存储智体过去行为的序列（Nuxoll&Lairrd，2007）。

落地。Soar可以在模拟中（Tambe1995；Jones1999）或真实世界的机器人系统（Laird2012）实例化。在具身上下文中，各种传感器将感知输入流入到工作记忆中，在那里它可以用于决策。Soar智体也可以配备致动器，允许通过语言进行物理动作和交互式学习（Mohan2012；Mohan&Laird2014；Kirk&Lairrd2014）。

决策。Soar实现了一个决策循环，用于评估产品并应用最匹配的产品。产品存储在长时程序内存中。在每个决策周期中，根据智体的工作记忆来检查它们的前提条件。在提议和评估阶段，使用一组产品来生成并排名一组可能的动作。然后选择最佳动作，用另一组产品实施动作，例如修改工作记忆的内容或发出电机命令。

学习。Soar支持多种学习模式。首先，新信息可以直接存储在长时记忆中：事实可以写入语义记忆，而经验可以写入情节记忆（Derbinsky2012）。稍后，当决策需要时，可以将这些信息检索回工作记忆中。其次，行为是可以修改的。强化学习（Sutton&Barto，2018）可用于提高产生良好输出的产品分量，使智体能够从经验中学习（Nason&Laird，2005）。最值得注意的是，Soar还能够将新产品写入其过程记忆（Laird 1986），从而有效地更新其源代码。

认知架构广泛应用于心理学和计算机科学，其应用包括机器人（Laird2012）、军事模拟（Jones1999；Tambe1995）和智能辅导（Koedinger1997）。然而，在过去的几十年里，它们在人工智能社区中变得不那么受欢迎。这种受欢迎程度的下降反映了此类系统所涉及的两个挑战：它们仅限于可以由逻辑谓词描述的域，并且需要许多预先指定的规则才能发挥作用。

有趣的是，LLM似乎已经做好了应对这些挑战的准备。首先，它们对任意文本进行操作，比基于逻辑的系统更灵活。其次，不是要求用户指定产品，而是通过在互联网语料库上进行预训练来学习产品的分布。认识到这一点，研究人员已经开始在认知架构中使用LLM，利用隐含世界知识（Wray 2021）来增强传统的符号方法（Kirk 2023；Romero 2033）。作者从认知架构中引入原理来指导基于LLM的智体设计。
如图所示：认知架构通过感官落地、符号长时记忆和选择动作的决策程序增强生产系统。A： Soar结构；B： Soar的决策过程用产品来选择和实施动作。这些动作可以是内部的（例如修改智体的内存），也可以是外部的（例如电机命令）。

添加图片注释，不超过 140 字（可选）

如图所示从语言模型到语言智体。A： LLM调用的基本结构。提示构造选择一个模板，并用工作内存中的变量填充它。在调用LLM之后，字符串输出被解析到动作空间中并执行。LLM调用可能导致一个或多个动作，例如，返回答案、调用函数或发出电机命令。B：诸如Self-Critique （Wang2022b）或选择-推理（Creswell2023）的提示链接技术，用预定义的LLM调用序列来生成输出。C：诸如Inner Monologue（Huang2022c）和ReAct（Yao2022b）之类的语言智体用一个与外部环境交互式反馈循环。视觉语言模型（VLM）将感知数据翻译成文本供LLM处理。

添加图片注释，不超过 140 字（可选）

如图即本文提出的语言智体认知架构（CoALA）。A： CoALA定义了一组交互的模块和过程。决策过程执行智体的源代码。该源代码包括与LLM（提示模板和解析器）、内部记忆（检索和学习）和外部环境（落地）交互的过程。B：在时间上，智体的决策程序在与外部环境的一个闭环中执行一个决策循环。在每个周期中，智体使用检索和推理来规划，提出并评估候选学习或落地动作。然后选择并执行最佳动作。可以进行一次观察，然后循环再次开始。

添加图片注释，不超过 140 字（可选）