语言智体的认知结构

23年9月来自普林斯顿大学的论文“Cognitive Architectures for Language Agents“。

用外部资源(例如,互联网)或内部控制流(例如,提示链接)增强大语言模型(LLM),可用于需要落地或推理的任务,从而产生一类新语言智体。虽然这些智体在经验上取得了实质性的成功,但缺乏一个系统框架来组织现有智体和规划未来的发展。本文借鉴认知科学和符号人工智能的丰富历史,提出语言智体的认知架构(CoALA)。CoALA描述了一种具有模块化记忆组件的语言智体,一个与内部记忆和外部环境交互的结构化动作空间,以及一个选择动作的广义决策过程。用CoALA来调查和组织大量最近的工作,并前瞻性地确定针对更强智体的可行方向。总之,CoALA将当今的语言智体置于更广泛的人工智能历史中,并勾勒出一条通往基于语言通用智能的道路。

如图所示是LLMs的不同使用方法:A: 在自然语言处理(NLP)中,LLM将文本作为输入并输出文本。B: 语言智体将观察转化为文本并用LLM选择动作,将LLM置于与外部环境的直接反馈循环中。C: 认知语言智体用LLM学习和推理来管理智体的内部状态。

添加图片注释,不超过 140 字(可选)

记忆。基于心理学理论,Soar用几种类型的记忆来追踪智体的状态(Atkinson&Shiffrin,1968)。工作记忆(Baddeley&Hitch,1974)反映了智体的当前环境:它存储智体最近的感知输入、目标和中间内部推理的结果。长时记忆分为三种不同的类型,程序记忆存储生产系统本身:可以应用于工作记忆以确定智体行为的一组规则。语义记忆存储关于世界的事实(Lindes&Laird,2016),而情景记忆存储智体过去行为的序列(Nuxoll&Lairrd,2007)。

落地。Soar可以在模拟中(Tambe1995;Jones1999)或真实世界的机器人系统(Laird2012)实例化。在具身上下文中,各种传感器将感知输入流入到工作记忆中,在那里它可以用于决策。Soar智体也可以配备致动器,允许通过语言进行物理动作和交互式学习(Mohan2012;Mohan&Laird2014;Kirk&Lairrd2014)。

决策。Soar实现了一个决策循环,用于评估产品并应用最匹配的产品。产品存储在长时程序内存中。在每个决策周期中,根据智体的工作记忆来检查它们的前提条件。在提议和评估阶段,使用一组产品来生成并排名一组可能的动作。然后选择最佳动作,用另一组产品实施动作,例如修改工作记忆的内容或发出电机命令。

学习。Soar支持多种学习模式。首先,新信息可以直接存储在长时记忆中:事实可以写入语义记忆,而经验可以写入情节记忆(Derbinsky2012)。稍后,当决策需要时,可以将这些信息检索回工作记忆中。其次,行为是可以修改的。强化学习(Sutton&Barto,2018)可用于提高产生良好输出的产品分量,使智体能够从经验中学习(Nason&Laird,2005)。最值得注意的是,Soar还能够将新产品写入其过程记忆(Laird 1986),从而有效地更新其源代码。

认知架构广泛应用于心理学和计算机科学,其应用包括机器人(Laird2012)、军事模拟(Jones1999;Tambe1995)和智能辅导(Koedinger1997)。然而,在过去的几十年里,它们在人工智能社区中变得不那么受欢迎。这种受欢迎程度的下降反映了此类系统所涉及的两个挑战:它们仅限于可以由逻辑谓词描述的域,并且需要许多预先指定的规则才能发挥作用。

有趣的是,LLM似乎已经做好了应对这些挑战的准备。首先,它们对任意文本进行操作,比基于逻辑的系统更灵活。其次,不是要求用户指定产品,而是通过在互联网语料库上进行预训练来学习产品的分布。认识到这一点,研究人员已经开始在认知架构中使用LLM,利用隐含世界知识(Wray 2021)来增强传统的符号方法(Kirk 2023;Romero 2033)。作者从认知架构中引入原理来指导基于LLM的智体设计。
如图所示:认知架构通过感官落地、符号长时记忆和选择动作的决策程序增强生产系统。A: Soar结构;B: Soar的决策过程用产品来选择和实施动作。这些动作可以是内部的(例如修改智体的内存),也可以是外部的(例如电机命令)。

添加图片注释,不超过 140 字(可选)

如图所示从语言模型到语言智体。A: LLM调用的基本结构。提示构造选择一个模板,并用工作内存中的变量填充它。在调用LLM之后,字符串输出被解析到动作空间中并执行。LLM调用可能导致一个或多个动作,例如,返回答案、调用函数或发出电机命令。B: 诸如Self-Critique (Wang2022b)或选择-推理(Creswell2023)的提示链接技术,用预定义的LLM调用序列来生成输出。C: 诸如Inner Monologue(Huang2022c)和ReAct(Yao2022b)之类的语言智体用一个与外部环境交互式反馈循环。视觉语言模型(VLM)将感知数据翻译成文本供LLM处理。

添加图片注释,不超过 140 字(可选)

如图即本文提出的语言智体认知架构(CoALA)。A: CoALA定义了一组交互的模块和过程。决策过程执行智体的源代码。该源代码包括与LLM(提示模板和解析器)、内部记忆(检索和学习)和外部环境(落地)交互的过程。B: 在时间上,智体的决策程序在与外部环境的一个闭环中执行一个决策循环。在每个周期中,智体使用检索和推理来规划,提出并评估候选学习或落地动作。然后选择并执行最佳动作。可以进行一次观察,然后循环再次开始。

添加图片注释,不超过 140 字(可选)

  • 24
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值