基于大语言模型的AI智体的深入研究

23年9月来自北京交大和纽约大学的论文“An In-depth Survey of Large Language Model-based Artificial Intelligence Agents”。

由于大语言模型 (LLM) 所展现出的强大能力,近年来,人们纷纷将其与 AI 智体进行集成,以提高其性能。本文探讨了基于 LLM 的 AI 智体与传统 AI 智体的核心区别和特点。具体而言,首先比较这两类智体的基本特征,明确了基于 LLM 智体在处理自然语言、知识存储和推理能力方面的显著优势。随后,对 AI 智体的关键组件进行深入分析,包括规划、记忆和工具使用。特别是,对于记忆的关键组件,基于一个分类方案,为 AI 智体记忆系统的设计提供全新视角。

基于 LLM 的 AI 智体系统依靠 LLM 作为其大脑,由几个关键组件支持,这些组件部署各种重要功能。这些功能,包括规划、记忆和工具使用,在过去已经被独立和深思熟虑地研究过,并且有着悠久的历史。

规划的目标是设计一系列动作来促进状态转换并最终实现所需的任务。如图左侧所示,该组件作为单独的模块运行,已集成到各种应用中,例如机器人操作(Chen,2021)、机器人导航(Lo,2018)和服务机器人(Li & Ding,2023)。现有的研究,例如使用规划域描述语言(PDDL)的方法(Aeronautiques,1998;Fox & Long,2003;Jiang,2019)和分层规划框架(Erol,1994;Su ́arez-Hern ́andez,2018;Guo,2023),极大地推动了规划系统的发展。最近,随着 LLM 在各个领域取得的重大成功,许多研究都在探索利用 LLM 来增强 AI 智体的规划和执行能力。得益于 LLM 强大的推理能力,基于 LLM 的 AI 智体可以有效地将复杂的任务或指令分解为一系列子任务或更简单的指令(即规划)。例如,如图右上角所示,基于 LLM 智体将复杂指令“将香蕉放在柜台上”分解为一系列更简单的指令,这些指令更易于智体完成。此外,仅根据智体制定的初始规划采取行动而不考虑外部环境反馈可能会限制智体的性能。例如,如图右下角所示,一个智体针对“把球棒放到床上”这个指令制定规划,初始规划的第一步是“捡起棒球棒”,当附近没有‘球棒’时,这个计划可能无法执行。但如果智体能够根据反馈进行自我反思,就可以将第一步细化为“走到棒球棒的一侧”,然后逐步朝着目标努力。因此,在执行过程中,反思分析过去的行为和反馈,进而调整规划,对于AI智体成功执行任务同样至关重要。

请添加图片描述

任务分解的目的是将复杂的任务或指令分解为一系列更简单的子目标或子指令来执行任务。其中思维链可以利用一些例子或简单的指令来逐步引导LLM推理,以便将复杂的任务分解为一系列更简单的任务。与线性思维不同,思维树(Long,2023;Yao,2023a)在每一步都会产生多个思维分支,从而形成树状结构。随后,使用广度优先搜索或深度优先搜索等方法对思维树进行搜索。为了评估每个状态,可以使用“价值提示”来促进推理,或者可以通过投票机制生成评估结果。

在与环境交互的过程中,AI 智体可以通过接收反馈来反思过去的行为,从而增强其规划能力。许多研究尝试将基于LLM的智体与自我反思相结合。

记忆可以帮助个体将过去学到的知识和经历事件与当前状态整合起来,从而帮助做出更合适的决策。一般来说,人类的记忆可以分为三种主要类型:感觉记忆、短期记忆和长期记忆(Camina & Guell,2017)。考虑到LLM的特性,记忆也可以分成训练记忆、短期记忆和长期记忆,如图所示。

请添加图片描述

训练记忆是指模型在预训练过程中学习到的知识和事实,这些信息通过模型参数进行存储。现有研究表明,模型可以在预训练阶段学习世界知识、关系知识、常识知识、语义知识和句法知识。因此,通过使用 LLM 进行推理,AI 智体可以隐式地回忆这些知识,从而提高模型的性能。

短期记忆是指AI智体在执行任务时处理的临时信息,例如上下文学习过程中涉及的示例信息,以及LLM推理过程中产生的中间结果。在推理过程中,LLM暂时存储和处理上下文信息或中间结果,并使用它们来改进模型的能力。

长期记忆是指存储在外部存储系统中的信息,当人工智能智体使用该记忆时,它们可以从外部存储器中检索与当前上下文相关的信息。长期记忆的利用可分为三个步骤:信息存储、信息检索和信息更新。信息存储旨在存储智体与其环境之间交互的重要信息。

一些研究旨在将 LLM 与特定工具集成,可以扩展功能,例如网络搜索(Nakano,2021)、翻译(Thoppilan,2022)、计算器(Cobbe,2021),chatGPT的插件等。

AI 智体并不是一个新概念,早在 1959 年,世界上第一个完整的 AI 系统 Advice Taker (McCarthy,1959) 就被提出。随后,John McCarthy 等人开始使用智体一词来描述人工智能中计算程序在场景中扮演的角色,以实现某些任务。随着强化学习的兴起,人工智能领域出现了许多基于强化学习和游戏策略的著名 AI 智体,例如 DeepMind 于 2014 年推出的围棋智体 AlphaGo (Silver et al.,2016),OpenAI 于 2017 年推出用于玩 Dota 2 游戏的 OpenAI Five (Berner,2019),DeepMind 宣布推出用于玩星际争霸 II 的 AlphaStar (Vinyals et al.,2019)。近期,ChatGPT的出现,让AI 智体再度活跃起来,基于LLM的智体也不断涌现。

AI 智体的应用例子从聊天机器人、游戏、设计、研究、编码、协作到通用等七个方面,如表所示。

请添加图片描述

为了评估所提出的智体性能,一些工作侧重于设计更合适的基准。例如 (Valmeekam et al., 2023) 专注于评估 LLM 的规划能力,这是 AI 智体的关键组成部分。 (Liu et al., 2023d) 设计了一个基于 WebShop 和 HotPotQA 环境的基准。他们的目标是比较配备不同 LLM 多个智体架构的性能。 (Li et al., 2023c) 构建了一个名为 API Bank 的基准,以评估 LLM 使用工具的能力。(Fan et al., 2022) 提出了一个基于 Minecraft 的模拟器来评估开放式具身智体的性能。(Xu et al., 2023d,2023) 设计了一个名为 GentBench 的基准测试,它由公共部分和私有部分组成,旨在全面评估智体的表现。具体来说,GentBench 包含一系列复杂的任务,这些任务促使 LLM 使用外部工具来应对这些挑战。(Banerjee et al., 2023) 引入了一个端到端基准测试,通过将生成的答案与黄金答案进行比较来评估基于 LLM 的聊天机器人的性能。(Lin et al., 2023b) 提出了一种基于任务的评估方法,该方法根据智体在交互环境中的任务完成情况来评估智体的能力。 (Liu et al., 2023c) 提出一个名为 AgentBench 的多维基准测试,它可以评估 LLM 在多种环境中的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值