基于大语言模型的自主智体

23年8月份中国人民大学刚刚给的综述论文“A Survey on Large Language Model based Autonomous Agents“,把大语言模型作为自主智体的工作调研,基本是具身智能(Embodied AI)的范畴。

摘要:长期以来,自主智体一直是学术界的一个突出研究课题。该领域的先前研究通常集中在孤立环境中训练知识有限的智体,这与人类的学习过程有很大不同,因此这样的智体难以实现类人的决策。最近,通过获取大量的网络知识,大语言模型(LLM)在实现人类水平的智能方面显示出潜力。这引发了研究基于LLM的自主智体的研究热潮。为了充分利用LLM的潜力,研究人员设计针对不同应用量身定制的多样化智体架构。本文对这些研究进行了全面调查,整体上对自主智体领域进行了系统回顾。更具体地说,重点在于构建基于LLM的智体,为此提出了一个统一的框架,涵盖了以前的大部分工作。此外,还总结基于LLM的AI智体在社会科学、自然科学和工程领域的各种应用。最后,讨论基于LLM AI智体的常用评估策略。基于之前的研究,提出该领域的一些挑战和未来方向。
添加图片注释,不超过 140 字(可选)

发展趋势

基于LLM的自主智体有望根据LLM的类人能力有效地完成不同的任务。为了实现这一目标,有两个重要方面,即(1)应该设计哪种架构来更好地使用LLM,以及(2)如何学习架构的参数。在架构设计的背景下,对现有研究进行系统的综合,最终形成了一个全面统一的框架。至于第二个方面,总结三种常用的策略,包括(1)从例子中学习,其中模型基于挑选的数据集进行微调;(2)从环境反馈中学习,利用实时交互和观察;以及(3)从人类反馈中学习,利用人类专业知识和干预进行改进。

一个统一的框架整体结构如下图所示:分析模块、记忆模块、规划模块和动作模块组成。分析模块的目的是标识智体的角色。记忆和规划模块将智体置于动态环境中,使其能够回忆过去的行为并规划未来的操作。动作模块负责将智体决策转换为特定输出。在这些模块中,分析模块影响记忆和规划模块,这三个模块共同影响动作模块。
在这里插入图片描述
记忆模块有三种关键的操作:阅读、写作和自我反思。反思操作旨在赋予智体压缩和推断更先进信息的能力,或自主验证和纠正自己的行为。它帮助智体理解自己和他人的属性、偏好、目标和联系,从而指导他们的行为。以往的研究对各种形式的记忆反思进行了研究,即以下四点:

(1)自我总结。反思可以用来将智体的记忆压缩成更高级的概念。在[109]中,智体能够将存储在记忆中的过去经历总结为更广泛、更抽象的见解。具体来说,智体首先根据其最近的记忆生成三个关键问题。然后,这些问题被用来查询记忆,获得相关信息。基于所获得的信息,智体生成五个见解,这些见解反映了智体的高级思想。此外,反思可以分层发生,这意味着可以根据现有的见解产生见解。

(2) 自我验证。另一种形式的反思涉及评估智体行为的有效性。在[133]中,智体旨在完成Minecraft中的任务。在每一轮执行期间,智体使用GPT-4作为批评者来评估当前动作是否足以实现所需任务。如果任务失败,批评者会提出完成任务的方法来反馈。Replug[124]采用训练方案来进一步使检索模型适应目标语言模型。具体而言,它利用语言模型作为评分函数来评估每个文档对减少语言模型疑团(perplexity)的贡献。最小化检索概率和语言模型得分之间的KL偏差来更新检索模型参数。这种方法有效地评估检索结果的相关性,并根据语言模型的反馈进行调整。

(3) 自我纠正。在这种类型的反思中,智体可以结合来自环境的反馈来纠正其行为。在MemPrompt[96]中,模型可以根据用户反馈调整对任务的理解,以生成更准确的答案。在[137]中,智体被设计为玩Minecraft,它根据预定义的计划采取行动。当计划失败时,智体会重新思考其计划并对其进行更改以继续探索过程。

(4) 同理心(Empathy)。记忆反思也可以用来增强智体的同理心能力。在[49]中,智体是一个聊天机器人,但它通过考虑人类的认知过程来生成话语。在每一轮对话之后,智体都会评估话语对听众的影响,并更新对听众状态的看法。

当人类面对复杂的任务时,他们首先将其分解为简单的子任务,然后逐一解决每个子任务。规划模块使基于LLM的智体能够思考和规划解决复杂任务,使其更全面、更强大、更可靠。可以分成两种类型的规划模块:无反馈和有反馈。

无反馈规划方法,在规划过程中不会收到反馈。这些规划是以整体的方式产生的,有许多具有代表性的规划策略,包括:

子目标分解。一些研究人员打算让LLM一步一步地思考,以解决复杂的任务。思维链[138]已成为允许大模型解决复杂任务的标准技术。它提出了一种简单而有效的提示方法,即通过提示中的少量语言示例,逐步解决复杂的推理问题。零样本CoT[72]允许LLM通过提示模型“一步一步地思考”来自主生成复杂问题的推理过程,并通过实验证明LLM是不错的零样本推理器。在[63]中,LLM充当零样本规划器,在交互式模拟环境中做出目标(goal)驱动的决策。[53]进一步使用环境目标和目标关系作为LLM行动规划生成的额外输入,为系统提供对周围环境的感知以生成规划。ReWOO[147]引入了一种将规划与外部观察分离的范式,使LLM能够充当一个规划器,直接生成一系列独立的规划,而不需要外部反馈。总之,通过将复杂任务分解为可执行的子任务,大大提高了大语言模型制定规划和决策的能力。

多路径思维。基于CoT,一些研究人员认为,人类思考和推理的过程是一个树状结构,有多条通向最终结果的路径。自洽CoT(CoT-SC)[135]假设每个复杂问题都有多种思维方式来推导最终答案。具体而言,CoT用于生成推理的几个路径和答案,其中出现次数最多的答案将被选择为最终答案输出。思维树(ToT)[150]假设人类为规划目的在复杂问题上做出决策时,倾向于以树状方式思考,其中每个树节点都是一种思维状态。它使用LLM生成思维的评估或投票,可以使用BFS或DFS进行搜索。这些方法提高了LLM在复杂推理任务中的性能。[153]讨论了受约束的语言规划问题。它生成额外的脚本(scripts)并对其进行过滤,提高脚本生成的质量。在生成的几个脚本中,脚本选择由(1)脚本和目标之间的余弦相似性,(2)脚本是否包含目标(goal)约束关键字来确定。DEPS[137]使用视觉语言模型作为选择器来选择可选子任务中的最佳路径。SayCan[2]将来自语言模型的概率(动作对高级指令有用的概率)与来自价值函数的概率(成功执行所述动作的概率)相结合,并选择要采取的动作。然后,它附加到机器人响应中,并再次查询模型以重复该过程,直到输出步骤结束。总之,多路径思想进一步使智体能够解决更复杂的规划任务,但也带来了额外的计算负担。

外部规划器。LLM,即使具有显著的零样本规划能力,在许多情况下也不如传统规划者可靠,尤其是在面临特定领域的长期规划问题时。LLM+P[90]将自然语言描述转换为正式的规划域定义语言(PDDL)。然后,使用外部规划器计算结果,并最终由LLM转换为自然语言。同样,LLM-DP[24]利用LLM将观测、当前世界状态和目标目标转换为PDDL格式。然后将该信息传递给外部符号规划器,该规划器有效地确定从当前状态到目标状态的最佳动作序列。MRKL[71]是一种模块化的神经符号人工智能架构,LLM处理输入文本,将其引领到每个专家,然后让其通过LLM的输出。CO-LLM[156]认为LLM擅长生成高级规划,但不擅长低级控制。他们使用启发式设计的低级规划器,根据高级的规划稳健地执行基本操作。有了子任务领域的专家规划器,LLM可以在特定领域中找到复杂任务的规划。基于LLM智体的广义知识很难在所有领域中都能最好地执行任务,但将其与外部规划器的专家知识相结合可以有效地提高性能。

当人类处理任务时,成功或失败的经历会引导他们反思自己,并提高他们的规划能力。这些经验往往是基于外部反馈而获得和积累的。为了模拟这种人类能力,许多研究人员设计了规划模块,这些模块可以接收来自环境、人类和模型的反馈,显著提高了智体的规划能力。它们举例包括:

环境反馈。在许多研究中,智体根据环境反馈制定规划。例如,ReAct[151]将智体的动作空间扩展到动作和语言空间的集合。显式推理和动作是按顺序执行的,当来自动作的反馈没有正确答案时,将再次执行推理,直到获得正确答案。Voyager[133]通过对三种类型的反馈进行操作来自我完善智体生成脚本,直到它通过自我验证并存储在技能库中。Ghost[161]、DEPS[137]可以接收来自环境的反馈,包括关于智体在环境中的当前状态的信息,以及关于所执行动作的成功或失败的信息。通过整合这些反馈,智体可以更新对环境的理解,改进策略并调整行为。基于零样本规划器[63],Re-prompting[117]使用预先条件错误信息来检测智体是否能够完成当前规划。它还使用先决条件信息来重新提示LLM完成闭环控制。Inner Monologue[64]在指令中添加了三种类型的环境反馈:子任务的成功执行、被动场景描述和主动场景描述,从而实现了基于LLM智体的闭环规划。Introspective Tips[17]允许LLM通过环境反馈的历史进行内省。LLM Planner[127]引入了一种落地重新规划算法,当在任务完成过程中遇到目标不匹配和无法实现的规划时,该算法会动态更新LLM生成的规划。在Progprompt[126]中,主张(assertions)被合并到生成的脚本中,提供环境状态反馈,从而在不满足操作的前提条件下进行错误恢复。总之,环境反馈是规划成败的直接指标,从而提高了闭环规划的效率。

人为反馈。智体可以在真实的人类反馈的帮助下制定规划。这样的信号可以帮助规划更好地与实际设置保持一致,也可以缓解幻觉问题。Voyager[133]中提到,人类可以充当批评者,通过多模型反馈要求Voyager更改上一轮代码。OpenAGI[51]提出了一种带有任务反馈的强化学习(RLTF)机制,该机制利用手动或基准评估来提高基于LLM智体的能力。

模型反馈。语言模型可以作为批评者来批评和改进生成的规划。Self-Refine[97]引入了自细化机制,通过迭代反馈和改进来提高LLM的输出。具体而言,LLM被用作生成器、反馈提供者和细化器。首先,生成器用于生成初始输出,然后反馈提供者为输出送入特定且可操作的反馈,最后,细化器用于反馈改进输出。LLM的推理能力通过生成器和评论者之间的迭代反馈回路来提高。Reflexion[125]是一种通过言语反馈增强智体的框架,它引入了记忆机制。参与者首先生成动作,然后由评估者生成评估,最后通过自我反思(self-reflective)模型生成对过去经历的总结。总结将存储在内存中,通过过去的经验进一步提高参与者的生成能力。世界模型通常是指智体对环境的内部表示,用于环境的内部模拟和抽象。它有助于智体推理、规划和预测不同行动对环境的影响。RAP[57]将LLM同时用作世界模型和智体。在推理过程中,智体构建一个推理树,而世界模型提供奖励作为反馈。智体对推理树进行MCTS(Monte Carlo Tree Search,蒙特卡洛树搜索),得到最优规划。类似地,REX[103]引入了一种加速MCTS方法,其中奖励反馈由环境或LLM提供。Tips[17]可以从其他专家模型的演示中学习。在MAD(多智体辩论)[83]框架中,多个智体以“以眼还眼(eye-for-an-eye)”的方式表达他们的论点,一个裁判管理辩论过程达成最终解决方案。MAD框架鼓励LLM中的发散思维,这有助于完成需要深入思考的任务。

动作模块旨在将智体的决定转化为具体结果。它直接与环境交互,决定智体完成任务的有效性。主要考察动作目标、战略、空间和影响力。
动作目标是指动作的目标,通常由真实的人类或智体自己指定。三个主要动作目标包括任务完成、对话互动和环境探索与互动。动作策略是指智体产生动作的方法。这些策略可能是记忆回顾、多轮互动、反馈调整和融入外部工具:

记忆回顾。记忆回顾技术有助于智体根据存储在记忆模块中的经验做出明智的决定[109,78,161]。Generative Agents[109]保持对话和经验的记忆流。在执行操作时,会检索相关的记忆片段作为LLM的条件输入,以确保操作的一致性。GITM[161]使用记忆来指导行动,比如向之前发现的位置移动。CAMEL[78]构建了历史经验的记忆流,使LLM能够基于这些记忆生成有见识的动作。

多轮互动。这种方法试图利用多轮对话的背景,让智体将适当的反应确定为行动[113,104,31]。ChatDev[113]鼓励智体根据与他人的对话历史采取行动。DERA[104]提出了一种新的对话智体,在通信过程中,研究者智体可以提供有用的反馈来指导决策者智体的行动。[31]构建了一个多智体辩论(MAD)系统,每个基于LLM的智体参与迭代交互,交换挑战和见解,最终目的是达成共识。ChatCot[20]采用多轮对话框架对思维链推理过程进行建模,通过对话互动将推理和工具使用无缝集成。

反馈调整。人类反馈或参与外部环境的有效性已在促进智体适应和增强其行动策略方面得到证明[133,99,2]。例如,Voyager[133]使智体能够在经历行动失败后改进其策略,或使用反馈机制验证成功的策略。交互式构建学习智体(ICLA)[99]利用用户对初始行动的反馈来迭代增强规划,从而制定更精确的策略。SayCan[2]采用了一种强化学习框架,其中智体仅基于环境反馈不断调整动作,从而实现基于试错的自动增强。

整合外部工具。可以通过引入外部工具和扩展知识源来增强基于LLM的自主智体。一方面,智体可以具备在训练或推理阶段访问和使用各种API、数据库、web应用程序和其他外部资源的能力。例如,训练Toolformer[119]以确定要调用的适当API、这些调用的时间以及将返回的结果集成到未来token预测中的最佳方法。ChemCrow[8]设计了一种基于化学的LLM试剂,该试剂包含17种专家设计的工具,用于执行包括有机合成、药物发现和材料设计在内的任务。ViperGPT[128]提出了一个代码生成框架,它将视觉和语言模型组装成能够返回任何给定查询结果的子例程。HuggingGPT[123]使用LLM连接机器学习社区(例如,HuggingFace)中的各种人工智能模型,以解决人工智能任务。具体而言,HuggingGPT提出了一种元学习方法来训练LLM生成代码片段,然后使用这些片段从外部社区中心调用所需的人工智能模型。另一方面,智体直接获得的知识的范围和质量可以在外部知识来源的帮助下扩大。在之前的工作中,外部知识源包括数据库、知识图、网页等。例如,Gorilla[111]能够有效地提供适当的API调用,因为它是在三个额外的机器学习中心数据集上训练的:Torch hub、TensorFlow hub和HuggingFace。WebGPT[105]提出了一种扩展,可以在使用ChatGPT时将从网站检索的相关结果合并到提示中,从而实现更准确、更及时的对话。ChatDB[61]是一种人工智能数据库助手,它利用LLM控制器生成的SQL语句来准确地操作外部数据库。GITM[161]使用LLM生成文本挖掘任务的可解释结果,该任务采用了一种新文本挖掘流水线,集成了LLM、知识提取和题目建模模块。

基于LLM智体的动作空间是指智体可以执行的一组可能的动作。这源于两个主要来源:扩展动作能力的外部工具,以及智体自己的知识和技能,如语言生成和基于记忆的决策。具体而言,外部工具包括搜索引擎、知识库、计算工具、其他语言模型和视觉模型。通过与这些工具对接,智体可以执行各种现实的操作,如信息检索、数据查询、数学计算、复杂的语言生成和图像分析。智体基于语言模型的自学知识可以使智体能够规划、生成语言和做出决策,从而进一步扩大其动作潜力。

工具。各种外部工具或知识源为智体提供了更丰富的操作能力,包括API、知识库、视觉模型、语言模型等。

(1)API。利用外部API来补充和扩展动作空间是近年来流行的模式。例如,HuggingGPT[123]使用搜索引擎,将查询转换为搜索请求以获取相关代码。[105,118]提出在响应用户请求时自动生成查询以从外部网页中提取相关内容。TPTU[118]与Python解释器和LaTeX编译器接口,执行复杂的计算,如平方根、阶乘和矩阵运算。另一种类型的API是LLM可以基于自然语言或代码输入直接调用的API。例如,ToolFormer[119]是一个基于LLM的工具转换系统,它可以根据自然语言指令自动将给定的工具转换为具有不同功能或格式的另一个工具。API-Bank[80]是一种基于LLM的API推荐智体,可以为各种编程语言和域自动搜索并生成适当API调用。API-Bank还为用户提供了一个交互界面,方便用户修改和执行生成的API调用。同样,ToolBench[115]是一个基于LLM的工具生成系统,可以根据自然语言需求自动设计和实现各种实用工具。ToolBench生成的工具包括计算器、单位转换器、日历、地图、图表等。所有这些智体都使用外部API作为其工具,并为用户提供交互界面,以便轻松修改和执行生成或转换的工具。

(2) 知识库。连接到外部知识库可以帮助智体获得特定的域信息,生成更现实的动作。例如,ChatDB[61]使用SQL语句查询数据库,以逻辑方式促进智体的操作。ChemCrow[8]提出了一种基于LLM的化学试剂,旨在借助17种专家设计的工具完成有机合成、药物发现和材料设计领域的任务。MRKL系统[71],OpenAGI[51]结合了各种专家系统,如知识库和规划器,以系统的方式调用它们访问特定域的信息。

(3) 语言模型。语言模型也可以作为丰富动作空间的工具。例如,MemoryBank[158]采用了两种语言模型,一种旨在对输入文本进行编码,而另一种负责匹配进来的查询语句,提供辅助的文本检索。ViperGPT[128]首先用基于语言模型的Codex从文本描述中生成Python代码,然后执行该代码来完成给定的任务。TPTU[118]结合了各种LLM来完成广泛的语言生成任务,如生成代码、生成歌词等。

(4) 视觉模型。将视觉模型与智体集成可以将动作空间扩展到多模态领域。ViperGPT[128]利用GLIP等模型来提取视觉内容相关操作的图像特征。HuggingGPT[123]提出使用视觉模型进行图像处理和生成。

智体的自身认识。智体的自我获取知识也提供了多种行为,例如利用LLM的生成能力进行规划和语言生成,根据记忆做出决策等。智体自我获得的知识,如记忆、经验和语言能力,实现了多样化的无工具(tool-free)行动。例如,Generative Agents[109]维护所有过去对话的全面记忆日志。当采取行动时,它检索相关的记忆片段作为条件输入,指导LLM自回归生成逻辑和一致的语言规划。GITM[161]构建了一个经验的记忆库,比如发现的村庄或收集的资源。当采取行动时,它会在记忆库中查询相关条目,例如调用以前的村庄方向再次向该位置移动。SayCan[2]开发了一个强化学习框架,在该框架中,智体完全基于环境反馈重复调整动作如运动,实现自动试错改进,无需任何人工演示或干预。Voyager[133]利用LLM广泛的语言生成功能来合成自由形式的文本解决方案,如Python代码片段或根据当前需求定制的会话响应。同样,LATM[10]使LLM能够利用Python代码来制作自己的可重用工具,从而培养灵活的解决问题的方法。CAMEL[78]将所有历史经历记录在一个记忆流中。LLM然后从相关记忆中提取信息,自回归生成高级文本规划,概述预期的未来行动方案。ChatDev[113]为LLM智体配备了对话历史记忆,根据上下文确定适当的沟通反应和行动。总之,智体的内部知识通过记忆回顾、反馈调整和开放式语言生成等方法,实现了多种无工具行动。

行动影响力是指行动的后果,包括环境的变化、智体内部状态的改变、新行动的触发以及对人类感知的影响。

学习是人类获得知识和技能的重要机制,有助于增强他们的能力——这一意义深入到基于LLM的智体领域。在学习过程中,这些智体有能力在遵守指令、熟练处理复杂任务以及无缝适应前所未有的多样化环境方面表现出更高的熟练度。这一变革过程使这些智体能够超越最初的编程技能,从而能够更巧妙、更灵活地执行任务。

从实例中学习是支撑人类和人工智能学习的基础过程。在基于LLM智体领域,这一原则体现在微调中,即这些智体通过接触真实世界的数据来完善其技能。

在许多情况下,智体需要主动探索周围环境并与环境互动。因此,他们需要适应环境的能力,并从环境反馈中增强自己的能力。在强化学习领域,智体通过不断探索环境并基于环境反馈进行适应来进行学习[68,82,98152]。这一原理也适用于基于LLM的智能体。Voyager[133]遵循迭代提示方法,智体执行操作、收集环境反馈,并不断迭代,直到新获得的技能通过自我验证得到验证并添加到技能库中。类似地,LMA3[22]在交互式环境中自主设定目标和执行动作,LLM将其性能作为奖励函数进行评分。通过反复这个过程,LMA3独立学习广泛的技能。同时,GITM[161]和Inner Monologue[64]将环境反馈集成到基于大语言模型的规划闭环过程中。此外,创建一个紧密反映现实的环境也有助于显著提高智体的性能。WebShop[149]开发了一个模拟的电子商务环境,在该环境中,智体可以参与搜索和购买等活动,并获得相应的奖励和反馈。在[145]中,具身模拟器使得智体能够在模拟的真实世界环境中进行交互,促进物理参与,从而获得具体体验。随后,利用这些经验对模型进行微调,从而提高其在下游任务中的性能。

交互人类反馈为智体提供了在人类指导下以动态方式适应、进化和完善其行为的机会。与一次性反馈相比,交互式反馈更符合真实世界的场景。当智体在动态过程中学习时,它们所做的不仅仅是处理静态数据,它们还参与了对其理解、适应和与人类结盟的不断完善。例如,[156]结合了一个通信模块,该模块通过基于聊天的交互和来自人类的反馈实现协作任务完成。如[122]所强调的,交互式反馈促进了关键方面,如可靠性、透明度、即时性、任务特征以及在学习时智体信任随时间的演变。

LLM智体的应用包括多个方面,如图所示:

添加图片注释,不超过 140 字(可选)

其代表性应用如下表总结:

添加图片注释,不超过 140 字(可选)

这里重点提一下两个应用:

1 机器人和具身智能。最近的工作开发更有效的强化学习智体[25,160,106,143,133,161,60,142,154,28,2]。重点是增强自主智体在具体环境中进行规划、推理和协作的能力。一些方法,如[25],将互补的优势结合到统一的系统中,用于体现推理和任务规划。高级命令可改进规划,而低级控制器可将命令转换为动作。像[160]中那样的信息收集对话可以加速训练。其他工作如[106,143]使用自主智体由内部世界模型指导进行具身决策和探索。考虑到物理限制,智体可以生成可执行规划并完成需要多种技能的长期任务。在控制策略方面,SayCan [2] 专注于研究利用移动机械手的各种操作和导航技能。从厨房环境遇到的典型任务中汲取灵感,其提供了一套全面的 551 项技能,涵盖 7 个技能系列和 17 个目标。这些技能包括各种动作,例如拾取、放置、倾倒、抓取和操纵目标等。其他框架,如VOYAGAR [133]和GITM [161],提出了能够沟通、协作和完成复杂任务的自主智体。这证明了自然语言理解、运动规划和人类交互对现实世界机器人技术的前景。随着能力的进步,自适应自主智体可能会完成越来越复杂的具体任务。总之,用[60,142,154,28]中的推理和规划能力补充传统方法可显着提高实体环境中的自主智体性能。重点落在提高样本效率、实现泛化和完成长距离任务的整体系统。

2 通用自主AI智体。许多基于LLM开发的开源项目已经对通用人工智能(AGI)进行了初步探索,致力于自主通用AI的智体框架[45,43,38,40,35,36,42,15,32,39,34,114,47,41,37,46,141],使开发人员能够快速可靠地构建、管理和运行有用的自主智体。例如,LangChain [15] 是一个开源框架,可以自动执行编码、测试、调试和文档生成任务。其将语言模型与数据源集成并促进与环境的交互,通过自然语言通信和多智体角色之间的协作来实现高效且具有成本效益的软件开发。XLang [36] 基于 LangChain,自带一套全面的工具、完整的用户界面,并支持三种不同的智体场景,即数据处理、插件使用和 Web智体。AutoGPT [45] 是一个完全自动化的、可联网的智体,只需设置一个或多个目标,并自动将它们分解为相应的任务,并循环执行,直到达到目标。WorkGPT [32] 是一个类似于 AutoGPT 和 LangChain 的智体框架。为其提供一条指令和一组 API,会与 AI 进行来回对话,直到指令完成。AGiXT [40] 是一个动态 AI 自动化平台,旨在协调高效的 AI 命令管理和跨提供商的任务执行。AgentVerse [35] 是一个多功能框架,可帮助研究人员快速创建自定义的多个基于 LLM 的智体模拟。GPT Researcher [34] 是一个实验性应用程序,利用大语言模型有效地开发研究问题、触发网络爬虫收集信息、汇总源和摘要。BMTools [114] 是一个开源存储库,用工具扩展 LLM,并为社区驱动的工具构建和共享提供一个平台。其支持各种类型工具,支持多种工具同时执行任务,并提供一个简单界面,用于通过 URL 加载插件,从而促进轻松开发,同时给 BMTools 生态系统做出贡献。

最后提一下存在的挑战。

1 角色扮演能力。LLM通常基于网络语料库进行训练,现有的LLM可能无法很好地模拟人类认知心理学特征,导致在对话场景中缺乏自我意识。这些问题的潜在解决方案可以微调LLM或仔细设计智体提示/架构[77]。除了微调之外,还可以设计量身定制的智体提示/架构,增强LLM的角色扮演能力。然而,找到最佳的提示/架构并不容易,因为设计空间太大了。

2 广义人类对齐。在自主AI智体领域,特别是仿真时,理想的模拟器应该能够诚实地描绘不同的人类特征,包括那些数值不正确的特征。广义的人类对齐,即针对不同的目的和应用,智体应该能够与不同的人类价值观对齐。然而,包括ChatGPT和GPT-4在内的LLM大多与统一的人类价值观保持一致。因此,一个有趣的方向是如何通过设计适当的提示策略来“重新调整”这些模型。

3 提示鲁棒性。为了确保智体的合理行为,设计人员通常会将其他模块(例如记忆和规划模块)合并到LLM中。但由于包含这些模块,需要开发更多的提示,促进一致的动作和有效的沟通。开发一个统一而强大的提示框架,可以应用于各种LLM,这是一个重要但尚未解决的问题。有可能的话:(1) 反复手动进行基本提示,(2) GPT 自动生成提示。

4 幻觉。幻觉对LLM构成了根本挑战,模型错误地自信地输出错误信息。幻觉可能导致严重后果,例如不正确或误导性代码、安全风险和道德问题[67]。为了解决这个问题,一种可能的方法是人类的校正反馈纳入人机交互环[58]。

5 知识边界。自主AI智体的一个重要应用是模拟不同的现实世界人类行为[109]。理想的模拟应该准确地复制人类的知识。在这方面,LLM可以表现出过大的权力,因为经历了超越普通个人范围广泛网络知识库的训练。LLM的巨大功能可以显着影响模拟的有效性。为了构建可信的智体模拟环境,一个重要的问题是如何限制LLM的用户-未知知识的利用。

6 效率。由于其自回归架构,LLM 通常具有较慢的推理速度。但是,智体可能每个动作需要多次查询LLM,例如从记忆模块中提取信息,在执行动作之前制定规划等。因此,智体操作效率受LLM推理速度的极大影响。相同的 API 键部署多智体会进一步增加时间成本。

  • 10
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值