人工智能咨询培训老师叶梓 转载标明出处
基于LLMs构建的自主智能体,有望实现类似人类的决策能力。图 1 展示了LLMs驱动的自主智能体领域的增长趋势。从2021年1月到2023年8月,不同颜色代表不同类别的智能体。例如,游戏智能体旨在模拟游戏玩家,而工具智能体主要关注工具使用。
然而,目前对于如何构建和评估LLMs驱动的自主智能体的研究还比较分散,缺乏系统性的总结。为了弥补这一空白,来自中国中国人民大学高瓴人工智能学院的研究团队进行了一项全面的研究调查。系统地回顾了LLMs驱动的自主智能体的研究工作。
大模型驱动的自主智能体的构建
架构
图 2 提供了一个统一的框架,展示了LLMs驱动的自主智能体的架构设计。该框架由以下几个模块组成:
- 档案模块:确定智能体的角色。
- 记忆模块:存储环境信息,帮助智能体回忆过去的行为,规划未来的行动。
- 规划模块:使智能体能够根据过去的经验做出决策。
- 行动模块:将智能体的决策转化为具体的输出。
档案模块
档案模块通过将角色信息写入提示(prompt)来影响LLM的行为。智能体的角色通常包括基本信息(如年龄、性别和职业)、心理信息(反映智能体的性格)和社会信息(详细描述智能体之间的关系)。
记忆模块
记忆模块对于智能体架构设计至关重要。它存储从环境中感知到的信息,并利用这些记忆来促进未来的行动。记忆模块可以帮助智能体积累经验、自我演化,并以更一致、合理和有效的方式行动。
记忆结构通常受到认知科学研究的启发,包括短期记忆和长期记忆。短期记忆类似于受限于变换器架构上下文窗口的输入信息。长期记忆类似于智能体可以根据需要快速查询和检索的外部向量存储。
- 统一记忆:只模拟人类的短期记忆,通常通过上下文学习实现,记忆信息直接写入提示。
- 混合记忆:明确模拟人类的短期和长期记忆。短期记忆临时缓冲最近的感知,而长期记忆随时间巩固重要信息。
规划模块
规划模块的目标是让智能体具备将复杂任务分解为简单子任务的能力。研究者根据智能体在规划过程中是否能接收反馈,将策略分为无反馈规划和有反馈规划。
- 无反馈规划:智能体在执行动作后不接收可以影响其未来行为的反馈。
- 有反馈规划:智能体在执行动作后可以接收来自环境、人类和模型的反馈。
行动模块
行动模块负责将智能体的决策转化为具体结果。它位于最下游位置,直接与环境互动。行动模块受档案、记忆和规划模块的影响。
能力获取
智能体能力获取主要分为两类:需要微调LLMs的能力和不需要微调的能力。
需要微调的能力获取
-
使用人工标注的数据集进行微调:通过人工标注的数据集来微调智能体,使其更好地适应特定任务。
-
使用LLM生成的数据集进行微调:利用LLM生成的数据集来微调智能体,这种方法成本较低,可以生成更多的样本。
-
使用真实世界数据集进行微调:直接使用真实世界的数据集来微调智能体,使其更好地适应现实世界的任务。
无需微调的能力获取
- 提示工程:通过精心设计的提示来增强智能体的能力,或释放LLMs的现有能力。
- 机制工程:开发专门的模块,引入新的工作规则等策略,以增强智能体的能力。
表 1 提供了现有研究与上述分类法的对应关系,展示了不同研究在智能体构建方面的工作。
想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。
评论留言“参加”或扫描微信备注“参加”,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。
自主智能体在不同领域的应用
社会科学
心理学:LLMs驱动的智能体可以用于进行模拟实验,提供心理健康支持等。例如,通过给LLMs分配不同的角色,让它们完成心理学实验,研究发现LLMs能够产生与涉及人类参与者的研究一致的结果。
政治学和经济学:LLMs驱动的智能体可以用于研究政治学和经济学,包括用于意识形态检测和预测投票模式。
社会模拟:LLMs驱动的智能体被用于构建虚拟环境,模拟社会现象,如信息传播。
法学:LLMs驱动的智能体可以作为法律决策过程中的辅助工具,帮助做出更明智的判断。
研究助理:LLMs驱动的智能体也被用作社会科学研究的多面手助理,从生成文章摘要到提取关键词,再到撰写详细的研究脚本。
自然科学
文档和数据管理:LLMs驱动的智能体展现出在语言理解和使用互联网及数据库工具处理文本方面的强大能力。
实验助手:LLMs驱动的智能体能够独立进行实验,为科学家的研究项目提供支持。
自然科学教育:LLMs驱动的智能体能够与人类流利沟通,常被用于开发基于代理的教育工具。
工程学
土木工程:LLMs驱动的智能体可用于设计和优化复杂的结构,如建筑、桥梁、大坝、道路。
计算机科学与软件工程:LLMs驱动的智能体在自动化编码、测试、调试和文档生成方面提供潜力。
工业自动化:LLMs驱动的智能体可用于实现生产过程的智能规划和控制。
机器人学和体现人工智能:近期的工作开发了更高效的强化学习代理,用于机器人学和体现人工智能。
表 2 展示了LLMs驱动的自主智能体的代表性应用。从心理学到工程学,不同领域的工作展示了智能体的广泛应用。
LLMs驱动的自主智能体评估
图 5 提供了LLMs驱动的自主智能体应用(左侧)和评估策略(右侧)的全局概览。这展示了智能体在不同领域的广泛应用,从社会科学到工程学。
两种主要的评估方法:主观评估和客观评估。
主观评估
主观评估基于人类判断来衡量智能体的能力,适用于没有评估数据集或很难设计定量指标的场景。
-
人工标注:此评估方法涉及人类评估者直接对不同智能体生成的输出进行打分或排名。例如,在研究中,作者们聘请了许多标注员,要求他们对与智能体能力直接相关的五个关键问题提供反馈。
-
图灵测试:此评估策略要求人类评估者区分由智能体和人类创建的输出。如果在给定任务中,评估者无法区分智能体和人类的输出,这表明智能体在该任务上实现了类似人类的性能。
客观评估
客观评估使用可计算、可比较和可跟踪的定量指标来评估LLMs驱动的自主智能体的能力。进行客观评估时,有三个重要方面:评估指标、协议和基准。
-
指标:为了客观评估智能体的有效性,设计合适的指标非常重要。理想的评估指标应准确反映智能体的质量,并与人类在现实世界中使用它们时的感受保持一致。
-
协议:除了评估指标外,另一个重要的客观评估方面是如何利用这些指标。常见的评估协议包括现实世界模拟、社交评估、多任务评估和软件测试。
-
基准:给定指标和协议后,选择合适的基准进行评估是至关重要的。例如,许多研究人员使用ALFWorld、IGLU和Minecraft等模拟环境作为基准来评估智能体的能力。
表 3 总结了先前工作与这些评估策略之间的对应关系。表格中使用了不同的符号来代表主观评估和客观评估的不同方面。
尽管LLMs驱动的自主智能体已经取得了显著的进展,但该领域仍处于初级阶段,面临许多挑战,包括角色扮演能力、人类对齐、提示的鲁棒性、幻觉问题、知识边界和效率等。
论文链接:A survey on large language model based autonomous agents