新兴人工智能Agent架构的综述:推理、规划和工具调用

自ChatGPT推出以来,许多第一波生成性AI应用已成为使用检索增强生成(RAG)模式在文档语料库上进行聊天的变种。虽然有很多工作在使RAG系统更加健壮,但不同的团队开始构建下一代AI应用的外观,集中在一个共同的主题上:智能体(Agent)。与用户在开放式文本字段中输入并无需额外输入即可获得结果的大型语言模型的零次提示不同,智能体允许更复杂的交互和编排。特别是,智能体系统具有规划循环反思其他控制结构的概念,这些结构充分利用了模型固有的推理能力来端到端完成任务。结合使用工具、插件和函数调用的能力,智能体被赋予了执行更通用工作的能力。当问题定义明确且不需要来自其他智能体角色或用户的反馈时,单智能体架构表现出色;而当需要协作和多条不同的执行路径时,多智能体架构更倾向于蓬勃发展

智能体(Agent)分类

AI智能体被定义为能够规划和采取行动以在多轮迭代中执行目标的语言模型驱动实体。智能体架构可以由单个智能体或多个协同工作解决问题的智能体组成。

图1:单智能体和多智能体架构及其底层特性和能力的可视化展示。

  1. AI智能体定义:AI智能体被描述为能够规划和采取行动以在多轮迭代中执行目标的语言模型驱动实体。

  2. 单智能体与多智能体架构:AI智能体架构可以由单个智能体构成,也可以由多个协同工作的智能体构成,以解决特定的问题。

  3. 智能体角色(Agent Persona):每个智能体被赋予一个角色或个性,这包括特定于该智能体的任何指令。角色还涉及智能体可以利用的工具的描述。

  4. 工具(Tools):在AI智能体的上下文中,工具指的是模型可以调用的任何功能,允许智能体与外部数据源交互。

  5. 单智能体架构:由一个语言模型驱动,独立完成所有的推理、规划和工具执行。单智能体模式没有来自其他AI智能体的反馈机制,但可能包括人类提供反馈的选项。

  6. 多智能体架构:涉及两个或更多的智能体,它们可以利用相同的语言模型或不同的语言模型集合。每个智能体通常有自己独特的角色。

  7. 垂直与水平架构:多智能体架构被进一步细分为垂直和水平两种类型。垂直架构中有一个智能体作为领导者,而水平架构中所有智能体平等参与,共享信息和任务。

  8. 智能体的三个组成部分:根据文中的定义,智能体由“大脑、感知和行动”三个基本部分组成,以满足智能体理解、推理和对其周围环境采取行动的最小需求。

单智能体(SingleAgent**)架构**

单智能体架构由一个语言模型驱动,独立执行所有的推理、规划和工具执行。成功的单智能体目标执行依赖于适当的规划和自我修正能力。单智能体在执行直接功能调用且不需要其他智能体反馈的任务时特别有用。

单智能体方法示例:

ReAct:智能体首先写下关于给定任务的思考,然后根据这些思考执行动作,并观察输出,这个循环可以一直重复,直到任务完成。

图2:ReAct方法与其他方法比较的一个示例

RAISE:在ReAct方法的基础上增加了一个模仿人类短期和长期记忆的记忆机制,使用草稿本进行短期存储,使用类似先前案例的数据集进行长期存储。

图3:展示了RAISE方法的图表

Reflexion:使用语言反馈进行自我反思的单智能体模式,通过使用成功状态、当前轨迹和持久记忆等指标,利用大型语言模型(LLM)评估器为智能体提供具体和相关的反馈。

AutoGPT + P:针对以自然语言指挥机器人的智能体推理限制的方法,结合了对象检测和对象功能映射(OAM)以及由LLM驱动的规划系统。

图4:AutoGPT+P方法的图解

LATS:使用树进行规划、行动和推理的单智能体方法,通过树搜索算法选择行动,并在执行行动后使用环境反馈和语言模型反馈进行自我反思。

尽管单智能体架构在某些方面取得了进展,但它们在理解复杂逻辑、避免幻觉(hallucination)以及在需要多样性、探索和推理的任务上提高性能方面仍存在挑战。

多智能体(Multi Agent)架构

涉及两个或更多智能体,每个智能体可以使用相同的语言模型或不同的语言模型集合。多智能体架构通过智能体之间的沟通和协作计划执行来促进目标的实现。这些架构通常涉及动态团队构建,以及在规划、执行和评估阶段对团队成员的智能分工。

多智能体架构分为两大类:垂直架构水平架构。垂直架构中有一个主导智能体,而水平架构中所有智能体地位平等,共同参与任务讨论。

多智能体架构示例:

Embodied LLM Agents Learn to Cooperate in Organized Teams:研究了领导智能体对团队整体效能的影响,发现有组织的领导智能体团队完成任务的速度比无领导的团队快。

图5:有指定领导者的智能体团队实现了更优越的表现

DyLAN (Dynamic LLM-Agent Network):创建了一个专注于复杂任务如推理和代码生成的动态智能体结构,通过动态评估和排名智能体的贡献来优化团队。

AgentVerse:通过为任务执行定义严格的阶段(招募、协作决策制定、独立行动执行和评估),帮助指导智能体更有效地推理、讨论和执行。

图6:AgentVerse方法的图解

MetaGPT:通过要求智能体生成结构化输出(如文档和图表)而不是分享非结构化的聊天信息,解决了智能体之间无效聊天的问题。

尽管AI智能体技术前景广阔,但仍存在一些挑战,包括建立全面的基准测试、确保现实世界的应用性,以及减轻语言模型的有害偏见。此外,从静态语言模型向更动态、自主的智能体发展的转变,旨在为使用现有或开发定制智能体架构的研究提供全面的理解和指导。

THE LANDSCAPE OF EMERGING AI AGENT ARCHITECTURES FOR REASONING, PLANNING, AND TOOL CALLING: A SURVEY``https://arxiv.org/pdf/2404.11584.pdf

如何学习大模型 AGI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-


👉AGI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉AGI大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉AGI大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值