新兴人工智能Agent架构的综述：推理、规划和工具调用

最新推荐文章于 2024-09-15 15:29:29 发布

麻辣排骨面

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量794

点赞数 20

文章标签：人工智能架构自然语言处理产品经理语言模型 llama

本文链接：https://blog.csdn.net/ytt0523_com/article/details/139659515

版权

自ChatGPT推出以来，许多第一波生成性AI应用已成为使用检索增强生成（RAG）模式在文档语料库上进行聊天的变种。虽然有很多工作在使RAG系统更加健壮，但不同的团队开始构建下一代AI应用的外观，集中在一个共同的主题上：智能体（Agent）。与用户在开放式文本字段中输入并无需额外输入即可获得结果的大型语言模型的零次提示不同，智能体允许更复杂的交互和编排。特别是，智能体系统具有规划、循环、反思和其他控制结构的概念，这些结构充分利用了模型固有的推理能力来端到端完成任务。结合使用工具、插件和函数调用的能力，智能体被赋予了执行更通用工作的能力。当问题定义明确且不需要来自其他智能体角色或用户的反馈时，单智能体架构表现出色；而当需要协作和多条不同的执行路径时，多智能体架构更倾向于蓬勃发展。

智能体（Agent）分类

AI智能体被定义为能够规划和采取行动以在多轮迭代中执行目标的语言模型驱动实体。智能体架构可以由单个智能体或多个协同工作解决问题的智能体组成。

图1：单智能体和多智能体架构及其底层特性和能力的可视化展示。

AI智能体定义：AI智能体被描述为能够规划和采取行动以在多轮迭代中执行目标的语言模型驱动实体。
单智能体与多智能体架构：AI智能体架构可以由单个智能体构成，也可以由多个协同工作的智能体构成，以解决特定的问题。
智能体角色（Agent Persona）：每个智能体被赋予一个角色或个性，这包括特定于该智能体的任何指令。角色还涉及智能体可以利用的工具的描述。
工具（Tools）：在AI智能体的上下文中，工具指的是模型可以调用的任何功能，允许智能体与外部数据源交互。
单智能体架构：由一个语言模型驱动，独立完成所有的推理、规划和工具执行。单智能体模式没有来自其他AI智能体的反馈机制，但可能包括人类提供反馈的选项。
多智能体架构：涉及两个或更多的智能体，它们可以利用相同的语言模型或不同的语言模型集合。每个智能体通常有自己独特的角色。
垂直与水平架构：多智能体架构被进一步细分为垂直和水平两种类型。垂直架构中有一个智能体作为领导者，而水平架构中所有智能体平等参与，共享信息和任务。
智能体的三个组成部分：根据文中的定义，智能体由“大脑、感知和行动”三个基本部分组成，以满足智能体理解、推理和对其周围环境采取行动的最小需求。

单智能体（SingleAgent**）架构**

单智能体架构由一个语言模型驱动，独立执行所有的推理、规划和工具执行。成功的单智能体目标执行依赖于适当的规划和自我修正能力。单智能体在执行直接功能调用且不需要其他智能体反馈的任务时特别有用。

单智能体方法示例：

ReAct：智能体首先写下关于给定任务的思考，然后根据这些思考执行动作，并观察输出，这个循环可以一直重复，直到任务完成。

图2：ReAct方法与其他方法比较的一个示例

RAISE：在ReAct方法的基础上增加了一个模仿人类短期和长期记忆的记忆机制，使用草稿本进行短期存储，使用类似先前案例的数据集进行长期存储。

图3：展示了RAISE方法的图表

Reflexion：使用语言反馈进行自我反思的单智能体模式，通过使用成功状态、当前轨迹和持久记忆等指标，利用大型语言模型（LLM）评估器为智能体提供具体和相关的反馈。

AutoGPT + P：针对以自然语言指挥机器人的智能体推理限制的方法，结合了对象检测和对象功能映射（OAM）以及由LLM驱动的规划系统。

图4：AutoGPT+P方法的图解

LATS：使用树进行规划、行动和推理的单智能体方法，通过树搜索算法选择行动，并在执行行动后使用环境反馈和语言模型反馈进行自我反思。

尽管单智能体架构在某些方面取得了进展，但它们在理解复杂逻辑、避免幻觉（hallucination）以及在需要多样性、探索和推理的任务上提高性能方面仍存在挑战。

多智能体（Multi Agent）架构

涉及两个或更多智能体，每个智能体可以使用相同的语言模型或不同的语言模型集合。多智能体架构通过智能体之间的沟通和协作计划执行来促进目标的实现。这些架构通常涉及动态团队构建，以及在规划、执行和评估阶段对团队成员的智能分工。

多智能体架构分为两大类：垂直架构和水平架构。垂直架构中有一个主导智能体，而水平架构中所有智能体地位平等，共同参与任务讨论。

多智能体架构示例：

Embodied LLM Agents Learn to Cooperate in Organized Teams：研究了领导智能体对团队整体效能的影响，发现有组织的领导智能体团队完成任务的速度比无领导的团队快。

图5：有指定领导者的智能体团队实现了更优越的表现

DyLAN (Dynamic LLM-Agent Network)：创建了一个专注于复杂任务如推理和代码生成的动态智能体结构，通过动态评估和排名智能体的贡献来优化团队。

AgentVerse：通过为任务执行定义严格的阶段（招募、协作决策制定、独立行动执行和评估），帮助指导智能体更有效地推理、讨论和执行。

图6：AgentVerse方法的图解

MetaGPT：通过要求智能体生成结构化输出（如文档和图表）而不是分享非结构化的聊天信息，解决了智能体之间无效聊天的问题。

尽管AI智能体技术前景广阔，但仍存在一些挑战，包括建立全面的基准测试、确保现实世界的应用性，以及减轻语言模型的有害偏见。此外，从静态语言模型向更动态、自主的智能体发展的转变，旨在为使用现有或开发定制智能体架构的研究提供全面的理解和指导。

THE LANDSCAPE OF EMERGING AI AGENT ARCHITECTURES FOR REASONING, PLANNING, AND TOOL CALLING: A SURVEY``https://arxiv.org/pdf/2404.11584.pdf

如何学习大模型 AGI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-