EvoAgent：通过进化算法实现自动多智体的生成

最新推荐文章于 2024-09-16 00:28:29 发布

硅谷秋水

最新推荐文章于 2024-09-16 00:28:29 发布

阅读量852

点赞数 29

分类专栏：人工智能大模型智能体文章标签：人工智能语言模型深度学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/141075134

版权

大模型同时被 3 个专栏收录

435 篇文章 6 订阅

订阅专栏

人工智能

229 篇文章 0 订阅

订阅专栏

智能体

156 篇文章 0 订阅

订阅专栏

24年7月来自复旦和微软亚洲研究院的论文“EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms”。

强大的大语言模型 (LLM) 兴起，催生了构建基于 LLM 的自主智体以解决复杂任务（尤其是多智体系统）的新趋势。尽管取得了显著进展，但现有工作严重依赖于人为设计的框架，这极大地限制智体系统的功能范围和可扩展性。如何将专业化的智体自动扩展到多智体系统以提高任务解决能力，仍然是一个重大挑战。本文介绍EvoAgent，一种通过进化算法自动将专家智体扩展到多智体系统的通用方法，从而提高基于 LLM 智体在解决任务中的有效性。具体而言，将现有的智体框架视为初始个体，然后应用一系列进化算子（例如，突变、交叉、选择等）来生成具有不同智体设置的多智体。EvoAgent 可以推广到任何基于 LLM 智体框架，并且可以自动将现有的智体框架扩展到多智体系统，无需任何额外的人为设计。

近年来，大语言模型 (LLM) [1, 2, 3, 4] 的出现，在解决语言理解、推理和生成任务方面表现出了卓越的能力。基于 LLM，许多研究工作 [5, 6, 7, 8, 9, 10, 11] 发现，通过赋予多种高级技能（例如，规划、工具、记忆等），可以开发更强大的自主智体来解决更具挑战性的任务。因此，如何设计和利用基于 LLM 的自主智体来处理更加多样化和复杂的现实世界应用，引起了人们的极大兴趣。

通常，许多现实世界场景通常很复杂，包含各种具有挑战性的任务，这些任务超出了单个智体的能力范围。为了解决这个问题，实际上看看人类社会，由大量个体组成，每个个体都具有其独特的特征。通过选择、协调和与不同的个体合作，人类可以组成一个高效的团队来处理现实世界中的复杂任务。因此，开发多智体协作框架（例如 MetaGPT [10]、AutoGen [12]、Camel [13]、Generative Agents [11]），这种模拟人类行为以解决复杂任务的趋势日益增长。

通过开发一系列具有不同设置的专家智体，多智体系统能够揭示多个智体之间的涌现能力，并协同他们的专业知识以实现卓越的性能，类似于模拟人类群体。

最近的研究表明，为基于 LLM 的自主智体分配人物性格或角色会影响它们在生成任务中的行为和表现 [28, 29, 30, 13]。当前的方法主要涉及手动分配这些角色，并将多智体协作限制为单个或固定角色，这需要大量的人力并且阻碍泛化 [13, 12, 24, 10]。为了解决这个问题，一些框架如 AgentVerse [25] 和 AutoAgents [31] 被提出来自动生成无限多智体以完成协作任务。然而，这些方法仍然严重依赖于人为设计的干预，这限制了它们的可扩展性和功能性。例如，AutoAgents 要求智体设置满足“规划器 - 智体观察器- 规划观察器”框架。同时，AgentVerse 制定了“专家招募 - 协作决策 - 行动执行 - 评估”的流程来构建智体。这些架构还限制了设计智体的任务范围。

通过为特定技能（例如，角色扮演、规划、工具等）分配各种设置，智体可以表现出不同的任务解决能力。因此，本文任务的目标是产生具有不同技能的智体群体，以建立有效的多智体系统。为了实现这一点，将每个专业智体视为一个独特的个体，并将每项技能表示为要进化的部分，类似于人类。因此，将智体生成过程视为进化过程。具体而言，现有框架通常将智体技能描述为语言。因此，可以使用 LLM 来模拟如何进化算子，更新智体的系统设置并创建新的智体。

EvoAgent 过程表述为四步流水线：

初始化：从预定义的智体框架（例如 MetaGPT [10] 和 AutoGen [12]）开始，该框架作为初始（父）智体。此外，还定义应该升级此智体的哪些部分。
交叉和变异：对于交叉，首先使父智体能够根据用户请求生成结果；然后，根据生成的结果，要求 LLM 检查哪些技能需要改进，然后更新它们；这种机制，可以在新的环境中生成子智体。此外，还需要保证子智体和父智体之间的多样性。变异要求 LLM 比较子智体和父智体，然后修改子智体，使其与父智体区分开来，同时保持其任务解决能力。基于这些进化算子，可以在一次迭代中生成有效且多样化的智体。
选择：基于上述步骤，得到具有不同设置的多个候选智体；为了保证质量，引入类似 EA 的选择机制。在这里，使用 LLM 执行质量检查模块，检测生成的智体是否能够满足其继承父智体的特征并保持差异。
更新：基于上述步骤，获得许多从父智体演化而来的新智体，但具有不同的设置。为了提高任务解决能力，要求每个子智体生成候选结果，然后使用 LLM 将这些候选结果与上一次迭代的结果整合成新结果，类似于自然选择处理阶段。

通过引入 EA，EvoAgent能够自动将现有的智体框架扩展为多智体系统，无需任何额外的人为设计。该机制还可以应用于其他智体框架，无需任何先决条件。整个过程如图所示。

请添加图片描述

下图是EvoAgent的算法细节：

请添加图片描述

基线方法和评估基准

对于 NLP 任务，选择 LLama2-13B-Chat [3]、GPT-3.5 [44] 和 GPT-4 [1] 作为主干网络。将 EvoAgent 与零样本学习（直接）、思维链 (CoT) 提示 [45] 和自我优化 [41] 以及单性能提示 (SPP) [42] 进行了比较。对于自我优化，遵循 [41] 来设计反馈并通过三次迭代去优化提示。SPP 不是一个多智体协作框架，而是一种提示策略，它要求单个 LLM 通过少样本学习识别和参与多个角色讨论。对于 SPP，遵循原始设置 [42] 进行公平比较。对于 MMMU，选择 GPT-4V [46] 和 Gemini-Pro 作为主干，并将 EvoAgent 与 CoT 提示、自我优化和 SPP 进行比较。

实验中选择如下的智体任务基准：

Logic Grid Puzzle，是一项推理任务，包含 200 个谜题，每个谜题都有 2 到 5 个不同的住户，住不同的房子。目的是根据提供的线索确定一个住户的门牌号。
Trivia Creative Writing，是一项知识密集型任务，包含 100 个实例。这项任务要求模型编写一个连贯的故事，同时结合 N 个琐事问题的答案。
Codenames Collaborative，是一项推理密集型任务，包含 50 个实例。它涉及一个根据给定提示和完整单词列表识别目标单词的模型。
MMMU [43]，大学水平、多学科多模态理解和推理的综合基准。MMMU 有三个难度级：简单、中等和困难。用 MMMU 验证集中的多项选择题，对比基线方法评估 EvoAgent，其中包括 30 个不同域的 847 个问题。

实验证明，该方法可以自动将现有的智体框架扩展到多智体系统，从而大大提高基于 LLM 的智体在各种场景中的表现。尝试将工作扩展到现实世界的多智体应用程序（例如 MetaGPT [10]、Camel [13] 和 AutoGen [12]），以验证它是否可以在构建多智体场景时扩大智体数量。

环境是MetaGPT 中使用的辩论场景，其中包括两个意见不同的辩手，导致内容生成枯燥重复。在这里，没有手动分配新角色，而是应用 EvoAgent 将每个辩论团队扩展到更多具有不同设置的智体，从而增加了意见的多样性和辩论的质量。

如图是EvoAgent 在 MetaGPT 框架上的应用。通过 EA，可以将辩论场景中原有的角色扩展到不同的专家智体，以丰富意见。

请添加图片描述