多智能体协作新框架AGENTVERSE：探索协作行为与效率提升

人工智能大模型讲师培训咨询叶梓

已于 2025-03-05 14:09:51 修改

阅读量1.6k

点赞数 25

分类专栏：人工智能文章标签：人工智能算法机器学习大模型优化智能体多智能体深度学习

于 2024-10-05 19:45:00 首次发布

本文链接：https://blog.csdn.net/weixin_44292902/article/details/142642522

版权

人工智能专栏收录该内容

312 篇文章

订阅专栏

人工智能咨询培训老师叶梓转载标明出处

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具（限时免费）。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987

更多分享，关注视频号：sphuYAMr0pGTk27 抖音号：44185842659

大模型（LLMs）赋予了自主智能体广泛的任务泛化能力，但现实任务往往需要团队合作来提升效率。尽管已有研究探索了智能体的合作潜力，但这些研究通常局限于特定任务，缺乏通用性，并且智能体的合作方式较为固定，缺乏适应性。针对这一挑战，来自清华大学计算机科学与技术系、北京邮电大学计算机科学学院以及腾讯公司微信AI团队的研究人员共同提出了一个名为AGENTVERSE的多智能体框架。

AGENTVERSE框架

AGENTVERSE框架被设计来模拟人类群体的问题解决过程，以提高自主智能体团队实现目标的有效性。该框架由四个关键阶段组成（图1）：专家招募、协作决策制定、行动执行和评估。

专家招募

在专家招募阶段，框架确定多智能体团队的组成，这对决定团队的能力上限至关重要。研究证据表明，人类群体中的多样性引入了不同的观点，增强了团队在不同任务中的表现。AGENTVERSE通过自动化专家招募，使智能体配置更加可扩展。对于给定的目标g∈G，特定的智能体M_r被提示为“招募者”，类似于人力资源经理。招募者不是依赖于预定义的专家描述，而是根据g动态生成一组专家描述。然后，被这些不同的专家描述提示的不同智能体就形成了一个专家组M=M_r(g)。值得注意的是，多智能体团队的组成将根据评估阶段（后面提及）的反馈动态调整。这允许AGENTVERSE根据当前状态使用最合适的团队，以便在未来的轮次中做出更好的决策。

协作决策制定

协作决策制定阶段让专家智能体参与协作决策。为了促进有效的决策，先前的研究已经调查了智能体之间不同沟通结构的影响。研究主要关注两种典型的沟通结构：水平结构和垂直结构。

水平结构：在这个民主结构中，每个智能体m_i∈M共享和完善其决策a_mi。小组的集体决策是使用函数f整合个别智能体的决策而形成的，这可能涉及总结或集成等技术。这种结构特别适用于咨询和工具使用等场景。
垂直结构：相反，垂直结构有明确的角色划分。一个被称为求解器的智能体m^∗提出一个初始决策。其他智能体作为评审者，对这个提案提供反馈，促使求解器进行迭代改进，直到评审者达成共识或完成设定的迭代次数。最终决策A给出为，其中k表示改进的次数。垂直结构更适用于数学问题求解和软件开发等任务，这些任务只需要一个经过改进的决策。

行动执行

在决策制定阶段，智能体共同促成一个包含需要在当前环境中执行的行动的团队决策A。在行动执行阶段，智能体随后在环境中执行集体决定的行动。根据实现的不同，一些智能体可能不执行任何执行。由于这些行动，环境状态从转换为。

评估

评估阶段对于AGENTVERSE至关重要，它指导后续轮次的改进。在这个阶段，反馈机制R评估当前状态和期望目标g∈G之间的差异。然后，它提供口头反馈，详细说明不足的领域，并提出增强性能的方法。R可以由人类定义（在人工参与的设置中）或智能体定义，用于自动反馈，具体取决于实现方式。如果目标g仍未实现，反馈r返回到最初的专家招募阶段。在下一轮中，专家招募阶段将考虑反馈r和目标g，以调整团队的组成，旨在根据当前进展发展出更有效的多智能体团队。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具（限时免费）。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987

实验

设计了四个实验任务。这些任务评估智能体团队的不同方面，包括理解与推理能力、编程能力、工具使用能力，以及在具身智能中的潜力。

实验中评估了由GPT-3.5-Turbo0613和GPT-4-0613驱动的智能体在各种任务上的表现。所有实验都在零样本设置下完成。实验比较了三种设置：

CoT：链式思考智能体；
Solo：在决策阶段使用AGENTVERSE的单个智能体，包括专家招募、行动执行和评估模块；
Group：在决策阶段实现AGENTVERSE的多个智能体协作。

在理解与推理能力方面，AGENTVERSE 框架通过使用 FED、Commongen Challenge、MGSM 和 Logic Grid Puzzles 等数据集进行评估。实验结果表明，无论是 GPT-3.5-Turbo 还是 GPT-4，AGENTVERSE 组装的智能体在 Solo 和 Group 设置下均优于单独的 CoT 智能体。

表1 展示了不同任务上评估智能体的一般能力的结果。例如，在对话（FED）任务中，GPT-4 驱动的智能体在 Group 设置下得分为 96.8，表明在 AGENTVERSE 框架下，智能体团队的协作可以显著提升性能。

图2 展示了一个咨询过程的示例，其中智能体团队为在俄亥俄州建设压缩氢储存站提供建议。在第一轮决策中，团队成员包括化学工程师、土木工程师和环境科学家。他们提供了关于选址、压缩技术、安全措施等方面的初步建议。到了第二轮，团队根据反馈进行了更深入的讨论，引入了经济学家和律师的角色，以提供更全面的考虑，如社区参与和政府支持。这个案例研究突出了由 GPT-4 智能体组成的群体的好处，尤其是在提供详细建议方面。

在编程能力评估中，Humaneval 代码补全数据集被用来测试智能体。表2 展示了从 CoT 到 Solo 再到 Group 设置，智能体的性能明显提高。特别是在 GPT-4 的 Group 设置下，性能从 83.5 提高到 89.0，显示了 AGENTVERSE 在管理技能娴熟的智能体团队进行编程方面的有效性。

图3 展示了使用 AGENTVERSE 框架开发 Python 计算器 GUI 的示例过程。在第一轮决策中，团队成员包括经验丰富的程序员、软件开发人员、UI/UX 设计师和软件测试员。他们共同讨论了计算器的功能需求和设计思路。到了第二轮，团队根据评估反馈进行了代码的改进和优化，最终产生了一个结构良好、用户友好的计算器应用程序。这个案例研究展示了多智能体团队在软件开发中的协作优势。

工具使用能力的评估通过设计一组需要至少两种工具才能完成的复杂任务来进行。AGENTVERSE 策划的智能体团队成功完成了 9 个任务，而单个 ReAct 智能体只完成了 3 个任务，证明了 AGENTVERSE 在提升工作效率方面的优势。

实验证明AGENTVERSE 框架通过模拟人类群体的问题解决过程，有效地增强了智能体团队在多样化任务中的协作和性能。AGENTVERSE 还能够引导智能体团队展现出独特的协作行为，进一步提升团队效率。

https://arxiv.org/pdf/2308.10848

https://github.com/OpenBMB/AgentVerse/