LLM 多智体系统：挑战与未解决的问题_多智能体系统的瓶颈与挑战-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/141179994

24年2月来自UCI的论文“LLM Multi-Agent Systems: Challenges and Open Problems”。

本文探讨多智体系统的现有工作，并指出仍未得到充分解决的挑战。通过利用多智体系统中各个智体的不同能力和角色，这些系统可以通过协作解决复杂的任务。其讨论优化任务分配、通过迭代辩论促进稳健推理、管理复杂和分层的上下文信息以及增强内存管理以支持多智体系统内的复杂交互。还探讨多智体系统在区块链系统中的潜在应用，阐明它们在现实世界分布式系统中的未来发展和应用。

多智体系统通过利用智体之间的协作及其专业能力来增强单个 LLM 智体的能力（Talebirad & Nadiri，2023；Zhang，2023a；Park，2023；Li，2023；Jinxin，2023）。它利用智体之间的协作和协调来执行超出任何单个智体能力的任务。在多智体系统中，每个智体都具备独特的能力和角色，共同协作以实现一些共同目标。这种协作以辩论和反思等活动为特征，已被证明对于需要深入思考和创新的任务特别有效。最近的研究包括模拟交互环境（Park，2023；Jinxin，2023）、角色扮演（Li，2023）、推理（Du，2023；Liang，2023），展示了多智体系统在处理复杂的现实场景中的巨大潜力。

虽然现有研究已经展示了多智体系统的强大功能，但先进多智体系统的潜力远远超过迄今为止取得的进展。大量现有研究侧重于通过将任务分解为更小、更易于管理的任务来设计单个智体中的规划策略（Chen，2022；Ziqi & Lu，2023；Yao，2023；Long，2023；Besta，2023；Wang，2022b）。然而，多智体系统涉及各种专业的智体和更复杂的交互以及分层的上下文信息，这对工作流程以及整个系统的设计提出了挑战。此外，现有文献对记忆存储的关注有限，而记忆在智体之间的协作中起着关键作用。它使智体能够访问一些常识，将上下文与任务相结合，并进一步从过去的工作流程中学习并相应地调整策略。

迄今为止，区分多智体系统和单智体系统的多个重大挑战仍未得到充分解决，包括：

优化任务分配，利用智体的独特技能和专业化。
通过智体子集之间的迭代辩论或讨论来促进稳健推理，增强中间结果。
管理复杂且分层的上下文信息，例如整体任务的上下文、单个智体以及智体之间的一些共同知识，同时确保与总体目标保持一致。
管理用于不同目标各种类型的内存，与多智体系统中的交互保持一致。

根据每个智体的功能及其交互，多智体系统的结构可分为多种类型，如图所示：
等层结构。等层系统中的 LLM 智体在同一层级上运行，其中每个智体都有自己的角色和策略，但没有一个智体比其他智体具有层级优势，例如 DMAS (Chen et al., 2023)。此类系统中的智体可以具有相同、中立或相反的目标。具有相同目标的智体在没有集中领导的情况下为共同目标而合作。重点是集体决策和共同责任 (Li et al., 2019)。在目标相反的情况下，智体通过谈判或辩论来说服其他人或实现某些最终解决方案 (Terekhov et al., 2023; Du et al., 2023; Liang et al., 2023; Chan et al., 2023)。
分层结构。分层结构（Gronauer & Diepold，2022；Ahilan & Dayan，2019）通常由一个领导者和一个或多个追随者组成。领导者的角色是指导或规划，而追随者则根据领导者的指示做出响应或执行。分层结构在中央权威机构指导下协调努力的场景很普遍。探索 Stackelberg 游戏的多智体系统（Von Stackelberg，2010；Conitzer & Sandholm，2006）属于这一类（Harris，2023）。这种类型的游戏以这种领导-追随者动态和决策的顺序性为特征。智体按顺序做出决策，其中领导者首先生成输出（例如，指令），然后追随者根据领导者的指令采取行动。
嵌套结构。嵌套结构或混合结构构成了同一多智体系统中等层结构和/或分层结构的子结构 (Chan，2023)。系统的“大局”可以是等层的，也可以是分层结构的，但是，由于某些智体必须处理复杂的任务，将任务分解为小任务并构建一个等层或分层结构的子系统，并“邀请”多个智体来帮助完成这些任务。在这样的系统中，分层结构下不同层之间的相互影响和P2P交互增加了复杂性。此外，这些不同结构之间的相互作用可能导致复杂的动态，其中策略和响应由于各种影响因素的存在而变得复杂，包括外部元素，如上下文或环境。
动态结构。动态结构意味着多智体系统的状态（例如，智体的角色、它们的关系以及多智体系统中的智体数量）可能会随时间而变化（Talebirad & Nadiri，2023）。例如，（Talebirad & Nadiri，2023）可以添加和删除智体，使系统能够适应手头的任务。多智体系统还可以具有上下文自适应性，系统内部的交互模式会根据内部系统状态或外部因素（例如上下文）进行修改。此类系统中的智体可以根据不断变化的条件动态地重新配置其角色和关系。

请添加图片描述

多智体系统方面的挑战包括：
规划。在单智体系统中，规划涉及 LLM 智体将大任务分解为一系列小的、可管理的任务，以有效实现特定目标，同时增强可解释性、可控制性和灵活性 (Li et al., 2024; Zhang et al., 2023b; Nye et al., 2021; Wei et al., 2022)。智体还可以学习调用外部 API 来获取模型权重中缺少的额外信息（通常在预训练后很难更改），或者将 LLM 与网站、软件和工具连接起来 (Patil et al., 2023; Zhou et al., 2023; Cai et al., 2023)，帮助推理并提高性能。虽然多智体系统中的智体具有与单智体系统相同的功能，但它们遇到了从多智体系统中工作流程中继承的挑战。划分工作流程并将子任务分配给智体，称为“全局规划”，而且每个单智体也需要任务分解。与单智体系统中的规划不同，多智体系统中的智体必须处理更复杂的上下文，在多智体系统内部达成一致，并进一步实现与总体目标的一致性。
记忆管理。单智体系统中的记忆管理包括对话期间的短期记忆、存储历史对话的长期记忆，以及（如果有的话）作为推理的补充信息源的外部数据存储，例如 RAG（Lewis，2020）。多智体系统中的记忆管理必须处理复杂的上下文数据和复杂的交互和历史信息，因此需要对内存进行高级设计。
应用。多智体系统在区块链中的应用，区块链是一种涉及复杂层和应用程序设计的分布式系统。基本上，多智体系统可以作为一种工具，因为它能够处理区块链中的复杂任务。区块链还可以与多智体系统集成，因为它们具有分布式特性，可以将智体分配给区块链节点，代表该智体执行复杂的操作，例如谈判。

多智体系统中的规划涉及了解整体任务并根据智体的角色和专长设计其之间的工作流程（即全局规划），并将每个智体的任务分解为可管理的小任务（即局部规划）。与单智体系统相比，此过程必须考虑智体的功能、智体之间的动态交互以及更复杂的环境。这种复杂性为多智体系统带来了独特的挑战和机遇。

全局规划是指了解总体任务，将任务分解为较小的任务，并将子任务协调给智体。它需要仔细考虑任务分解和智体协调。在多智体系统中，为智体划分职责并设计有效的工作流程对于确保每个智体的任务可执行、有意义且直接有助于实现总体目标至关重要。最大的挑战在于以下方面：
1）工作流程的划分应最大限度地利用每个智体的独特能力，即每个智体可以处理与其能力和专业知识相匹配的部分任务；
2）每个智体的任务必须与总体目标保持一致；
3）设计必须理解和考虑总体任务以及每个智体的背景。这需要深入了解手头的任务以及系统中每个智体的具体优势和局限性。

单个智体中的任务分解涉及生成一系列中间推理步骤以完成任务或得出答案。此过程可以表示为将直接输入输出（⟨输入→输出⟩）映射转换为⟨输入→理性→输出⟩映射（Wei，2022；Zhang，2023b）。任务组成可以采用以下不同格式：
1）思维链（CoT）（Wei，2022），将大任务转化为逐步可管理的任务，以表示对智体推理（或思考）过程的解释。
2）多个 CoT（Wang，2022a），探索多个独立的 CoT 推理路径并返回具有最佳输出的路径。
3）思维程序（PoT）（Chen，2022），使用语言模型生成文本和编程语言语句，最后生成答案。
4）思维表（Tab-CoT）（Ziqi & Lu，2023），使用表格格式进行推理，使复杂的推理过程能够以高度结构化的方式明确建模。
5）思维树（ToT）（Yao，2023；Long，2023），通过制定树结构来扩展 CoT，以探索每一步的多种推理可能性。它能够根据给定的任意想法产生新的想法，并可能从中回溯。
6）思想原理图（GoT-Rationale）（Besta，2023），探索任意图，以便将任意想法聚合成新想法，并使用循环增强想法。
7）原理增强集成（Wang，2022b），可自动聚合不同的原理，以克服次优原理下性能的脆弱性。

在多智体系统中，单个智体的任务分解变得更加复杂。每个智体必须了解分层且复杂的上下文，包括 1) 总体任务、2) 智体各个任务的具体上下文以及 3) 多智体系统中其他智体提供的上下文信息。此外，智体必须将这些复杂的多维上下文与其分解的任务进行协调，以确保在总体任务中连贯有效地发挥作用。

这个领域存在的挑战包括：
协调整体环境。在多智体系统中，协调不同智体之间的目标至关重要。每个 LLM 智体必须清楚地了解其角色及其如何融入整体任务，以便智体能够有效地履行其职能。除了个人角色之外，智体还需要认识到其任务如何融入大局，以便其输出能够与其他智体的输出相协调，并确保所有努力都朝着共同目标前进。
协调智体之间的环境。多智体系统中的智体集体处理任务，每个智体必须理解并整合系统内其他智体提供的环境信息，以确保充分利用其他智体提供的信息。
协调分解任务的环境。当每个智体的任务被分解为更小、更易于管理的子任务时，协调多智体系统中的复杂环境就变得具有挑战性。每个智体的分解任务必须符合其个人任务和总体目标，同时与其他智体的环境相整合。智体必须根据其他智体提供的背景信息调整和更新对任务的理解，并进一步相应地规划分解的任务。
目标一致性。在多智体系统中，目标的一致性在各个级上保持一致，即从总体目标到单个智体任务及其分解的任务。每个智体都必须理解并有效利用分层上下文，同时确保其任务和分解后的子任务与总体目标保持一致。（Harris，2023）扩展了 Stackelberg 模型（Von Stackelberg，2010；Conitzer & Sandholm，2006），使智体能够整合外部上下文信息，例如其他智体提供的上下文（或见解）。然而，在推理过程中将复杂的上下文与分解的任务对齐仍然是一个尚未解决的问题。

单 LLM 智体系统中的记忆是指智体记录、管理和利用数据（例如过去的历史查询和一些外部数据源）的能力，以帮助推理并增强决策和推理能力（Yao et al., 2023; Park et al., 2023; Li & Qiu, 2023; Wang et al., 2023; Guo et al., 2023）。虽然单 LLM 智体系统中的记忆主要侧重于内部数据管理和利用，但多智体系统需要智体协同完成某些任务，这不仅需要每个智体的单独记忆能力，还需要一个复杂的机制来共享、集成和管理不同智体之间的信息，从而对记忆和信息检索提出了挑战。

根据多智体系统的工作流程，我们将多智体系统中的记忆分为以下几类。
短期记忆：这是大语言模型 (LLM) 在对话或交互过程中使用的即时、瞬时记忆，例如 (Jinxin et al., 2023) 中的工作记忆。它是短暂的，仅在正在进行的交互期间存在，并且在对话结束后不会持续存在。
长期记忆：这种类型的记忆存储历史查询和响应，本质上是早期会话的聊天记录，以支持对未来交互的推断。通常，这种记忆存储在外部数据存储器中，例如矢量数据库，以便于回忆过去的交互。
外部数据存储（如 RAG）：这是 LLM 研究中的一个新兴领域，其中模型与外部数据存储（如矢量数据库）集成在一起，这样智体就可以从这些数据库中访问更多知识，从而增强其巩固和丰富其响应的能力（Lewis，2020）。这使 LLM 能够生成更具信息性、更准确且与查询的特定上下文高度相关的响应。
情景记忆（Episodic Memory）：这种类型的记忆包含多智体系统内的一系列交互。当智体面临新任务或查询时，它起着至关重要的作用。通过引用与当前查询具有上下文相似性的过去交互，智体可以显着提高其响应的相关性和准确性。情景记忆允许采用更明智的方法进行推理和解决问题，从而实现更具适应性和智能的响应机制，因此是多智体系统中的宝贵资产，
共识记忆（Consensus Memory）：在多智体系统中，智体协作完成任务，共识记忆充当共享信息的统一来源，例如常识、某些特定领域的知识等，例如技能库（Jinxin，2023）。智体利用共识记忆将他们的理解和策略与任务保持一致，从而增强智体之间有效和有凝聚力的协作。

在多智体系统中记忆管理充满了挑战和未解决的问题，尤其是在安全、保障和隐私领域。概述如下：
分层记忆存储：在多智体系统中，不同的智体通常具有不同的功能和访问需求。一些智体可能必须查询其敏感数据，但它们不希望其他方访问这些数据。在确保所有客户端都可以访问共识内存的同时，实施强大的访问控制机制对于确保智体的敏感信息不会被所有智体访问至关重要。此外，由于系统中的智体在一项任务上进行协作，并且它们的功能共享相同的上下文，因此它们的外部数据存储和记忆可能会重叠。如果这些智体的数据和功能不敏感，则采用统一的数据存储可以有效地管理数据之间的冗余，此外，还可以确保整个多智体系统的一致性，从而更高效、更精确地维护记忆。
共识记忆的维护：由于共识记忆是所有智体在协作完成一项任务时获得的，因此确保共享知识的完整性对于确保多智体系统中任务的正确执行至关重要。任何篡改或未经授权修改共识记忆的行为都可能导致执行系统失败。因此，严格的访问控制对于降低数据泄露风险非常重要。
通信和信息交换：在多智体系统中，确保智体之间的有效通信和信息交换至关重要。每个智体都可能拥有关键信息，而这些信息的无缝集成对于整个系统的性能至关重要。
情景记忆管理：在多智体系统中，利用多智体系统中的过去交互来增强对新查询的响应是一项挑战。如何有效地回忆和利用智体之间与上下文相关的过去交互，确定这一点对应对当前的求解问题场景非常重要。

在区块链的应用（略）。