目录
第 13 章
多智能体系统的设计
在基于大语言模型的多智能体系统(LLM-MAS)的背景下,协作目标和协作规范是塑造系统行为、交互模式和整体有效性的基础要素。协作目标明确了智能体旨在实现的具体目标——无论是单独、集体还是竞争性地——而协作规范定义了管理系统内智能体交互的规则、约束和惯例。这些组件共同建立了一个强大的框架,指导智能体之间有效的沟通、协调和合作。
本节根据协作目标和规范的不同组合,将基于大语言模型的多智能体系统(LLM-MAS)分为三大类:策略学习、建模与仿真以及协作任务解决。尽管这些类别并非详尽无遗,但它们涵盖了广泛的 LLM-MAS 设计,并清晰地反映了系统目标如何塑造智能体的交互和结果。
• 策略学习系统将智能体置于博弈论背景中,智能体追求个体目标或部分冲突的目标。交互可以是合作性的、竞争性的或混合性的,并由预定义的游戏规则和交互规范明确指导。这种设置通常与传统博弈论中的非合作(策略)和合作概念相一致。详情请参阅第 13.1 节。
• 建模与仿真环境侧重于智能体独立行动,受各种环境或社会因素驱动。在这里,交互是有机产生的,不一定趋向共同目标,反映了大规模社会或经济模拟中观察到的复杂动态。详情请参阅第 13.2 节。
• 协作任务解决强调智能体之间为实现明确共享的目标而进行的系统性合作。智能体通常采用结构化的工作流程、清晰的角色定义和高度预定义的协作规范,以同步它们的行动,共同实现集体目标。详情请参阅第 13.3 节。
在本章的其余部分,我们将详细阐述每个类别,考察大语言模型如何在我们的范围内启用、影响和增强智能体的行为、交互和集体智能。
接下来,我们将详细考察这些类别,重点介绍每种类别如何利用大语言模型的能力来塑造智能体的行为和交互。
13.1 策略学习:合作 vs. 竞争
策略学习指的是智能体在博弈论设置中(无论是竞争性、合作性还是混合性)动态预测、解释和影响其他智能体行动的能力[949]。智能体根据新信息迭代调整其策略,通常使用纳什均衡[950]、贝叶斯博弈[951, 914, 952]或重复交互[953, 954]等基本概念进行建模。随着大语言模型实现细致入微的语言推理,策略学习越来越多地整合“软”信号——包括对话、说服和隐式协商——从而丰富了传统的博弈论推理框架[952, 955, 956, 957]。
在经济应用中,多智能体策略模拟为市场行为和谈判策略提供了宝贵的见解,突显了竞争和合作的动态。例如,[958]和[951]展示了由大语言模型赋能的智能体如何模拟招聘过程,在受控的经济实验中表现出理性决策,甚至预测股票走势。[959]引入了一个基于 GPT-4 的竞争环境,来说明餐厅和顾客智能体如何竞争以优化利润和满意度,展示了现实的竞价和定价策略。同时,[960]研究了基于大语言模型谈判中的买卖双方讨价还价,而[961]使用最后通牒博弈模拟来阐明基于类人策略行为的政策制定决策。
图 13.1:基于大语言模型的多智能体系统中三种主要协作类型的概述:建模与仿真、策略学习和协作任务解决。每个类别通过智能体的目标和规范设置方式(独立 vs. 分歧 vs. 共享)以及它们的协调方式来区分。
除了传统市场,策略学习广泛应用于存在资源分配、联盟或竞争-合作权衡的任何地方。例子包括多商品竞争[962, 959],其中智能体策略性地谈判条款以最大化个体利益;或以可持续性为重点的背景,其中智能体协调资源消耗[963]。在游戏领域,诸如狼人杀、变色龙、阿瓦隆和剧本杀等社交推理游戏要求智能体管理欺骗与合作之间的复杂相互作用[964, 965, 966, 153, 919, 967, 968, 969, 970]。[971, 965]的研究突显了基于大语言模型的智能体擅长策划微妙的欺骗和合作,而[967, 972, 968, 969]则强调了阿瓦隆游戏中适应性的多轮策略。[970]通过展示在剧本杀谋杀悬疑类型中自主的多智能体互动,重现复杂叙事,进一步推动了这一界限。类似地,外交模拟([973]和[974])使用基于大语言模型的智能体来模拟全球范围内复杂的地缘政治谈判和联盟形成动态。
总结:由大语言模型驱动的策略学习的一个关键优势在于有效地结合了严谨的博弈论逻辑和自然语言推理。这种融合使智能体能够解释复杂的指令,进行有说服力的对话,并更灵活地适应新颖或非结构化的环境。因此,基于大语言模型的策略智能体在准确建模复杂的现实世界互动方面具有巨大潜力——涵盖经济竞争、社会谈判和地缘政治策略——远比传统的基于规则或纯数值的方法更有效。
13.2 建模现实世界动态
建模与仿真是基于大语言模型的多智能体系统(LLM-MAS)的另一个关键应用领域,旨在规模化地复制复杂的社会、经济和政治现象。通过利用大语言模型复杂的语言理解和上下文推理能力,这些模拟可以包含高度异构的智能体,其不断演变的行为反映了现实世界的动态性。与强调明确竞争或合作目标的策略学习环境不同,建模与仿真场景中的智能体独立运作,受其领域特定角色、偏好以及与模拟环境的互动所引导[975]。
例如,在医疗保健领域,[921]引入了 Agent Hospital,其中由大语言模型驱动的医生智能体通过与虚拟患者的逼真互动,迭代地完善治疗策略。这使研究人员能够在一个受控但现实的环境中测试管理协议、培训范式和“假设”场景。类似地,在经济背景下,[976]提出了 EconAgents,利用由大语言模型驱动的智能体来逼真地模拟个体层面的行为,如就业决策、消费模式和储蓄策略。这些智能体促进了富有表现力的宏观经济模拟,在适应性和现实性方面超越了传统的数值或严格基于规则的方法[977]。此外,政治科学应用也受益于这种方法。例如,[978]和[977]成功地模拟了选举过程和政策制定动态,揭示了公众话语、候选人策略和选民互动如何塑造现实世界的政治结果。
除了经济学和政治学,基于大语言模型的模拟还适用于各种社会和文化现象。例如,[979]和[255]使用社交网络中语言和情感传播的模拟来研究观点、信念或情感集群如何在网上形成。 [980]的研究探讨了在各种拓扑和互动模式下意见动态如何演变,而[981]则考察了在异构智能体群体中假新闻传播或停止的条件。像 GenSim [982] 和 OASIS [936] 这样的大规模模拟平台进一步拓展了边界,可扩展到数万甚至数百万用户智能体,从而能够在现实约束下研究涌现的群体行为和系统效应——例如病毒式信息传播、回声室形成或群体极化。
总结:基于大语言模型的模拟的优势在于捕捉驱动现实世界行为的结构动态(例如,网络拓扑或制度规则)和认知或语言上的细微差别。通过将基于语言的推理嵌入到智能体模型中,研究人员可以检验复杂的社会过程——如说服、框架效应或文化传播——这些过程很难通过纯粹的数值或基于规则的方法来捕捉。
13.3 使用工作流生成的协作任务解决
协作任务解决通过结构化的工作流程,协调多个智能体朝着明确定义的目标努力。与可能涉及竞争利益的策略学习或智能体独立行动的开放式建模与仿真相比,协作智能体作为一个统一的问题解决流程的一部分运作。智能体通常遵循明确定义的角色(例如,“规划者”、“执行者”或“评估者”)和基于阶段的过程,以确保高效准确地完成任务。
诸如 MetaGPT [626]、CAMEL [848]、Communicative Agents [983] 以及 [924] 中描述的框架,例证了明确定义的角色、职责和决策流程如何让基于大语言模型的智能体有效协调。一个典型的工作流程可能涉及一个智能体分析问题陈述,另一个提出解决方案大纲,第三个实施部分解决方案,第四个验证正确性。这些智能体之间的通信通常通过多轮自然语言“对话”进行,利用了大语言模型固有的语言生成优势。这种结构化方法也被证明有助于扩展到更宏大的项目,因为子任务可以委托给具有领域特定提示或训练的专门智能体。
最近,协作任务解决系统在软件开发场景(例如,多智能体编码、调试和测试)中得到了广泛探索。然而,科学发现是一个特别突出且引人注目的应用领域。例如,Agent Laboratory [746] 在结构化的科学工作流程中部署智能体:提出假设、设计实验、分析结果和完善后续探究,这有效地反映了科学研究的迭代性质。类似的多智能体设计可以适应诸如文献综述、政策起草或大规模数据分析等任务,使用明确定义的协议来保持一致性并避免重复劳动。
总结:与其他基于大语言模型的多智能体范式相比,协作任务解决本质上优先考虑清晰性和可预测性:每个智能体的角色和目标都是预定义的,限制了涌现或混乱的行为。这种结构在需要精确性、问责制或顺序决策的领域特别有利。同时,研究正在进行中,以在结构和灵活性之间找到适当的平衡,确保智能体有足够的自主权来创造性地贡献解决方案,同时遵守共享的工作流程,最终保证可靠、高质量的任务完成。
讨论:上述三个维度——策略学习、建模与仿真以及协作任务解决——反映了基于大语言模型的多智能体系统的广度。每个类别都解决了不同的研究问题和现实世界应用,利用基于语言的推理来应对超出传统纯数值或规则驱动智能体设计能力的挑战。
13.4 构建人工智能智能体团队
在多智能体系统(MAS)中,智能体是系统内交互的核心单元,对系统的功能至关重要。根据智能体是否共享相同或不同的角色、能力和动作空间,可以将它们分为同构或异构两类。
同构 同构智能体共享相同的功能、动作空间和观察空间。与单智能体系统相比,其主要优势在于任务并行化,允许多个智能体同时处理任务的不同部分,提高整体效率。它们通常用于较简单的协调任务,其中智能体之间的一致性可以提高性能。
多项研究已应用同构智能体来模拟 Overcooked 和 Minecraft 等游戏中的团队合作,以及现实世界中的任务,如家务分工。[924] 提出了一个受认知启发的模块化框架,使基于大语言模型的智能体能够通过自然语言进行交流,以执行劳动分工、互相请求帮助,并协作完成物体运输任务。[984] 在该框架中引入了基于提示的组织结构,减少了智能体之间的通信成本,并提高了团队在准备下午茶、洗碗和准备餐食等家务任务中的效率。此外,多项研究 [926, 925] 在 Overcooked 和 Minecraft 等热门游戏中使用多个基于大语言模型的智能体,以试验它们的合作和完成任务的能力。根据游戏设置,这些智能体也是同构的。
异构 智能体多样性在改善协作结果方面起着至关重要的作用。研究表明,智能体之间的异构性可以增强问题解决能力,因为多样化的智能体为手头的任务带来了不同的视角和技能 [985, 986]。异构性有助于产生更丰富的问题解决策略,并改善多智能体系统中的整体协作。智能体的异构特征可以体现在以下几个维度:角色层面异构性、观察空间异构性以及动作空间异构性。请注意,这些异构性并非相互排斥——一个异构智能体可能表现出其中一种或多种特征。
• 角色层面异构性 (Personas-level heterogeneity)。指的是智能体配置文件的多样性,这影响了智能体解决问题和相互交互的方式。当前大多数基于大语言模型的异构多智能体系统都属于这一类 [987, 627, 50, 970]。例如,在软件开发中,智能体可能扮演程序员、产品经理或测试人员等角色。在医疗诊断中,智能体可能代表心脏病专家、肿瘤学家或儿科医生,各自拥有不同的专业领域。每个角色的独特视角和专业知识有助于做出更稳健的决策。虽然这些异构智能体可能共享相同的动作空间——例如编写文档 [626](如代码、需求报告或测试报告)或提供诊断建议 [922]——但它们的角色会影响这些动作的结果,其中多智能体架构内针对角色的增强已被证明能显著简化和优化任务执行。例如,产品经理执行编写文档的动作会生成需求报告,而程序员执行相同的动作则会生成软件实现代码 [626]。这种多样性带来了更好的决策和创新,尤其是在复杂的多学科任务中。
• 观察空间异构性 (Observation-space heterogeneity)。在多智能体系统中,智能体感知和解释其环境的能力可能不同。观察空间异构性指的是智能体在其环境中能够观察或感知的内容的差异。例如,在狼人杀游戏中,一些智能体(如狼人)可以看到队友的身份,预言家可以获取指定玩家的身份,而其他智能体(如村民)则看不到任何玩家的真实身份 [971]。类似地,在阿瓦隆游戏中,不同的角色拥有不同的观察空间 [919, 972],从而影响玩家的策略和沟通。在这些设置中,每个智能体的感知能力或观察空间与其在系统中的角色直接相关。在多智能体系统中,智能体能观察到的内容的变化通常会影响其决策、沟通以及与其他智能体的协调。
• 动作空间异构性 (Action-space heterogeneity)。另一方面,这指的是由于物理或功能限制,智能体可以执行的动作存在根本差异。这在虚拟和物理环境中都特别相关,因为智能体可能根据其设计或目的而具有不同的能力。在像狼人杀 [965, 971, 966] 和阿瓦隆 [919, 967] 等游戏的虚拟环境中,不同的角色具有不同的能力或技能 [971, 919, 972]。例如,在狼人杀中,狼人可能有能力互相秘密交流,而村民可能仅限于投票或观察。这种动态要求智能体根据其独特的能力进行协作,并促进了在互动中学习团队合作、信任和欺骗等策略。同时,在机器人技术中,智能体可能表现出不同的物理能力。例如,如 [988] 所述,一些机器人缺乏移动能力,只能操纵物体,而另一些则专门用于移动但不能操纵物体。在这种情况下,具有不同动作空间的智能体必须有效地划分任务,利用其特定能力承担适合它们的任务部分,最终协作完成整体任务。这种类型的异构性要求智能体高效地协作和协调其行动,通常根据各自的优势来划分任务。
从同构到异构的演化 在一些基于大语言模型的多智能体系统中,智能体有能力通过与环境的互动自主进化并持续适应。由于大语言模型和环境都存在固有的随机性,这些智能体的进化通常遵循不同的轨迹。这可能导致即使智能体最初具有同构的角色和动作空间,在多次模拟后也会出现异构行为。例如,如 [989] 所示,在开始时具有相同动作空间和角色的智能体,在与环境和其他智能体进行多轮互动后,发展出了差异化的角色。例如,一些智能体专门负责收集食物,而另一些则专注于制造武器。类似地,[990] 观察到,最初同构的智能体在群体互动后发展出独特的语言使用模式、情感表达和个性。这些涌现行为展示了从同构系统向异构系统转变的可能性。
13.5 智能体交互协议
在本节中,将首先对典型的消息类型进行分类,清晰地展示智能体交互的内容和交换模式。接下来,将讨论智能体-环境、智能体-智能体和智能体-人类通信接口的设计。还将讨论用于透明信息交换的架构问题和协议规范。接口标准化将特别关注,这对于提供多智能体系统的互操作性、可扩展性和效率至关重要。本节将以统一通信协议的讨论结束,其中讨论了智能体-环境或智能体-用户交互的设计原则和要求,并为基于大语言模型系统的各种应用提供了清晰性、一致性和功能连贯性。
13.5.1 消息类型
结构化: 结构化消息,无论是 JSON ([991, 992])、XML ([993, 636]) 格式,还是代码形式 ([626, 627, 994]),都是基于大语言模型的多智能体系统通信的一个关键方面。结构化消息的主要优点是其语法和语义上定义的结构,能够实现明确的理解和直接解析。由于没有歧义,它们有助于无误地提取和处理信息,计算开销更少,系统可靠性更高。例如,JSON 和 XML 可以表示特定任务的配置参数或作为机器可读模式促进数据交换,而以代码形式编写的消息甚至可以直接多次执行,从而简化工作流程和自动化。
结构化消息特别适用于高效率、确定性的应用。它们对于合作式多智能体架构中的子任务分解、子任务分配和智能体间协调非常有用,因为它们明确陈述了操作指令。此外,由于结构化消息具有规定的格式,数据检索和存储变得更加容易,系统优化和纵向分析也变得可行。
非结构化: 相比之下,非结构化消息,例如自然文本 ([971, 970, 919])、视觉数据(例如图像、视频)和音频信号(例如语音、环境声音)([995, 996, 762]),具有更高的信息密度和表示能力。这些模态最适合传递细致入微且依赖上下文的信息。例如,图像传达空间关系、光照和面部表情,而视频传达动态的时间组织序列,例如状态或行为随时间的变化。类似地,音频信号不仅传达语言信息,还传达副语言信息,例如音调、情感和语调,这些对于自然和情境感知的交互至关重要。
非结构化消息非常适用于处理模糊任务以及复杂、现实世界的环境。它们能够表达抽象概念以及情感上的微妙之处或隐含的上下文暗示,这使得非结构化消息非常适合创造性以及探索导向的问题空间。然而,非结构化数据的复杂性需要先进的处理技术,例如基于深度学习的特征提取,才能充分发挥其潜力。预训练大语言模型以及多模态大语言模型的进步在很大程度上缓解了这些复杂性,使得多智能体系统中非结构化通信的新应用成为可能 [533, 513, 997]。
总结:非结构化和结构化消息在基于大语言模型的多智能体通信中扮演着互补的角色。结构化消息提供准确性、一致性和计算效率,适用于操作性和确定性操作;而非结构化消息提供丰富、情境化的表示,使智能体能够处理模糊、创造性、高度动态的情况。这两种模式共同为适应性强、有效的多智能体合作提供了基础。
13.5.2 通信接口
智能体-环境接口 (Agent-Environment Interface) 基于大语言模型的智能体通常需要对其环境执行一次或多次操作以完成一系列任务。从智能体的角度来看,它对环境的输出是它偏好的某种行为,例如,点击用户界面、发出 Web 请求或移动计算机图形角色。不同的环境接受不同的动作,为了确保其动作能够被执行,智能体必须了解其所处特定环境允许哪些动作,并执行既针对特定任务又对该特定环境有效的动作。在智能体输出其选定的动作后,它将从环境接收一个返回。如果成功,它将包含观察结果;如果出现错误,则包含错误反馈。智能体必须根据此反馈采取行动。如今存在各种类型的环境可供智能体操作,例如操作系统、电脑游戏、数据库和电子商务网站。为了使智能体-环境接口共享一个通用接口,并让在各种大语言模型上训练的智能体能够以最少的额外适应插入到各种环境中,已经提出了各种框架。这些框架使得在各种可执行环境上测试智能体能力更加容易 [706]。
智能体-智能体通信 (Agent-Agent Communication) 在多智能体系统中,通过自然语言进行通信是主要的。这很可能是因为大语言模型由于在海量自然语言语料库上进行了预训练而拥有强大的语言能力。另一个可能的原因是,对于许多任务来说,自然语言通信已经足以满足要求。根据交换信息的类型,多智能体系统可以分类如下:
- 基于自然语言的系统 在使用自然语言的基于大语言模型的多智能体系统中,基于文本的通信是最常见的 [922, 924, 987, 970, 998]。也有一些系统使用语音作为通信媒介 [996, 762, 999, 1000]。在这些系统中,智能体通过自然语言进行讨论、谈判、说服或批评等行为以实现其目标。
- 基于结构化信息的系统 与自然语言相比,结构化信息具有更高的一致性、更低的解析复杂度和更少的歧义性等特点,使其更适合智能体之间高效、低成本的通信 [626]。在一些实现中,智能体之间交换的信息被结构化为不同的组件,以便接收智能体更容易解析和利用。例如,交换的信息可能包括指定发送者、接收者、消息类型以及接收者应如何解析或使用内容的指令等字段 [929]。
人-智能体通信 (Human-Agent Communication) 开发多智能体系统的目的是扩展人类能力和认知的边界,最终服务于人类福祉。虽然在一些社会模拟多智能体系统中,人类主要作为观察者存在 [50, 1001],但大多数多智能体系统允许人类以各种形式参与。在这种参与过程中,人类需要与智能体进行通信,这种通信可以采用自然语言或结构化信息的形式 [924, 930]。当人与智能体的通信主要依赖自然语言时,通常会有一个大语言模型充当枢纽,将人类的自然语言解析为智能体能够更有效处理以进行后续操作的结构化信息。这个枢纽大语言模型可以存在于多智能体系统内部,也可以独立于它运作。为了节省时间并提高通信效率,人类也可以使用结构化信息通过编程或类似方法与多智能体系统进行通信。通过遵循预定义的通信协议,人类可以向多智能体系统发送包含所需数据的消息。系统随后将根据其内部逻辑处理消息和数据,并返回结果。[931]
13.5.3 下一代通信协议
基于大语言模型的智能体领域仍处于起步阶段。开发人员通常针对特定领域或任务设计智能体架构和通信机制,包括智能体到环境、智能体到人类以及智能体之间的交互。然而,大多数现有系统缺乏统一的通信框架,导致生态系统碎片化、孤立化。多智能体系统、工具、环境和数据源通常独立运行,使得智能体难以互操作或共享能力。此外,学习和实施定制协议的负担落在了人类身上,而且几乎所有当前的协议都是手动设计的——这是一个劳动密集型的过程,通常缺乏语义灵活性或可扩展性。
为了解决这些问题,已经提出了几种新的智能体通信协议,每种协议都针对协议设计栈的不同方面。
智能体互联网 (Internet of Agents, IoA) [933] 引入了一种受互联网启发的、类似即时消息的通信架构,支持动态团队组建和任务驱动的协作。智能体向中央协调服务器注册,该服务器处理身份管理和发现。通信流使用基于有限状态机 (FSM) 的对话模板进行编排。IoA 支持多种消息类型,包括讨论、任务分配和触发机制,并提供结构化字段来控制发言轮次、嵌套组形成和最大对话长度。这使得智能体能够选择和调整消息格式以匹配特定的协调阶段,在固定模式内提供灵活性。
模型上下文协议 (Model Context Protocol, MCP) [931],由 Anthropic 开发,专注于使大语言模型智能体能够访问结构化的工具和数据。它采用基于 OAuth 身份认证的完全中心化方法,交互被限制为 JSON-RPC 2.0 消息。虽然它缺乏元协议层或语义协商能力,但其简单而严格的架构使其成为具有明确定义 API 的工具使用场景的实用选择。然而,MCP 牺牲了灵活性和可扩展性,需要手动注册支持的功能。
智能体网络协议 (Agent Network Protocol, ANP) [1002] 旨在实现完全去中心化。智能体通过符合 W3C 标准的去中心化标识符 (DID) 标识自己,并通过加密的点对点通道进行通信。该协议包括一个元协议层,使智能体能够协商采用哪个应用级协议,支持基于智能体能力的语义协议选择。ANP 还允许在应用层支持多种协议(例如 HTTP、JSON-RPC、自然语言),提供了强大的可扩展性和去中心化,但尚未明确支持公共协议重用。
Agora [932] 提供了一种高度灵活且由语言驱动的协议机制。智能体可以生成和共享协议描述 (Protocol Descriptions, PDs),即通信语义的自由文本描述,而不是注册预定义的 API。使用大语言模型,智能体可以在运行时动态解释和执行任何 PD。这使得协议完全可以通过语言创建、部署和使用,无需任何手动注册或配置。Agora 避免了中心化注册表,并支持去中心化的协议共享:智能体可以从对等分布式存储库发布或检索 PD,以实现跨系统的累积学习和互操作性。
总结:如表 13.1 所示,下一代智能体通信协议在关键维度上有所不同,例如身份和安全机制、元协议协商能力、应用层灵活性以及中心化程度。一个统一、安全、可扩展且动态的协议基础设施——智能体可以在其中即时协商和共同创建协议——对于实现大规模、可互操作的智能体生态系统至关重要。虽然当前的框架如 MCP、ANP、Agora 和 IoA 代表了早期但有希望的步骤,但协议设计仍然是智能体系统发展中一个快速演变的前沿领域。
表 13.1:四种智能体通信协议(MCP、ANP、Agora、IoA)在身份、协商和执行层面的比较。 P D = \mathbf{PD}= PD= 协议描述;DID: 去中心化标识符;LLM: 大语言模型;FSM: 有限状态机。
层级 | MCP | ANP | Agora | IoA |
---|---|---|---|---|
身份与安全 | 基于 OAuth 的中心化身份认证。 | 基于 DID 的去中心化身份,带有加密通道。 | 无中心化注册。身份源自 PD 哈希。 | 智能体向中心服务器注册以获取身份和发现。 |
元协议层 | 无元协议层;依赖预定义的接口。 | 使用 DID 文档通过语义协商并选择合适的协议。 | 大语言模型解释 PD 文本以自动协商和部署通信协议。 | 中心化发现机制结合基于 FSM 的对话流控制。 |
应用协议层 | 仅支持 JSON-RPC 2.0。 | 支持多种协议,如 HTTP 和自然语言。 | 允许任意由 PD 驱动的协议,具有高灵活性。 | 任务驱动的协议协调,支持多种消息格式。 |
中心化程度 | 高度中心化的架构。 | 完全去中心化。 | 去中心化:无注册或固定 ID,可选的点对点 PD 共享。 | 高度中心化的架构,带有中央协调服务器。 |
协议灵活性 | 固定且僵化;难以适应 JSON-RPC 之外的场景。 | 高度灵活,具有语义协商能力。 | 极度灵活;任何 PD 都可以动态定义新协议。 | 中等偏高灵活性;智能体可以根据任务阶段和协调需求选择和调整消息格式。 |
表 13.2:基于大语言模型的多智能体系统分类框架,突出了系统设计、通信、协作和演化的不同方面。以下是我们的缩写,以方便参考: M&S = 建模与仿真 (Modeling & Simulation), CTS = 协作任务解决 (Collaborative Task Solving), SL = 策略学习 (Strategic Learning), S-D = 静态-去中心化 (Static-Decentralized), S-L = 静态-分层 (Static-Layered), Hom = 同构 (Homogeneous), Het = 异构 (Heterogeneous), T/M = 教学/指导 (Teaching/Mentoring), C-O = 共识导向 (Consensus-Oriented), T-O = 任务导向 (Task-Oriented), CL = 协作学习 (Collaborative Learning), Dict = 独裁式 (Dictatorial), D-B = 辩论式 (Debate-Based), CI = 集体智能 (Collective Intelligence), Ind = 个体 (Individual)。
论文 | 系统设计 | 通信 | 协作 | 演化 | |||
---|---|---|---|---|---|---|---|
类别 | 类型学 | 接口 | 智能体类型 | 交互 | 决策 | 类型 | |
Agent Hospital [921] | M&S | S-D | 文本 | Het | T/M, C-O | Dict | Ind |
Welfare Diplomacy [934] | M&S | S-L | 代码, JSON, 文本 | Hom | CL | 投票 | CI |
MEDCO[923] | M&S | S-L | 文本 | Het | T/M, C-O | Dict | Ind |
MedAgents[922] | M&S | S-L | 文本 | Hom | T-O | Dict | CI |
Generative Agents [50] | M&S | S-D | 视觉 | Hom | CL | Dict | Ind |
RECONCILE [918] | SL | S-D | 文本 | Hom | CL | D-B | CI |
Agent Laboratory [746] | CTS | S-L | 代码, 文本 | Het | C-O, T-O | Dict | Ind |
CoELA[924] | CTS | S-D | 文本 | Hom | T-O | ||
The virtual lab [752] | CTS | S-L | 文本 | Het | C-O, CL | Dict | Ind |
SciAgents [743] | CTS | S-L | 文本 | Het | T-O | Dict | CI |
S-Agents [927] | CTS | S-D | 文本 | Het | T-O, CL | Dict | |
GPT-Bargaining [1003] | CTS | S-D | 文本 | Het | C-O | D-B | CI |
FORD[1004] | M&S | S-D | 文本 | Het | C-O | D-B | CI |
MADRA [1005] | CTS | S-D | 文本 | Het | C-O | D-B | |
Multiagent Bench [948] | CTS | S-D | 文本 | Hom | T-O, CL | D-B | CI, Ind |
OASIS [936] | M&S | D | 文本 | Het | C-O | ||
S [255] | M&S | S-D | 文本 | Het | C-O | ||
FPS [981] | M&S | S-D | 文本 | Het | C-O | ||
GPTSwarm[1006] | CTS | D | 代码, JSON, 文本 | Hom | T-O | Dict | CI, Ind |
ChatEval[1007] | CTS | D | 文本 | Hom | T-O | 投票 | CI |
MetaGPT [626] | CTS | S-L | 代码, JSON, 文本, 视觉 | Het | T-O | Dict | CI |
AutoAgents [1008] | CTS | D | 文本 | Het | T-O | C-O | CI |
SWE-agent [628] | CTS | D | 文本 | Hom | T-O | Dict | Ind |
AgentCoder [994] | CTS | D | 代码, 文本 | Het | T-O | D-B | CI |
MASTER[1009] | CTS | S-L | 文本 | Hom | T-O | D-B | CI |
Reflexion [48] | CTS | D | 文本 | Het | T-O | D-B | Ind |
MACM[1010] | CTS | D | 文本, 代码 | Het | T-O | D-B | CI |
Debate[985] | CTS | S-D | 文本 | Het | C-O | D-B | CI |