第 15 章
协作范式与协作机制
在本章中,我们详细探讨了这些有目的的交互,审视了一个智能体如何在多智能体系统(MAS)中影响协作。我们引用了源自人类社会结构的多样化交互行为,通过交互目的、交互形式以及形成的关系进一步解释了多智能体协作。
多智能体系统 (MAS) 由多个智能体组成,这些智能体在共享环境中交互,自主决策以协作完成任务或相互竞争 [1041]。在我们的语境中,我们关注协作现象,因为它们在大多数实际应用中广泛出现。基本上,MAS 中的每个智能体都配备了不同的角色和初始知识,并拥有自己的一套目标。
在参与问题解决或通信时,智能体与其他智能体或环境交互以收集和处理信息,根据其目标、现有知识和观察结果独立做出决策,并随后执行动作 [975, 1041, 1042, 1043]。知识、记忆和环境观察构成了智能体的信念,而不同的动机会影响它们处理任务和决策的方式 [1041]。因此,有效的问题解决需要多样化的有目的交互,包括智能体-智能体和智能体-环境交互。这些交互可能涉及多轮,并根据系统设计发生在不同的方向上。
15.1 智能体-智能体协作
考虑到 MAS 协作的分类,我们更关注捕捉复杂多智能体交互中微妙动态所需的粒度细节。具体来说,我们将智能体间的交互分为四种类型,其灵感来源于社会学中人与人交互模式的洞见,并将其应用于 MAS 中的智能体-智能体交互。关于人类交互的社会学理论,包括共识建立、技能学习、教学和任务分工协作,为分类智能体交互提供了一种更精细的方式。这些交互形成了协作范式,使得多样化的智能智能体能够有效协作解决复杂问题,并且它们受到各种形式的目标、情境和结果的影响。每种范式都解决了与合作、竞争、协调和决策相关的独特挑战。此外,MAS 的实现涉及具有不同类型交互的智能体,而不是单一类型或单向过程,形成了随时间演化的复杂交互网络。在协作软件开发 [626, 627] 中,一个高级开发者智能体可能与一个架构师智能体进行任务层面的交互,通过多轮对话指导初级智能体。他们共同进行代码评审以进行决策,并与测试专家智能体一起学习以提高测试覆盖率。检查这些交互的目标和结果,揭示了塑造智能体行为和决策的关键技术,从而增强了我们对多智能体动态的理解。
共识导向交互 共识导向交互专注于通过协商、投票和社会选择框架 [1044] 来协调 MAS 的最终目标。这种交互对于整合多样化知识并确保智能体将其观点转向统一理解以达成共识至关重要 [1045]。在这种交互中,智能体整合知识以建立统一理解,这极大地有助于需要不同观点的复杂问题解决情境中的联合决策。例如,MedAgents [922]、MDAgents [1046] 和 AI Hospital [1036] 展示了多学科智能体之间的协作对话如何通过磨练推理技能和访问固有知识来改进问题解决。
图 15.1:基于大语言模型的多智能体系统中四种智能体-智能体协作类型的概述:共识导向、协作学习、教学/指导和任务导向。每种类型都从四个关键维度进行描述:信息流、协作目的、知识整合和输出焦点。
这些对话使智能体能够将专业知识集合成连贯的成果,通常优于传统方法,如零样本或少样本推理。共识驱动的团队合作的重要性在科学环境中尤其明显,因为解决复杂挑战需要多样化的视角和细致的验证。Agent Laboratory [746] 是一个例子,其中博士和博士后智能体协作就研究目标达成一致,解释实验,并整合研究结果。类似地,Virutal Lab [752] 组织一系列团队进行科学研究,所有智能体讨论科学议程,并在单独的会议中,由一个智能体完成特定任务。
多智能体共识的方法通常包括几种途径,包括讨论、辩论、协商、反思和投票。达成共识的常用方法包括一系列结构化技术。涉及的主要机制是讨论、辩论、协商、反思和投票。辩论允许智能体获取相互竞争的假设,而协商有助于解决冲突的优先级和资源限制。已经创建了特定的框架来支持这些共识建立活动。在这些过程中,智能体收集处理相同问题的同伴的输出,并将环境反馈(如数值数据和上下文细节)纳入考虑。这些交互使智能体能够分享观点、假设,并逐步达成共同理解。
例如,GPTSwarm [651] 通过图设计来构建智能体之间的协作,信息流和边连接构成了基本的群体讨论。在 GPTSwarm 中,如果一个智能体持续提供错误的意见,它将被排除。RECONCILE [918] 使用圆桌讨论形式,包含多个讨论周期和基于置信度水平的投票系统。它通过从过去的讨论中学习来整合反思,使用置信度指标和人类洞察来改进其响应。此外,辩论对于达成一致、减少幻觉以及解决复杂问题非常重要 [985, 1047, 1031, 1003]。在 GOVSIM [1048] 中,智能体协作以实现平衡,并建议使用共享资源并为未来需求进行保护。协商超越了简单的信息交换和以关系为中心的交互。多智能体辩论 (MAD) 框架 [1031] 通过让智能体以“针锋相对”的模式提出论点来促进创造性思维,并由一名裁判监督过程以最终确定解决方案。形式化辩论框架 (FORD) [1004] 通过有组织的辩论增强了语言模型之间的一致性,使较强的模型能够引导共识,而较弱的模型则调整其观点。类似地,AutoAgents [1030] 定义了一个协作精炼动作,其中每个智能体更新其聊天记录。在此过程中,它还附加了其他智能体之前的陈述,并精炼其动作以达成共识。
协作学习交互 在协作学习中,交互通常发生在相似的智能体之间。尽管架构相似,但由于其独特的行为和不同的环境交互,它们会积累不同的记忆和经验。通过共同解决问题,这些智能体分享经验以提升其策略学习、任务解决和技能获取能力。随着时间的推移,每个智能体通过持续的交互提高其技能,导致个体的进化。协作学习与共识导向交互的关键区别在于它们的基本目标和过程。共识导向交互侧重于通过综合不同观点以达成一致来进行知识整合和信念对齐,而协作学习交互则强调同伴知识构建和经验分享,优先考虑相互改进和个体成长。在参与协作学习交互时,智能体通过观察其他智能体的行为来更新其上下文或记忆。例如,智能体可以通过观察同伴的审议来学习最优策略,并根据这些观察调整自己的方法,而不必就单一的“最佳”策略达成一致 [961, 962, 963, 971, 965, 967, 972, 968, 969]。正如 [966] 中所强调的,有效的讨论策略显著影响智能体之间的学习成果。在这些交互中,智能体协作学习和解决问题,专注于相互理解和提升,而不是达成一致决定。这种方法通过持续的反馈来精炼个人响应和知识。
协作学习交互中常用的方法包括:1). 经验分享。智能体交流个人见解和最佳实践。如 [303] 所述,迭代式经验精炼使基于大语言模型的智能体能够在软件开发中通过连续获取和利用团队经验(以连续模式和累积模式)实现自适应改进。此外,MAS-CTC [301] 是一个可扩展的多团队框架,使经过编排的团队能够共同提出各种决策,并在跨团队协作环境中交流他们的见解。它使不同的团队能够同时提出各种面向任务的决策作为见解,然后在重要阶段(多团队聚合)进行交流以实现见解交换。不同的智能体团队利用贪婪剪枝机制和聚合机制来消除低质量内容,从而提高软件开发的性能。不同的是,在 MOBA [1049](一种新颖的基于 MLLM 的移动多智能体系统)中,全局智能体反思本地智能体的执行结果,以支持自适应规划以适应环境。AutoAgents [1030] 采用知识共享机制,智能体交换执行结果以增强沟通和反馈,智能体可以从其他智能体那里获取长期、短期和动态记忆。2). 同伴讨论。同伴讨论允许智能体阐明其推理过程并向他人的方法学习。MEDCO [923] 创建了一个动态环境,通过学生智能体之间的协作问题解决来加强临床推理和决策技能。此外,在 [1050] 中,智能体在初始化其输出后进行结构化的同伴讨论,逐步审查彼此的推理。通过反馈交换和置信度评分,智能体精炼其决策,从多样化的方法中学习,并迭代地增强其推理准确性,促进协作知识获取。3). 观察学习。当智能体监控其他智能体的行为和结果以指导其自身策略时,就发生了观察学习。AgentCourt [1051] 开发了参与法庭辩论并通过积累经验改进的律师智能体,通过经验学习展示了改进的推理和一致性。在 iAgents [1046] 中,人类社交网络被镜像到智能体网络中,智能体主动交换解决任务所需的人类信息,从而克服信息不对称。iAgents 采用了一种新颖的智能体推理机制 InfoNav,来引导智能体的沟通朝着有效的信息交换方向发展。结合 InfoNav,iAgents 将人类信息组织在混合记忆中,为智能体提供准确全面的信息以供交换。额外的实验现象表明,某些任务的难度使得智能体不断精炼其策略以追求所需信息。MARBLE [948] 设计了一种认知进化规划,结合了智能体的“期望”和其实际行动结果来更新整体规划经验,以便在下一轮中进行更好的规划。
尽管有其好处,协作学习交互仍面临几个挑战。这些挑战包括确保能力不同的智能体之间公平的知识交换,防止错误或偏见在系统中传播,在促进学习的同时保持智能体多样性,以及开发有效的机制让智能体根据相关性和可靠性选择性地吸收他人的知识。克服这些挑战需要精心创建交互框架和学习策略。并且它应该平衡个体进步与系统的更广泛发展。虽然知识公平性、偏见传播和可扩展性等问题带来了困难,但在改进 MAS 方面仍有巨大潜力,特别是在动态和复杂环境中。通过使用迭代学习过程和提供机会,协作学习使智能体能够发展更丰富的知识库和更精炼的问题解决能力。
教学/指导交互 为了应对这些挑战,仔细开发能够协调个体发展与整体系统进步的交互协议和学习框架非常重要。在 MAS 的背景下,教学和指导交互是协作环境中的基本机制,特别是在知识转移对成长和集体智能至关重要的场景中。与协作学习中知识在智能体之间相互交换不同,教学和指导交互侧重于知识从经验丰富的智能体单向流向经验较少的智能体。教学/指导交互中使用的机制和方法包括几个关键策略:
• 批评与反馈。导师智能体评估学习者的表现并提供纠正性或建设性反馈。这有助于学习者通过一个反馈循环来精炼他们的知识和技能,在这个循环中,他们根据收到的反馈更新其内部知识。
• 评估。导师通过绩效评估和明确的评估标准来评估学习者的能力或进展,为发展提供有价值的见解。
• 指导与教学。导师使用直接指导传授有针对性的知识、指南或技术,允许学习者提出问题并获得澄清。
迭代教学与强化教学通常是渐进的,每个阶段都为学习者提供完成任务和获得反馈的机会。例如,在 MEDCO 系统 [923] 中,学生智能体除了参与同伴讨论外,还通过由专家导师指导的循环实践导向学习方法来提高其专业技能。这些专家智能体进行持续评估,并就临床能力提供实时指导,重点关注患者互动技巧和诊断推理。[921] 表明,一个智能体医生可以通过在模拟医院中与智能体患者互动来持续改进其诊断能力,并能将其学到的知识迁移到真实世界的案例中。
这种交互类型可以根据知识转移的方向分为两种主要类型:单向和交互式。单向植根于传统的教学模式,其中知识从教师流向学生。这种方法强调事实和概念的传递,通常涉及讲座和直接指导 [923]。
任务导向交互。任务导向协作涉及智能体通过有效的协调和任务分解策略共同努力实现共同目标,以及高度的合作与协调。智能体主要通过处理上游输出并为下游智能体生成结果(遵循既定的任务依赖关系)来进行交互,而不是参与复杂的讨论或辩论。
最近的框架展示了这种交互模式的多样化实现:(1) 软件开发框架,如 MetaGPT [626] 和 ChatDev [627],智能体在模拟软件开发生命周期的结构化流水线中运作。例如,架构师智能体处理需求以生成技术规范,然后开发智能体使用这些规范生成代码,随后测试智能体验证实现;(2) 协作推理框架,如 Exchange-of-Thought (EoT) [1052]、GPTSwarm [651]、MACNET [1028],涉及将智能体组织成特定格式(例如,环状、树状、有向无环图、可优化图),通过确保只有优化后的解决方案在序列中传递,从而减轻了上下文扩展风险,并强制多个智能体共同协作解决复杂的数学或知识推理任务;在 (3) 机器学习应用 [1053, 1019] 中,智能体遵守严格的工作流结构,每个智能体在流程中完成特定任务。对于更复杂的任务,如视频问答(VideoQA),TraveLER 框架 [1054] 展示了跨结构化阶段(遍历、定位、评估和重新规划)的模块化任务分解,由一个规划器智能体管理交互,并根据迭代的智能体输入改进策略。
这些交接依赖于明确的可交付成果,而不是直接的智能体协商。受 GPTSwarm [651] 类图智能体系统的启发,MACNET [1028] 将智能体结构化为有向无环图 (DAG)。在这里,监督者发布指令,而执行者实施解决方案。通过确保只有优化后的解决方案在序列中传递,这种设置减轻了上下文扩展风险。在机器学习应用 [1053, 1019] 中,智能体遵守严格的工作流结构,每个智能体在流程中完成特定任务。对于更复杂的任务,如视频问答,TraveLER 框架 [1054] 展示了跨结构化阶段(遍历、定位、评估和重新规划)的模块化任务分解,由一个规划器智能体管理交互,并根据迭代的智能体输入改进策略。
除了有组织的开发,任务驱动的交互也已在开放式情境中得到展示,例如 Minecraft 游戏,其中智能体适应不断变化的环境。在 [927] 中,领导者智能体通过将复杂目标分解为特定任务来管理工作流,而执行者智能体则执行诸如收集资源之类的动作。协调机制对于确保智能体有效协作以实现最终目标至关重要,包括通信协议、同步策略和资源共享技术。智能体在 MAS 中为执行任务而进行的交互引起了极大的兴趣,特别是通过利用大语言模型来处理复杂的任务和工作流。智能体的协作对于任务完成至关重要,尤其是在不断变化的环境中,如软件开发和项目管理 [626, 630]。
15.2 人-AI协作
为了释放 MAS 在满足人类目标方面的潜力,人们通常通过三种主要方法与它们协同工作:一次性任务委派、多轮交互式指令和沉浸式人-智能体协作。
在一次性任务委派中,人类将单实例任务委派给 MAS,例如向问答平台提问或分配编码任务 [1055, 626]。无需额外输入,智能体自主处理任务,在单个回复中提供完整的响应或解决方案。这是目前人类与基于大语言模型的智能体协作的主要方式 [922, 627, 31]。
对于多轮交互式指令,人类与基于大语言模型的智能体系统进行迭代交互,以精炼和探索解决方案,直到达到满意的结果。这种类型的交互广泛见于创意应用中,例如图像编辑或写作编辑 [938]。例如,用户可能要求系统在图像的特定位置添加对象、替换元素、更改背景或修改句子的一部分。这些交互通常跨越多轮,用户不断精炼他们的请求,直到达到期望的结果。此外,某些其他基于大语言模型的智能体系统可能在多轮交互中需要人类批准或澄清才能进行下一步 [1056, 930]。在人类指导下,这些基于大语言模型的智能体系统可以完成家务任务以及软件开发任务。
沉浸式人-智能体协作的特点是基于大语言模型的智能体模拟人类行为以充当伙伴。例如,在沉浸式环境中,人类将这些智能体视为队友,共同实现目标。实例包括智能体在会议中代表人类或帮助解决诸如家务或项目之类的任务。这种策略强调了在动态情境中的有效整合和团队合作 [937, 924]。
为了定量评估人-AI协作,已经提出了一些框架。例如,Co-Gym [1057] 在旅行规划、撰写相关工作和表格分析等任务中衡量基于大语言模型的智能体的沟通、情境感知和个性化能力。
总之,随着基于大语言模型的智能体系统的发展,人-AI协作已经多样化,以应对跨领域的挑战。这范围从用于提问的简单基于命令的 AI 交互,到用于设计和开发的多轮对话,再到与人类日常任务合作。
随着基于大语言模型的智能体系统的进步,它们有望更多地融入日常生活,简化任务并提高效率。与此同时,人类将完善和调整他们与 AI 交互的方式,从而实现更有效的协作。我们相信,这种转变将推动社会生产力以及生产的社会关系的根本性变革,重塑工作组织方式以及人类和 AI 在大语言模型时代的合作方式。
15.3 协作决策
协作决策过程对于确保 MAS 的高效运行和任务的成功完成至关重要。尽管协作本身是一个核心特征,但决策方法直接决定了协作的有效性和系统的整体性能。最近的研究强调了协作决策的关键作用。[1037] 表明,多样化的决策方法可以显著提高系统的协作效率。[649] 强调,一个理性的决策机制可以激发系统内智能的涌现。
从更广阔的视角来看,协作决策过程可以根据其架构特征分为两大类:独裁决策和集体决策 [1037]。
独裁决策。独裁决策是一个决策依赖于 MAS 中单个智能体的过程。在这种范式中,所有智能体将其状态信息或本地观察结果发送给这个独裁智能体。独裁智能体负责汇集这些数据,研究核心问题,并建立明确的决策指导方针。这种方法的关键原则是利用全局视角来推动改进决策,从而为系统性能的可靠性以及任务目标的成功实现铺平道路。[1031, 1058, 1046] 展示了使用单个大语言模型的单智能体决策过程,该模型综合了关于同一问题的各种观点,使决策更加客观和全面。此外,[134, 1059] 建议通过排名、评分或清单进行加权整合的方法,增强决策程序的鲁棒性。此外,除了明确包含各种观点,[1030, 1060] 提出了架构,其中一个中央智能体将复杂任务分解为更简单的子任务,并将它们分配给按功能分组的专门智能体。此外,在 [651, 1028] 中,常见的是最后一个节点的智能体根据拓扑结构在环境中工作以汇集过去的信息并推导出结论,而不是由中央智能体完成。
集体决策。集体决策涉及智能体在没有中央权威的情况下协作达成决策,依赖于本地数据和诸如投票或协商之类的交互。这种方法在智能体之间共享决策权,使系统能够根据变化进行调整,同时保持鲁棒性和可扩展性。
• 基于投票的决策 投票系统对于集体决策非常重要,为达成共识提供了一个框架。如 [1045, 968] 所述,通过投票可以获得决定性的多数。此外,GEDI 选举模块 [1037] 支持多种投票方法。这种方法在很大程度上提高了推理能力和容错性,同时避免了复杂的系统设计。
• 基于辩论的决策 与基于投票的方法相比,基于辩论的决策侧重于智能体之间有组织的交互,以获得最佳结果。在 [1031, 1061] 中,智能体参与引导式讨论,在讨论中阐述和提出建议,试图解决分歧并调和观点。同时,[1050, 1062] 实践克制立场,利用智能体之间的沟通渠道通过反复讨论来建立共识。为了解决“认知孤岛”问题,某些系统会采用一个共同的检索知识库,以使智能体在辩论中能够意识到相同的知识 [1005]。通过模仿人类对话,这些系统使智能体能够交换观点并做出更明智的决策。
讨论与未来工作 多智能体系统 (MAS) 中的协作仍然面临许多需要进一步研究的挑战。当前的方法很大程度上基于上下文依赖的交互;然而,它们并未包含用于训练和优化协作行为的特定框架。这种对大语言模型 (LLM) 的严重依赖存在一些局限性,因为它们的有效性内在地受限于大语言模型的上下文窗口大小及其固有的推理能力。虽然大语言模型为实现交互提供了坚实的基础,但这些系统仍然受到上下文依赖通信固有局限性的制约。
未来的研究应侧重于寻找能够启发智能体在最佳时机和信息传播方法方面进行主动学习的框架。利用多智能体强化学习 (MARL) 的方法论,越来越需要能够帮助智能体确定合适的信息共享时机,以及应该通过何种渠道共享何种信息的策略。这不仅需要设计新颖的交互协议,还需要结合能够随着每次改进而不断优化这些协议的训练方法。