基础智能体的进展与挑战第 16 章【集体智能与适应性】

第 16 章

集体智能与适应性

集体智能的概念是多智能体系统(MAS)发展的核心,其灵感来源于生物和社会合作。集体智能中一个固有的概念是[915]提出的“群体智慧”,该理论断言,独立的社群作为一个整体,其决策往往优于任何个体。像“心智社会”(Society of Mind)[17]及其相关的心智理论(theory of mind)[916, 917]这样的认知理论模型进一步支持了这一范式,表明智能源于基础、专业化组件之间的协同作用。此外,在人类社会中,个体通过协作、分工和集体解决问题来应对复杂挑战。MAS采用类似的策略,其中专门化的智能体参与解决复杂问题和集体决策[914]。

MAS内部集体智能的涌现是一个动态且迭代的过程。通过持续的交互,智能体逐渐发展出共享的理解和集体记忆。个体智能体之间的异质性、环境反馈以及智能体-智能体交互[914]加强了交互动态,这些对于复杂社交网络的涌现和决策策略的改进都至关重要。值得强调的是,集体智能不仅仅是个体能力的加总,而是指超越单个智能体能力的涌现行为。个体智能体的发展与集体智能的增长紧密相连。随着持续参与集体任务以及对共享情境的自我反思,智能体不断发展其推理和决策能力。个体智能体的演化与集体智能的演化密切相关。通过在联合活动中的持续交互以及对共享情境的批判性审视,智能体不断完善其推理和决策能力。

与此同时,智能体之间涌现出复杂多样的行为。这些包括超越受限协议的行为,例如高级社交互动,包括信任、策略性欺骗、适应性伪装和涌现合作,引发了从反应式策略向合作策略的转变,以及更深层次的社会动态。通过一系列递归交互,智能体必然形成合作策略,这些策略最终演变为社会契约、组织层级和劳动分工。社会现象必然通过智能体之间的递归交互及其对变化环境的调整而涌现。这标志着从基础合作行为向复杂社会结构的转变,并导致了文化规范和习俗的形成。

16.1 集体智能

集体智能的概念,指的是一群智能体展现出超越单个智能体的问题解决能力。这种现象通常以涌现行为、复杂的决策制定和高阶推理能力为特征,这些能力源于智能体之间的交互,从而在协作决策场景和社交模拟中提升了性能[975]。[917]证明了基于大语言模型的智能体能够展现协作行为和高阶心智理论(Theory of Mind)能力,这对于在共享环境中理解其他智能体的视角至关重要。他们的发现表明,将大语言模型集成到MAS中可以促进更复杂的集体智能形式,从而提高协作决策的整体效能。

系统性能提升 集体智能在MAS中的一个主要优势是协作能带来更强的问题解决能力。可以鼓励集体智能克服“群体思维”和个体认知偏见,以允许集体在一个过程中进行合作——同时实现增强的智力表现。当个体智能体共享信息并协调行动时,系统可以取得比任何单个智能体独立运作更好的结果[626, 922, 1046, 1031, 1063]。因此,集体智能是一种共享的或群体的智能,它源于许多个体的协作、集体努力和竞争,并体现在共识决策中。集体智能极大地促进了知识和权力从个体向集体的转移。[924]通过他们的协作式具身语言智能体(Cooperative Embodied Language Agent, CoELA)证明了这一点,该智能体在ThreeDWorld多智能体运输任务中,相比传统规划方法,效率提高了40%。这一显著改进源于该系统在多智能体环境中有效利用大语言模型进行规划和通信的能力,为增强协作决策能力提供了有力的证据。如前所述,基于大语言模型的多智能体系统固有的多样性和跨学科性质,以及各种智能体间的交互,为个体决策提供了内部反馈和丰富的上下文,从而减少了偏见并提高了解决方案的一致性[918]。

涌现行为 集体智能最引人入胜的方面之一是新颖、复杂行为的涌现,这些行为是智能体交互自发产生的。这些行为并非明确编程设定,而是通过学习和适应涌现出来的。正如多项研究[971, 965, 966]所讨论的,智能体在游戏中发展出了策略性行为,包括建立信任、对抗策略、欺骗和领导力。集体行为通过经验分享得以演化,其中,与村民阵营一致的智能体学会了合作和策略联盟的形成,而与狼人阵营一致的智能体则通过“信息混淆”策略提高了欺骗能力。此外,智能体在没有明确训练的情况下优化了投票模式和欺骗策略,这表明群体智能是在多轮交互中涌现出来的。类似地,在阿瓦隆(Avalon)游戏[968]中,研究人员观察到智能体在识别和反击欺骗性信息方面变得更加出色。个体适应了欺骗性环境,并利用第一和第二阶视角转换来完善其决策制定。此外,尽管没有预定义的协作协议,智能体仍展示了适应性合作和临时团队协作[969]。这些发现凸显了基于大语言模型的智能体通过交互和学习发展复杂行为的能力,展示了集体智能场景中涌现行为的潜力。值得注意的是,这些涌现行为依赖于记忆和反思机制。智能体检索并反思历史信息以生成紧凑的上下文,从而增强其推理能力[239]。在MAS中,共享的上下文和环境信息显著增强了智能体可用的记忆。这使得智能体能够基于过去的交互进行构建、完善策略,并更有效地适应动态环境[1064]。

社会演化 生成式智能体社会领域最重要的发现之一是社会规范的自发涌现。[1065]证明,智能体通过持续交互,能够创建、表征、传播、评估和遵守社会规范。这些规范构成了社会秩序的基础,减少了冲突并改善了智能体之间的协调,从而导致了更稳定、更有组织的社会。有趣的是,该研究发现智能体在信念中发展规范的速度比在行为中更快。这表明,虽然智能体可能很快内化某些规范,但将这些规范转化为一致的行动需要更长时间。随着时间的推移,这些规范倾向于合成为更普遍的原则,从而形成更简洁有效的个人规范集。此外,Project Sid模拟[989]对大规模智能体社会进行建模,为社会规范的涌现和角色专业化提供了进一步的证据。在这项研究中,观察到智能体自主形成了专门化的社会角色。这些角色并非预先定义,而是随着智能体在其环境中互动并发展集体规则而自然涌现的。该模拟还强调了民主过程在遵守和修改这些集体规则中的重要性。发现智能体参与文化和宗教传播,在社群间传播思想和教义。这种规范创建和角色专业化的过程导致了社会内部更好的组织、减少的冲突以及适应性的治理结构。在[1066]中也观察到多智能体社会中文化和宗教信仰的演变,这是通过智能体驱动的思想选择发生的,反映了现实世界的社会变迁。此外,模拟一百万个智能体之间社交互动的[936]为文化传播和群体极化提供了宝贵的见解。文化模因和信仰体系在智能体社会中自然传播。智能体表现出从众行为,即使主流观点不合理,也会遵从。这导致了群体极化的涌现,即智能体通过重复互动强化极端观点。这一发现强调了群体规模对文化演变和社会行为动态的显著影响。

16.2 个体适应性

在多智能体系统(MAS)中,个体适应性指的是智能体根据先前的交互和经验调整其行为和决策策略的能力。这也被定义为自我演化,即智能体可以通过修改自身来动态地自我演化,例如改变其初始目标和规划策略,并根据反馈或通信日志进行自我训练[38]。这种适应性得益于大语言模型(LLMs)的集成,它们支持动态监控和适应过程[1067],同时也得益于智能体的记忆能力和信息交换。这些模块至关重要,以确保智能体能够持续改进其性能,有效响应动态环境,并优化其决策过程。我们将促进个体适应性的机制分为基于记忆的学习和基于参数的学习,其中又包括免训练和基于训练的方法。

基于记忆的学习 记忆和反思机制通过利用历史记录和经验来为决策提供信息,显著增强了基于大语言模型的多智能体系统中的个体适应性[221, 1068, 50]。通过维护和利用关于过去交互、决策和结果的个体记忆,智能体可以随着时间的推移完善其决策过程。这种记忆作为一个经验库,智能体在做出未来决策时可以从中汲取。利用这些存储的知识,个体智能体能够完善其决策过程,从先前的成功和失败中学习[921, 1051]。例如,在临床模拟中,医生智能体可以通过积累成功和失败案例的经验,随着时间的推移不断提高治疗表现[921]。在社会行为模拟中,智能体可以通过参与更复杂的场景并利用场景记忆来提高性能,从而改善其适应性[50]。

基于共享记忆的学习 相比之下,基于共享记忆的学习扩展了这一概念,它允许多个智能体交换从各自经验中获得的信息和见解。智能体不再仅仅依赖个体记忆,而是可以从群体的集体知识中受益。通过共享数据、策略和反馈,智能体增强了其合作能力并协同优化决策。基于共享记忆的学习在智能体需要合作、交换任务或朝着共同目标努力的环境中尤其有价值[919, 967, 968]。例如,ProAgent [1069] 预测队友的决策,并根据智能体之间的通信日志动态调整每个智能体的策略,促进相互理解并提高协作规划能力。

基于参数的学习。 除了文本形式的基于记忆的学习之外,许多MAS采用基于参数的学习,通过后训练(post-training)技术来演化智能体的个体适应性。例如,[1070]讨论了通信学习(Learning through Communication, LTC)范式,其中利用智能体之间的通信日志来构建数据集,用于训练或微调大语言模型。大语言模型驱动的智能体内部符号主义和连接主义范式的整合增强了它们的推理能力和适应性。最近,研究越来越关注多智能体(联合)微调,通过合作轨迹来提高协作和推理能力。例子包括多智能体辩论微调[1071]和SiruiS[1072]。此外,Sweet-RL [1073]采用强化学习来增强MAS内部的评论家(critic)模型,促进更好的协作推理。然而,尽管表现出希望,未来的基于参数的学习范式可能需要解决智能体在MAS中通用能力和特定角色专业化之间的平衡问题。这种混合方法使智能体能够处理结构化和非结构化数据,提高了它们在动态环境中做出决策的能力[1074, 1075]。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值