上下文-觉察的多智体系统综述

24年2月来自澳大利亚一所大学应用AI研究所的论文“A Survey on Context-Aware Multi-Agent Systems: Techniques, Challenges and Future Directions”。

作为一个新兴课题,人们对自主智体的研究兴趣正在日益高涨。大语言模型 (LLM) 的显著成就表明,自主智体具有实现类似人类智能的巨大潜力。然而,挑战在于如何让这些智体在动态环境中学习、推理和应对不确定性。在处理动态情况时,上下文-觉察性是增强多智体系统的关键要素。尽管现有研究同时关注上下文-觉察系统和多智体系统,但缺乏一个上下文-觉察系统与多智体系统集成技术的调研报告。本文概述了上下文-觉察系统和多智体系统的属性,促进这些系统之间的集成。随后,提出上下文-觉察系统的一般流程,流程的每个阶段都涵盖来自不同应用领域的各种方法,例如自动驾驶中的防撞、灾难救助管理、公用事业管理、供应链管理、人机交互等。最后,讨论了上下文-觉察多智体系统面临的挑战,并提出该领域未来的研究方向。

智体是一个自主的计算实体(例如,软件、硬件组件或两者的组合),它在环境中运行以实现特定的任务或目标 [Nguyen et al., 2020; Gronauer and Diepold, 2022]。此外,智体还具有感知周围环境、根据可用信息做出决策以及执行操作以影响环境的能力。这些特性使智体在多智体系统(MAS)中具有社交性、自主性和适应性。

正如 [LeCun, 2022] 所强调的,自主智体的智能特性包括以下相互关联的组件:(1)感知,智体感知信息并估计当前环境状态;(2)记忆,存储历史和未来的环境状态;(3)世界模型,利用知识预测缺失信息和未来状态;(4)配置器,将信息转换为面向目标的格式; (5)参与者,提出行动规划并确定最佳序列;(6)成本,根据目标评估行动。

MAS 中的环境是智体运行和追求目标的操作空间。它由感知数据和动态状态变化组成 [Dorri,2018]。此环境提供指导智体决策过程的背景。任务解决过程涉及五个步骤 [Mostafa,2013;Dorri,2018]:从环境中感知信息、将其存储在记忆中、根据任务处理信息、理解任务要求、制定规划、执行操作以及从结果中学习。

多智体系统 (MAS) 由多个自主智体组成,彼此交互并与环境交互以实现目标。与单智体相比,使用 MAS 的四个主要优势包括成本效益、可靠性、可扩展性和处理复杂任务的稳健性 [Li & Tan,2019;Amirkhani & Barshooi,2022]。然而,MAS 的三个主要方面(例如组织结构、共识和编队控制)导致了 MAS 的复杂性。此外,自主性、通信和社会性这三个主要特征是 MAS、专家系统和面向目标编程之间的三个主要区别 [Dorri,2018]。

组织结构涵盖角色、关系和权限,在简化智体模型、控制智体行为和减少不确定性方面发挥着关键作用。此外,它还有助于在解决复杂任务时跟踪和建立智体之间的有效沟通。目前已确定了十种组织结构,例如 (1) 扁平、(2) 层级结构、(3) 合奏结构、(4) 联盟、(5) 团队、(6) 集会、(7) 社团、(8) 联盟、(9) 市场和 (10) 矩阵 [Horling & Lesser,2004]。此外,多智体系统 (MAS) 的协调可以在去中心化或中心化的环境中运行 [Dorri et al.,2018]。组织结构或多种结构组合的选择取决于任务特征和智体的能力。

智体的多样性是从知识、能力、特征、行为和其他背景信息的差异推断出来的,代表了智体组织的一个重要维度。[Esmaeili et al., 2016] 展示了智体能力和行为多样性对 MAS 中一个整体组织的影响。此外,[Li et al., 2021] 研究了一种专注于 MAS 中行为多样性的技术,旨在控制由知识探索产生的智体异质行为与通过多智体协调任务中知识共享获得的同质行为之间的权衡。正如行为多样性可以增强智体的性能一样,环境多样性也可以增强智体在 MAS 中的泛化能力 [McKee et al., 2022]。

一旦建立了组织结构,就需要就共同的价值观或状态达成共识和相互一致,以促进智体之间的信息交换。这反过来又允许智体在解决复杂问题时制定其信念-愿望-意图 (BDI) 模型,以便进行协调 [Ren et al., 2005]。智体通信中的两个主要挑战包括:数据流问题(例如数据连续性和通信延迟)以及数据质量问题(包括异常值、缺失或不完整信息)[Qin et al., 2016]。

为了克服这些挑战,分析九种通信协议,包括(1)领导者-追随者共识,(2)群组/集群共识,(3)规模化共识,(4)有限时间共识,(5)二分共识,(6)采样数据共识,(7)量化共识,(8)基于网络的共识,以及(9)共识与跟踪机制的结合 [Qin et al., 2016; Li & Tan, 2019; Amirkhani & Barshooi, 2022]。此外,优化信息交易的频率和每次交易的计算资源,对于增强通信流以实现有效协调至关重要。

为了实现这一目标,现有控制共识的触发机制可分为两类:基于事件的共识控制和基于时间的共识控制 [Qin et al., 2016; Li & Tan, 2019]。前者根据超过预定义阈值的情况或状态变化触发通信,而后者根据预定义的时间间隔或选定的数据样本定期触发通信。此外,为了确保 MAS 共识期间的数据质量,研究鲁棒共识控制和自适应共识控制。此类控制机制的技术可分为两类:反馈控制和前馈控制 [Amirkhani & Barshooi,2022]。

上下文包含各种类型的信息,如人、地点、物理或虚拟目标、事件、时间和其他可用于引入一个场景的不同维度或有关特定环境的概念信息数据 [Abowd,1999]。此外,五个关键属性可描述上下文:类型、值、感知时间、信息收集来源以及信息准确性的置信度 [Baldauf,2007]。此外,上下文可分为两类:内在上下文和外在上下文。

在 MAS 的上下文中,前者指定智体的内部因素(例如目标、任务、行为、信念、知识等),而后者则关注外部因素,如环境、场景、社会影响等。现有的上下文建模技术分为六类:(1)K-V模型,(2)标记模式(makeup schema)模型,(3)图模型,(4)面向目标模型,(5)基于逻辑的模型,(6)基于本体的模型 [Strang & Linnhoff-Popien,2004]。

上下文建模技术的选择取决于上下文的复杂性和动态性。例如,K-V模型适用于简单性至关重要的情况,但它们缺乏可扩展性和捕捉上下文关系的能力。为了应对这些挑战,人们采用了其他上下文建模技术。值得注意的是,基于本体的上下文模型因其具有语义推理和通过知识图表示上下文关系的能力而得到广泛应用 [Baldauf,2007]。

然而,基于本体的上下文建模面临的挑战,包括难以理解本体的复杂性以及维护本体的巨大成本,正如 [Hoareau & Satoh, 2009] 所强调的那样。在对上下文进行建模或推理时,必须考虑以下几个方面:(1)上下文的质量,包括信息的准确性和完整性;(2)上下文元素之间的关系;(3)上下文的流动,如时不变上下文、时变上下文和上下文切换的一致性 [Hoareau & Satoh, 2009; Bellavista, 2012]。

上下文-觉察系统 (CAS) 是利用上下文动态适应情况并检索任务或问题相关信息的自主系统。根据智体自主性水平和智体之间的交互,有两种类型的上下文-觉察性:(1)被动的上下文-觉察,智体不断从环境中产生可被其他智体利用的观察结果; (2)主动上下文觉察,即智体根据对环境的观察不断自主地采取行动 [Perera,2013]。

CAS 的一般过程包括三个阶段:(1)上下文获取,(2)上下文抽象和理解,以及(3)上下文利用 [Lee,2011;Perera,2013]。上下文获取涉及感知和存储信息的过程。在 MAS 的上下文中,可以从其知识、其他智体或环境中感知信息。值得注意的是,智体可以感知多种类型的上下文,这些上下文周期性来自各种来源 [Baldauf,2007;Hoareau & Satoh,2009;Perera,2013]。

根据架构风格,CAS系统可分为三类 [Lee et al., 2011]:
独立 CAS:此类型具有单一上下文源,智体独立感知和存储信息。
集中式 CAS:此架构涉及集中式上下文服务器,存储传感器从各种来源收集的上下文信息。
分散式 CAS:此架构不依赖于中央服务器;相反,它包含多个互连节点,每个节点都充当独立 CAS。

必须认识到,从智体获得的情境信息构成原始数据。因此,这些数据需要预处理和封装,以便针对特定任务或问题解释其语义,这一过程通常称为上下文抽象和理解。此过程涉及的技术可分为两类:上下文建模和上下文推理。尤其是上下文推理技术,它为智体提供了从不完美上下文和不确定性中推断知识的能力。

这些技术可以进一步分为六类:(1)监督学习,(2)无监督学习,(3)基于规则的算法,(4)模糊逻辑,(5)基于本体的推理,以及(6)概率推理 [Perera,2013;Pradeep & Krishnamoorthy,2019]。在上下文利用阶段,智体通过其主动触发机制使用上下文信息。此外,这些信息还会分发给其他智体,指导它们做出解决复杂任务的决策。

解决随时间变化的不确定性(例如环境的动态和自主智体的非线性)对 MAS 提出了重大挑战。克服这一挑战需要智体了解环境的变化或系统内其他智体的行为变化,并根据观察不断更新其信念。实现这一目标需要集成 CAS 和 MAS,从而产生所谓的上下文觉察多智体系统 (CA-MAS),如图所示。

请添加图片描述

基于智体的觉察技术可分为三类:(1)主动感知,即智体根据其在环境中的观察采取行动;(2)情景觉察,即推理当前事件并预测未来事件,作为智体在特定情况下执行最佳行动集的附加能力;(3)上下文觉察,即利用上下文作为事件或情境的语义来增强智体的理解力[Mostafa,2013]。具体而言,当智体的行为和动作适配其感知的上下文时,智体即被视为具有上下文觉察能力。

在 MAS 中,智体可以感知内在和外在上下文。内在上下文包括智体的目标、角色、历史数据(例如知识、先前的行动)、意图和观察。外部上下文分为用户特定上下文(例如位置、偏好、日历、天气、用户行为)、智体特定上下文(智体之间的知识或意图共享、对其他智体的角色或行为的观察)和系统特定上下文(系统要求、策略、组织结构和智体在特定情况下为最佳问题解决而遵循的通信协议)。此外,层级结构、团队、市场和整体结构主要用于组织 CA-MAS 以解决谈判、推荐系统、灾害管理、公用事业管理等各种问题领域 [Fuentes,2006;Kwon,2006;Jakobson,2006;Fu & Fu,2015;Nadi & Edrisi,2017;Yan,2018; Haiouni & Maamri,2019;Riabchuk,2022]。特定于智体的上下文涉及智体之间的知识或意图共享,以及智体对其他智体的角色或行为的观察。

值得注意的是,CA-MAS 中的智体可以是通信智体,也可以是非通信智体 [Everett,2018]。通信智体通过通信协议与系统中的其他智体交换信息或意图。另一方面,非通信智体不会与其他智体交换信息;但是,可以根据其动作去感知或预测其行为。例如,在竞争性的 MAS 环境中,智体根据对手行为的观察和预测执行操作 [Nezamoddini & Gholami,2022]。另一个例子是自动驾驶智体,为了避免在道路上发生碰撞,智体必须根据观察采取行动 [Everett,2018;Xie,2021;Wu,2023]。

CA-MAS的一般过程包括五个阶段:感知-学习-推理-预测-行动。

感知

MAS 中的智体从其传感器收集上下文信息,检测上下文模式并处理上下文的时间变化。上下文可以从独立节点、集中式数据库或通过智体之间的通信和交互来感知。

学习

智体会学习信息表示以及特定任务所感知的上下文。用于获得此类表示的建模技术可分为三类:上下文建模、加权机制和深度学习。现有的 CA-MAS 广泛使用了三种上下文建模技术,例如K-V模型、面向目标模型和基于本体的模型。

为了解决上下文建模技术的可扩展性,提出了具有加权机制的 CA-MAS,并将其分为两类:统计方法 [Kwon & Sadeh, 2004; Twardowski & Ryzko, 2015; Yan,2018;Lee & Hasan Kabir,2022;Riabchuk,2022] 和基于图的方法 [Julien & Roman,2004;Yusuf & Baber,2022]。具体而言,加权机制包含三个部分:(1)向量表示,其中上下文值被转换成机器可读的格式并存储在向量中;(2)权重估计,其中通过聚合上下文向量和代表系统中其他实体的其他向量来测量权重;(3)权重利用,其中估计的权重用于面向目标的优化。

随着智体的观察空间扩大,上下文向量的数量及其维度也会增加,从而导致高维困境,也称为维数灾难。此外,由于不确定性和模糊性,将加权方案与面向目标的推理框架相结合变得具有挑战性。克服这些挑战需要使用深度学习技术,原因有二。首先,上下文信息可以在低维向量空间中表示。其次,可以根据给定的目标或策略优化学习参数。从智体的观察中获得的上下文信息是连续的,并作为历史数据存储。为了表示这种连续数据,可以使用RNN或LSTM。

推理

智体根据感知的环境分析信息或制定一套规划以实现其目标。已经采用了各种推理模型,包括基于规则的推理、基于案例的推理、模糊逻辑、基于图的推理和面向目标的推理。

基于规则的推理涉及一组预定义的规则,用于控制智体如何响应特定条件或事件。基于规则推理的扩展是模糊逻辑,其中智体可以根据语义规则针对特定情况以一定的程度表示和处理信息。基于案例的推理 (CBR) 使智体能够检索、重用、修改和保留案例——代表他们过去的经验。这旨在支持智体在类似情况下适应和做出决策 [Watson & Marir, 1994]。基于图的推理使智体能够分析图结构中的复杂交互、依赖关系和模式。在面向目标的推理中,智体根据其目标确定优先级并规划行动。其他推理技术依赖于预先编程的条件、模式或案例,而具有目标导向推理能力的智体可以适应任何情况,以最佳方式实现其目标。在 CA-MAS 中,目标导向推理技术可分为三类:基于成本的模型、信念-愿望-意图 (BDI) 模型和强化学习 (RL)。

预测

智体会预测在不久的将来可能发生的情景或事件。在具有预定义规则、案例或模式的 CA-MAS 中,由于条件受限,智体可能缺乏预测能力,从而削弱了其处理不确定性的能力。为了应对这一挑战,智体配备了预测模型,可以使用加权方案、概率或奖励来估计近期事件。为了最大限度地减少此类预测模型的误差,可采用基于距离的 [Twardowski a& Ryzko, 2015; Yan et al., 2018; Riabchuk et al., 2022; Lee & Hasan Kabir, 2022] 或基于奖励的 [Nadi & Edrisi, 2017; Qi & Zhu, 2018; Everett et al., 2018; Chen et al., 2020; Chen & Chaudhari, 2021; Huang et al., 2022; Fan,2023;Mahajan & Zhang,2023;Wu,2023] 成本函数被应用。具体而言,基于距离的成本函数旨在最小化预测和期望之间的价值距离或分布距离。此外,基于奖励的成本函数旨在最小化产生负奖励的预测误差。

行动

智体执行一组操作,随后获得可用于导航或优化其活动的奖励。在 CA-MAS 中,智体的操作可以由预定义的条件或目标定义。在具有预定义条件的场景中,智体遵循预编程的规则、案例、匹配的模式或一组概率阈值,在特定情况下选择适当的操作。另一方面,智体在特定状态下根据确定性或随机策略执行操作,优化其在一个或多个目标中的奖励。

挑战和方向(略)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值