图神经网络深度强化学习的挑战与机遇:算法与应用综述

小蜗子

已于 2022-08-22 23:41:21 修改

阅读量7.7k

点赞数 35

分类专栏：研究方向文章标签：神经网络人工智能深度学习

于 2022-08-19 00:16:32 首次发布

本文链接：https://blog.csdn.net/weixin_44466434/article/details/126414897

版权

研究方向专栏收录该内容

31 篇文章

订阅专栏

本文详细回顾了深度强化学习(DRL)与图神经网络(GNN)的交叉研究，探讨了两类融合：算法改进和领域应用。研究了DRL增强GNN和GNN增强DRL的方法，以及它们在组合优化、交通控制、知识图谱等领域中的应用。同时指出了挑战和未来研究方向，如模型泛化、可解释性、真实环境部署等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DRL和GNN总结。AD: algorithms-drl增强gnn, ag: algorithms-gnn增强drl, pc:组合优化中的应用，pt:交通运输中的应用，pr:控制中的应用，pk:知识图谱中的应用，pl:生命科学中的应用

https://arxiv.org/abs/2206.07922https://arxiv.org/abs/2206.07922摘要

深度强化学习(DRL)已经为各种人工智能领域提供了强大的能力，包括模式识别、机器人、推荐系统和游戏。类似地，图神经网络(GNN)也证明了它们在对图结构数据进行监督学习方面的卓越性能。近年来，GNN与DRL在图形结构环境中的融合引起了广泛关注。本文对这些混合工作进行了全面的综述。这些工作可以分为两类:(1)算法增强，其中DRL和GNN相辅相成，发挥更好的效用;(2)特定于应用的增强，其中DRL和GNN相互支持。这种融合有效地解决了工程和生命科学中的各种复杂问题。在此基础上，我们进一步分析了融合这两个域的适用性和好处，特别是在提高通用性和降低计算复杂度方面。最后，强调了整合DRL和GNN的关键挑战，以及潜在的未来研究方向，这将是更广泛的机器学习社区的兴趣。

1.介绍

在过去的一段时间里，深度学习见证了新型架构、算法和框架的爆炸式发展，以解决从计算机视觉到建模到控制等各种具有挑战性的现实生活问题。在这些发展中，使用深度神经网络(DNN)在强化学习(RL)框架内解决顺序决策问题，导致深度强化学习(DRL)被认为是人工智能[1](§II)中最先进的框架之一。该方法应用于组合优化[2]、游戏[3]、机器人[4]、自然语言处理[5]和计算机视觉[6]。DRL在这些应用中的巨大成功可以归功于(1)以一种计算高效、可伸缩和灵活的方式处理复杂问题的能力，这在其他情况下是数值棘手的[7];(2)计算效率高，能够快速生成高保真度解决方案，这在需要实时决策[8]的高动态环境中至关重要;(3)理解环境动力学的能力，并仅基于与环境的交互产生接近最优的行动，而不需要明确的基础系统[9]，[10]的先验知识。

虽然DRL的有效性在游戏中得到了最广泛的证明，但它正在迅速被应用于其他各种现实生活中的应用中。其中一些应用程序涉及到显示可以用图形表示的显式结构关系的环境。例如，旅行商问题(TSP)中的城市网络或不完整的知识图本质上具有基于图的不同实体排列的特征。在欧几里得空间中处理数据的方法并不适合这种环境，需要在编码节点或聚合来自不同代理的信息方面进行特殊处理。这些方面用图神经网络(GNN)系统建模，详见§II。这种结构关系的融入是一种辅助输入，进一步提高了解决方案的质量。

最近，研究人员一直在探索将强大的GNN模型与DRL融合的优势，以有效地解决这类图结构应用。这些混合工作的彻底审查可能是极其有益的，在识别挑战和确定未来的研究方向。此外，一些与DRL相关的综述作品也在[2]、[5]-[15]不断发表。然而，这些综述存在两个主要缺陷:(1)这些调查的大多数是通过特定应用领域的视角进行的。因此，他们被局限于特定的方法，忽视了跨领域的整体视角;(2)据我们所知，目前的文献中还没有关于DRL和GNN联合潜能研究的全面综述。

本文系统梳理了DRL与GNN融合的相关文献，主要贡献如下:

对采用DRL和GNN的横跨理论发展(§III-A)和多个应用领域(§III-B)的文章进行严格审查。
对综合DRL-GNN的理论和应用贡献进行了分类(§III)。为此，对现有作品进行分类和分析的各种属性被确定(§IV)。
该调查采取了一个整体的方法来审查文献，特别关注算法的关键方面，如计算效率，可扩展性，泛化性和适用性。
DRL和GNN仍然处于发展的早期阶段，它们融合的研究也是如此。因此，对相关挑战进行了彻底的调查，并确定了未来的研究方向(§V)。

本综述仅限于IEEE Xplore、Scopus和谷歌Scholar索引的文章。首先，利用关键词“深度强化”和“图神经网络”从数据库中选择文章。从2017年到2022年，这一搜索导致了100多篇论文。对生成的列表进行过滤，以确定包括DRL和GNN最终导致40篇论文的文章。2017年以前没有相关论文，说明这一趋势研究课题的历史较短，相关性较强。40篇论文中，22篇来自会议论文集，8篇来自期刊，其余10篇为预印稿。

本文的组织结构如下。

§II我们提供了一个简短的DRL和GNN的方法论背景，以装备读者在看这些技术的融合之前了解基础。

§III提出了现有文献的全面综述，包括基于不同的新属性的分类。

§IV中，我们讨论了涉及gnn和DRL的方法的适用性和独特的产品。

§V强调了现有文献中的关键局限性以及未来研究的潜在方向。

§VI对本研究进行了总结。

2.DRL和GNN概述

本节提供了两个强大的学习范例的基础，即DRL和GNN。我们首先描述RL以及如何通过使用深度学习将其演变为DRL。然后，简要介绍了GNN算法的基本原理。本节将为读者提供必要的背景知识来跟随DRL和GNN的混合作品(在§III中讨论)。

A.深度强化学习

强化学习(RL)被认为是机器学习的第三个重要分支，监督学习和无监督学习是另外两个重要分支。RL是一个连续的决策过程，在此过程中，agent被训练为针对环境的不同场景采取最优的行动。行动将环境转变为新的状态，同时行为主体获得一些奖励，这些奖励可以量化行为的好坏。为了制定序列决策过程，RL采用了一个著名的数学概念马尔可夫决策过程(MDP)。典型地，MDP由(X, A, p, R)定义，其中X是有限状态空间，A是每个状态X∈X的动作空间，p是t时刻状态xt到t+1时刻状态xt+1的状态转移概率，R是动作A∈A执行后获得的即时奖励值。智能体的主要目标是在每个时间步骤中与环境交互(将状态作为输入)，以找到最优策略π *(当前状态的返回动作)，以便在整个时间段内最大化累积奖励(预期回报)的同时达到目标。代理将状态s作为输入，并返回要执行的操作a。在特定时间步t，预期返回Rt是当前时间步到最后时间步t的奖励总和。在采取行动时，agent必须在基于之前的经验(利用)和收集新的经验(探索)之间做出选择，以便在未来做出更好的决策。一种常见的方法来解释这种权衡是贪婪策略，其中代理以概率采取随机行动。

-------------------------------------------------------------------------------------------------------------------------------

此外，在现实生活中，个体对整体学习的环境缺乏足够的知识。因此，部分观测的MDPs (POMDP)是针对这些条件设计的。POMDP是一种MDP，代理只拥有状态的部分视图，其典型表达类似于带有额外元素的。新元素包括Ω表示观测，T表示时间，O表示观测概率，bo为状态的初始概率分布。

---------------------------------------------------------------------------------------------------------------------------------

在状态和动作空间有限的场景中，RL是有效的。然而，在实际应用中，这些空间通常是大而连续的，传统的RL方法无法以一种计算效率高的[16]方法找到所有状态的最优值函数或策略函数。为了缓解“维度诅咒”，深度神经网络(DNN)被用作函数逼近器，并与RL集成，导致了一种新的范式被称为深度强化学习(DRL)的出现。有几种方法可以对现有的DRL算法进行分类，例如:无模型vs基于模型，价值vs基于策略，离线vs在线学习。在下面，我们将提供不同类别的这些算法的基本概念。

1) Value based DRL

基于价值的方法旨在学习状态或状态-动作对的值，然后选择相应的动作。状态-动作值函数Qπ(s, a)，用公式(1)表示，是从状态s开始，采取动作a，然后遵循策略π的预期收益。深度Q学习(Deep Q learning, DQN)是[17]这一类中应用最广泛的算法之一。Q-learning使agent能够基于将离散状态-作用空间映射为具有Q值的DNN模型，从状态s∈s中选择Q值最高的动作a∈a。DQN按照Bellman最优方程(如Eq.(1)所示)每步更新一次，其中R是获得的奖励，α是学习率，取值在0到1之间。DQN是一种“off-policy”算法，其中一个目标策略用于在当前状态X采取行动，而另一个行为策略用于在下一个状态选择行动。

DQN训练的一个关键特征是回放缓冲区，它存储训练每一步的轨迹信息(st, at, rt, st+1)。在DQN中，DNN使用一小批从回放缓冲区中随机选择的样本(经验)进行训练，这在样本效率、方差低和学习范围大等方面具有各种优势。对于每个样本，输入(状态)通过当前的DNN生成输出ˆQ(s, a;θ)。目标Q值对应于(1)中的Bellman最优方程，用于最小化以下损失函数:

DQN有很多变化来改进它目前的设计，包括double DQN和dueling DQN。DQN更新方程中的max操作符使用相同的Q网络选择和计算一个动作。因此，DQN明显高估了价值函数。double DQN通过使用两个不同的网络来解决这个问题，一个用于行动选择，另一个用于行动评估。同样，dueling DQN网络通过解耦价值函数和优势函数来逼近Q函数。

2) Policy based DRL

这些方法直接学习策略，不像基于价值的方法先学习值，然后确定最优策略。通常情况下，利用基于梯度的方法，即策略梯度定理，通过最小化预期收益来选择参数不断更新的参数πθ。它们特别适用于非常大的行动空间(连续问题)和学习随机策略。接下来，我们讨论了三种广泛使用的基于策略的方法:

(i) REINFORCE:在给定的时间步上参数更新只涉及从当前状态采取的行动——更新依赖于使用插曲样本的蒙特卡洛方法估计的回报。由于它依赖于当前时间步的预期返回，因此它只适用于情景任务[7];

(ii)信任区域策略优化(TRPO):其核心思想是通过约束更新来限制任意一步的策略过多变化。这个约束是在策略空间而不是在参数空间;

(iii)近端策略优化(PPO):通过裁剪替代目标函数来减少新政策与旧政策之间的偏差。它的实现相对简单，实际性能与TRPO[7]相当。

3) Actor-critic DRL

基于价值的算法和基于策略的算法都有一定的局限性。基于值的算法在高维动作空间中效率不高，而基于策略的算法在梯度估计中方差较大。为了克服这些缺点，提出了一种结合两种方法[18]的actor-批评家方法。代理是用两个估计器训练的。首先是一个actor函数，它通过学习最优策略来控制agent的行为，即为任意输入状态Xt提供最佳动作。第二种是通过计算值函数来评估动作的批评函数。下面将讨论这个类别下一些流行的算法变体。

优势演员-评论家(A2C)由两个dnn组成，一个为演员，一个为评论家[19]。

除了A2C，异步优势actor-批评家(A3C)在环境的多个实例上并行执行不同的代理，而不是像A2C那样体验重放。虽然A3C的内存效率很高，但它的更新并不是最优的，因为不同的代理使用不同版本的模型参数。

深度确定性策略梯度(Deep deterministic policy gradient, DDPG)是对确定性策略梯度(deterministic policy gradient, DPG)的一种扩展，为连续动作空间[20]设计。DPG将策略定义为函数μ θ: X→a，这里不像随机策略那样对行为积分，只需要对状态空间求和，因为行为是确定性的。DDPG使用参数化的角色函数和参数化的批评函数，使用样本逼近值函数。通过这种方式，DDPG可以解决只有行动者的方法的政策梯度的巨大差异。

B.图神经网络

使用图结构数据(如知识图、生物学和社交网络)进行学习最近吸引了大量研究关注。用图形表示数据有很多好处，比如关系的系统建模、复杂问题的简化表示等等。然而，使用传统的基于dnn的学习方法来解释和评估这样的图结构数据是具有挑战性的。由于图的结构不均匀，无序节点的大小不规则，以及动态的邻域组成，使得卷积等基本数学过程很难在图上实现。图神经网络(GNN)通过扩展DNN技术到图结构数据来解决这些缺点。GNN架构可以联合建模结构信息和节点属性。它们为与图相关的下游任务提供了显著的性能改进，如节点分类、链路预测、团体检测和图分类[21]。通常，GNN模型由一个消息传递方案组成，该方案将节点的特征信息传播到其邻居，直到达到稳定的均衡。为了改进这种消息传递技术，人们提出了几种GNN算法。我们将在下面讨论一些关键的方法。

1) GCN

图卷积网络[22]是第一个对图结构数据进行卷积运算(类似于CNN)的网络。任何GNN背后的核心思想都是生成图中节点/链接的唯一欧几里德表示。传统的谱方法利用特征分解生成节点表示向量，但计算效率低且不可推广。GCN通过其强大的逼近克服了这些挑战，其中特定层l的节点表示向量hu的更新方程为:

式中，A为邻接矩阵，D为度矩阵。*以这种方式归一化以缩放节点特征，同时确保数值稳定性。需要注意的是，GCN依赖于整个图(即完全邻接矩阵)来学习节点表示，这是低效的，因为节点的邻居数量可以从1到数千甚至更多，不能推广到不同大小的图。

2) GraphSAGE

这是一种归纳的节点嵌入方法，利用节点属性来学习嵌入函数[23]。它支持拓扑结构的同步学习，以及节点特征在一个有限的邻域内的分布。基本前提是训练一种神经网络，能够识别节点邻域的结构属性，从而在全局位置的同时表明其在图中的局部作用。首先，算法在图结构数据中每个节点的局部邻域内对节点特征进行采样。然后学习适当的函数映射，以聚合每个节点在GNN层传播时接收到的信息。这种归纳学习方法可以跨不同大小的图以及给定图中的子图进行扩展。在第lth节点嵌入层执行的操作为:

~ A表示聚合操作;G[·]表示激活函数;H (l)u表示节点u在LTH层的节点嵌入;N(u)表示节点u的邻域;θC和θA分别是GNN组合作用和聚集作用的参数

3) GAT

图注意网络(GA T)假设相邻节点对目标节点的贡献既不像GCN那样预先确定，也不像GraphSage那样完全相同。GA T采用注意机制学习两个连接节点之间的相对权值。根据GAT对图进行卷积运算定义如下:

其中，注意权αuv量化了节点u与其邻居v之间的连接强度。通过使用softmax函数在所有节点对上学习注意权a，以确保节点u的所有邻居的权值之和为1。这种机制有选择地聚集邻居贡献，并抑制次要的结构细节。

3.DRL + GNN方法的分类

DRL和GNN已经成为现代深度学习中极其强大的工具。DRL利用DNN的表达能力来解决RL的顺序决策问题，而GNN是一种新颖的体系结构，特别适合处理图结构数据。我们确定了两大类联合使用GNN和DRL的研究文章，如图2所示。

第一类文章利用GNN(或DRL)对DRL(或GNN)的应用进行算法和方法上的改进。

第二类文章同时使用DRL和GNN来解决不同应用领域的实际问题。

表一描述了调查DRL和GNN融合工程的概况，表二概述了调查论文的个别组成部分

A.算法的发展

在本节中，我们将讨论着重于开发改进DRL或GNN的新公式或算法的文章。在这些文章中，要么使用GNN来改进DRL的配方和性能，要么使用DRL来提高GNN的适用性。

1) DRL增强GNN

~~利用DRL改进GNN的文章被用于不同的目的，包括神经体系结构搜索(NAS)，提高GNN预测的可解释性，以及为GNN设计对抗示例。~~

神经体系结构搜索(NAS):指自动搜索神经网络的最优体系结构的过程。(层数，层中的节点数等)来解决一个特定的任务。[24]采用一种基于drl的控制器，采用探索引导和保守利用的方法，对不同的GNN架构进行高效搜索。搜索空间由隐藏维度、注意头、注意、聚合、组合和激活函数组成。作者将模型同质化作为一种方法，在子代和祖先体系结构之间执行引导参数共享。与现有的架构搜索方法[25]相比，该方法在基准数据集上具有更好的性能。

解释GNN预测:为DNN预测生成解释是提高ML模型透明度的一项重要任务。Shan等人[26]使用DRL来改进现有的解释GNN预测的方法。为GNN预测生成解释的问题涉及识别对生成预测影响最大的子图。作者设计了一个基于drl的迭代图生成器，它从种子节点(预测的最重要节点)开始，并添加边来生成解释子图。DRL模型仅基于解释性子图，利用预测的相互信息和预测的分布来学习具有策略梯度的子图生成策略。作者表明，该方法在生成的子图和基础真理解释之间的定性和定量相似性方面获得了更好的可解释性。

为GNN生成对抗攻击:最近[27]-[29]研究表明，GNN容易受到干扰或毒害用于训练它们的数据的对抗攻击。DRL已经被用来学习对gnn进行对抗性攻击的策略，这些策略反过来可以用来设计针对此类攻击的防御策略。RLS2V[30]是第一个使用DRL来执行旨在躲避分类检测的攻击的框架。具体来说，它采用了一种q学习和基于结构到向量的攻击方法，学习修改图结构(添加或删除现有的边)，只需要目标分类器的预测反馈(降低精度)。[31]的作者考虑了一种对图数据的新型中毒攻击(NIPA)，它将假节点(例如，社交网络中的假账户)注入到图中，并使用精心制作的假节点标签以及它们与图中其他(假的和真的)节点之间的链接来毒害图数据。NIPA将对抗性连接的顺序添加和对抗性标签的设计作为MDP框架，并通过深度q学习解决这一问题。为了有效应对大搜索空间，NIPA采用分层Qlearning和基于GCN的状态编码到其低维潜伏表示中，来处理状态和动作之间映射的非线性。

2) GNN增强DRL

本小节讨论与DRL算法改进相关的论文。具体而言，我们着重研究了GNN在关系型DRL问题(RDRL)中的应用，以有效地建模

~~(1)多智能体深度强化学习(MADRL)框架中的不同智能体之间的关系~~

~~(2)多任务深度强化学习(MTDRL)框架中的不同任务之间的关系。~~

在MADRL中，agent之间的关系建模:在MADRL中，一群agent为了实现一个共同的目标而相互合作或竞争。该框架最近被用于许多具有挑战性的任务，包括交通灯控制、自动驾驶和网络数据包传输[32]-[34]。在这种情况下，代理之间的通信提供关于其他代理的环境和状态的附加信息。人们提出了几种学习这种交流的方法。捕捉这些关系的第一个工作主体与基于注意的方法[35]-[38]有关。ATOC[39]、DGN[40]和COMA-GAT[36]通过注意机制提供通信。沿着这些路线，G2ANet[41]使用硬注意力过滤掉不相关的数据和软注意力来关注相关的信息。DCG[42]采用协调图，通过消息传递机制协调代理的行为。对于每个智能体，这些基于注意力的算法学习其他智能体的显著性分布。GraphComm[43]的作者同时探讨了代理之间的静态和动态关系。具体来说，它利用关系图模块，通过系统先验知识提供的关系图来合并静态关系，利用邻近关系图来处理动态关系。通过MLP和GRU网络以及RGCN和GAT，通过CTDE的方式学习agent的Q值，在agent之间分别交换静态关系和动态关系的消息。

类似地，在[44]中，Zhang等人提出了CTDE的结构关系推理actor -批评家(SRI-AC)框架，该框架可以自动推断agent之间的两两交互并学习状态表示。该模型用于预先预测哪些agent需要交互，然后将最相关的agent观察信息提供给批评网络。特别是，每个智能体都有一个批评，它利用联合行动的信息以及适当的观察数据在训练中。然后，利用变分自编码器(VAE)从观察到的数据中推断出两两相互作用和状态表示，然后利用GAT集成相邻智能体的知识的批评网络。类似地，[45]为CTDE DRL提出了一种新的状态分类方法。它基本上是将状态分为agent自己的观察、同盟的部分信息和对手针对《星际争霸》游戏的信息，然后利用GAT来学习agent之间的关联和关系。

在MTDRL中对任务之间的关系进行建模:该框架提供了一种优雅的方法来利用多个任务之间的共性，以便学习具有更高回报、泛化、数据效率和健壮性的策略。在大多数MTDRL工作中，一个固有的假设是相容的状态-动作空间，即跨多个任务的相同维度的状态和动作。然而，这在许多实际应用中被违背，如组合优化和机器人。这个问题已经通过使用能够处理任意大小的图的gnn得到了解决，从而在不兼容的状态-动作环境[46]中支持MTDRL。由于gnn提供了合并结构信息的灵活性，它允许集成额外的领域知识，其中状态被标记为图。GNN在MTDRL中的使用已经在连续控制环境中得到证实，利用RL代理的物理形态来构建输入图[47]，[48]。在这里，肢体特征以节点标签的形式进行编码，边表示对应肢体之间的物理连接。通过这种方式，代理的结构以图的形式显式建模。NerveNet[47]充当策略网络，它首先在代理结构上传播信息，然后预测代理不同部分的操作。[48]的作者制定了一个单一的全局策略，可以表示为一组称为共享模块化策略(Shared modular Policies, SMP)的模块化神经网络的集合，每个模块被指定用于处理与其对应执行器相关的任务。

Relational symbolic input for RDRL:RDRL的基本前提是将DRL与关系学习或归纳逻辑编程[49]集成，其中状态、动作和策略用一阶/关系语言[50]表示。该空间中的任务具有变化的状态空间和动作空间的特点。在这些问题中，很难找到大多数现有DRL方法所需要的固定长度的表示。这个问题可以使用GNN来处理，方法是根据图形结构数据制定关系问题。关系域的机制通常由关系动态影响图语言(RDDL)[51]表示。Garg等人[52]建议使用SymNet从RDDL中自动提取对象、交互和动作模板。节点嵌入使用GNN生成，动作模板应用于对象元组以创建概率分布。然后使用策略梯度法更新模型。然而，SymNet的计算成本很高，并且只适用于RDDL域定义可用的情况，因为需要预定义的转换动态来构造图。符号关系DRL (SR-SRL)[53]解决了这些限制，它考虑了一种丰富的符号输入，由对象和关系以及它们以图的形式呈现的特征组成。这不需要关于转换动态的信息，并且可以在任意数量的对象元组上泛化。

b.应用

第二大类文章利用DRL的多功能性和gnn的灵活编码能力来解决不同应用领域的有趣挑战。这些领域涵盖了广泛的范围，包括组合优化、运输、控制、知识图和生命科学，我们将在接下来简要回顾。

1)组合优化(CO)

许多组合优化问题的计算成本很高，需要近似和启发式方法来在多项式时间内解决。人们对使用机器学习技术解决CO问题越来越感兴趣。在这方面，CO问题通常被定义为MDP，其中最优行动/解决方案可以通过DRL学习到。此外，底层环境表示为使用GNN处理的图。解决这些挑战的文章可以进一步分为以下子类:

Solving CO problems in Operations Research:

Manchanda等[54]使用GNN来捕获CO问题的结构信息，从而解决了现有基于drl的方法通用性和可扩展性差的问题。他们结合监督学习和DRL学习了预算约束最大顶点覆盖(MVC)问题的构造启发式。首先，GCN通过学习概率贪婪算法计算出的评分函数来寻找合适的候选节点。然后，在一个类似于[55]的算法中使用候选节点，按顺序构造一个解。由于大型图中节点的程度可能会比较高，在确定嵌入时采用基于计算得分的重要抽样来选择相邻节点，从而降低了计算复杂度。在随机/真实图上的大量实验表明，所提出的方法略微优于S2V -DQN，并可扩展到更大的图实例，最多可达10万个节点。此外，由于学习的参数数量相对较少，在计算效率方面显著提高。

DRL和GNN的另一个有趣应用可以在图中求解扩散过程中看到，例如影响最大化和流行病测试优先级等。其目标是在一个时间演进的图上确定一组节点，从而实现遏制传播或最大化信息传播的全球目标。已经开发了各种图形理论算法来解决这类问题。但是，当扩展到更大的图时，它们的效率很低。此外，增加的困难在于状态是部分观察到的，例如，我们可能不知道在任何时间点图中每个节点的地面真值感染状态。为了解决这些挑战，[56]提出了在时间演进图上控制扩散过程作为部分观察马尔可夫决策过程(POMDP)的问题。将动态干预的节点子集选择问题表述为一个排序问题，并采用行动者-批评者近端策略优化来求解。具体来说，该体系结构包含两个独立的GCN模块;一个负责根据动态过程更新节点表示，另一个负责远程信息传播。对各种真实网络(包括COVID-19接触者追踪数据)的研究结果表明，这种方法具有卓越的性能。

Solving design problems：

一些设计问题，特别是电子电路设计是CO问题，可以受益于DRL-GNN的配方。例如，由于设计空间大、性能权衡复杂、技术进步快，晶体管自动定尺在电路设计中是一个具有挑战性的问题。[57]的作者介绍了GCN-RL电路设计器，它使用DRL在不同的技术节点和拓扑之间传递知识。采用GCN学习电路拓扑表示。GCN-RL代理检索以晶体管为节点、导线为链接的拓扑图特征。采用行动者批评法和连续空间DRL算法DDPG。DRL的通用性使得在一个技术节点上训练，然后应用训练好的agent在不同技术节点下搜索相同的电路。GCN提取电路特征，使共享相似设计原则的不同拓扑之间的知识传递成为可能，例如，在两级和三级跨阻抗放大器之间。

一个类似的问题是组合电路的逻辑合成，其中寻找布尔逻辑函数的最低等效表示。一种广泛使用的逻辑综合范式用标准化的逻辑网络表示布尔逻辑，如与逆变器图(AIG)，它在图上迭代地进行逻辑最小化操作。为此，[58]提出了这个问题，因为MDP和DRL被纳入GCN来探索解决方案搜索空间。具体地说，这项工作利用蒙特卡洛策略梯度的RL算法。由于电路和AIG逻辑可以自然地建模为图形，它们利用GCN来提取当前状态的特征。

系统鲁棒性:

最近，[59]展示了一个带有GNN的DRL的新应用，其中作者使用DRL来搜索给定图目标的最优图拓扑。本质上，图的构建被框定为一个顺序决策过程，即每次向当前图添加一个固定数量的链接，这样最终图的稳健性评分在给定图和边的所有可行组合中是最大的。特别是，状态表示当前图，而操作对应于需要添加的新节点。它们使用GNN[60]的S2V变体进行编码，而DQN构成底层DRL引擎。虽然这种方法比传统的方法(如贪心，费德勒向量等)在计算效率更高，但它需要在每一集的每一步迭代算法来计算当前图的全局得分(在这种情况下是鲁棒性)，这需要一些计算工作。这可以通过使用基于学习的模型来计算中间奖励，即全局图分数[61]，[62]来避免。

2)交通

用DRL和GNN处理的运输问题大致可以分为路由和速度预测两类。（routing and speed prediction）

车辆路径:

在车辆路径问题(VRP)中应用GNN和DRL的早期尝试之一可以在Traveling Salesperson Problem (TSP)中找到，该问题的目标是找到最短的可能路径，该路径只访问一次图中的每个节点并返回源节点[63]。在这里，状态由一个图嵌入向量表示，描述了节点在时间步长t之前的遍历，而动作被定义为从未访问的池中选择一个节点，奖励是负的遍历长度。采用带有注意机制的GNN作为编码器，然后使用指针网络解码器。所描述的编码器-解码器网络的参数使用增强算法更新一个批评基线。[64]提出的方法采用GNN表示，为无模型RL提供了一个通用框架，通过改变奖励来适应不同的问题类。该框架使用边到顶点的线图来建模问题，然后在一个单人游戏框架中制定它们。TSP和VRP的MDPs与[65]相同。[64]并没有采用全功能的Neural MCTS，而是将策略表示为带有基于注意的解码器的图同构网络(GIN)编码器，该解码器在整个树搜索操作中学习。此外，[66]提出以分层的方式学习VRP的改进启发式(从任意策略开始并迭代改进的方法)。作者设计了一种内在的MDP，不仅包括目前的解决方案的特点，而且还包括运行历史。采用增强方法对策略进行训练，并利用GAT参数化策略。

TSP协同组合优化的另一个重要问题与多TSP (MTSP)的优化有关。[67]开发了一种由共享的GNN和分布式策略网络组成的体系结构，以学习一种通用的策略表示，为中期战略规划(MTSP)产生接近最优的解决方案。具体来说，Hu等人使用两阶段方法，其中使用REINFORCE来学习智能体到顶点的分配，并使用常规优化方法来解决与每个智能体相关的单智能体TSP。

速度/流量预测：

第二类交通问题涉及路网中速度/流量的预测，通常称为交通信号控制(TSC)。近年来，TSC被建模为MDP，研究者采用DRL来控制交通信号[68]-[71]。作者在[70]中提出了诱导异构图多智能体行动者-批判者(IHG-MA)算法，该算法包括三个步骤:(i)通过快速随机漫步和重启方法对异构节点进行抽样;(ii)使用BiGRUs对每组节点的异构特征进行编码;(iii)使用图注意机制对组进行聚合嵌入。最后，本文提出的MA框架在得到的节点嵌入上采用行为-批评方法计算每个SDRL代理的q值和策略，并对整个算法进行优化，学习不同网络和交通条件下可转移的交通信号策略。Shang等人[72]提出利用DQN agent将GCN和GAT的预测有效结合起来，从而提高整体的时空建模能力和预测性能。DQN提供权重来结合GCN和GAT预测，其中的权重可以适应不同的网络拓扑结构、天气条件和交通数据的其他相关属性

3)制造与控制

由于工艺和系统级别的复杂性和相互依赖性不断增加，DRL也在现代制造系统中得到了探索[73]-[75]。最近，Huang等[76]提出了一种基于GNN的集成过程系统模型。在这里，制造系统被表示为一个图表，其中机器被视为节点，机器之间的物流被视为链接。GCN用于对机器节点进行编码，得到一个既反映机器局部条件(即相邻机器的参数)又反映整个系统全局状态的节点潜在表示。将每台机器建模为一个分布式代理，训练MARL学习基于节点潜在特征向量的独立自适应控制策略。节点的潜在特征、机器工艺参数和带有缺陷的总产量分别作为底层MDP的状态、作用和奖励。具体来说，C-COMA[36]是通过在分布式环境下使用优势Actor批评家(Advantage Actor批评家，A2C)框架部署的，并且很容易与GNN兼容。

在制造业中，作业车间调度问题(JSSP)也是一个重要的问题，其目的是在保持问题约束的前提下，确定由一系列操作组成的多个作业的最优顺序分配问题。Park等人[77]提出了一个框架，利用GNN和DRL构造jssp的调度策略。他们通过将JSSP的状态表示为析取图[78]，以一种计算效率高的方式，将JSSP的调度表述为半定规划问题(SDP)，其中节点表示操作，并置边表示两个节点之间的优先/后续约束，析取边表示两个操作之间的机器共享约束。然后，他们使用GNN来学习节点嵌入，该节点嵌入总结了JSSP的空间结构，并派生出一个调度策略，将嵌入的节点特性映射到调度操作。PPO (Proximal policy optimization，近端策略优化)算法是基于策略的RL的一种变体，用于联合训练基于gnn的状态表示模块和参数化决策策略[79]。

DRL的另一个关键应用是在联网自动驾驶汽车的控制上[80]-[83]。然而，在现有的大多数文献中，基于drl的控制器只针对单个或固定数量的代理，具有固定大小的观察空间和行动空间。这是由于多智能体(车辆)数量动态变化的CAV网络的高度组合和不稳定性，以及与多智能体驾驶任务相关的快速增长的联合行动空间，使协同控制难以实现。最近，Chen等人[84]提出了一种基于DRL的算法，将GCN与DQN相结合，实现多资源信息的高效融合。在此基础上构建集中的多智能体控制器，对CAV网络中动态数量的车辆进行协同换道决策。

无线网络中通信资源的有效分配也可以通过DRL[85]，[86]来解决，在现代控制系统中，无线网络通常用于在大量工厂、传感器和执行器之间交换数据。然而，这些DRL技术不能很好地适应网络的大小。为了克服这个问题，Lima等人[87]使用GNN对资源分配函数进行参数化。特别是Gama等[88]由于底层通信图是随机分布的，所以使用随机边gnn，然后由于作用空间是连续的，将其与REINFORCE耦合。

另一个有趣的应用是多因素地层控制。虽然许多算法能够有效地实现编队控制，但它们忽略了agent[35][89]，[90]所形成的图的结构特征。Wang等[91]在GAT框架上提出了MAFCOA模型。具体而言，该模型可分为编队控制和避障两部分。第一部分采用GAT，主要研究agent之间的协作，第二部分则采用多lstm模型研究避障。Multi-LSTM允许agent按照距离的先后顺序考虑障碍物，避开任意数量的障碍物[92]。此外，为了扩展到更多的agent，参数被共享，在一个分散的框架中训练所有的agent。在多智能体控制系统中，采用Actor - critical method学习多智能体的最优控制策略。

4)知识图谱完成

在推荐系统[93]、社交网络[94]、问答系统[95]、智能制造[96]、信息抽取[97]、语义解析[98]和命名实体消歧[99]等各种应用中，知识图(Knowledge Graphs, KG)被越来越多地用于表示异构的图结构数据。现实世界知识库的一个关键问题是，它们是出了名的不完整，也就是说，很多关系都缺失了。KG完成(KGC) 9是一个知识库完成过程，旨在通过在现有的帮助下推断缺失的条目来填补不完整的现实世界知识库。实体和对应关系用头部节点(h)、关系(r)、尾部节点(t)组成的三元组来表示。KGC问题涉及对给定的头节点和关系的缺失尾的预测。传统的基于rl的方法不考虑在现有的知识图中生成新的子图，例如，新的或缺失的目标实体。此外，当KGC被假设为马尔可夫过程时，该规则可以用来学习状态转换过程。最后，奖励稀疏性的问题导致采样方法方差大，学习效率低。为了克服这些局限性，[100]提出了一种基于gan的DRL框架(GRL)。将该问题分为两种情况:一种是在有限的时间步内能够找到目标实体，另一种是在原KG中找不到目标实体，但仍有时间步可走，从而形成新的子图。KGC被定义为MDP，探索在GAN优化下，在状态转换过程和奖励过程中可以引入的规则，以更好地指导行走路径。使用LSTM作为GAN的生成器，它不仅记录之前的轨迹(状态、动作等)，还生成新的子图，并利用GAN训练策略网络。此外，为了更好地生成新的子图，使用GCN将KG嵌入到低维向量中，并在每一层参数化消息传递过程。此外，GRL还应用领域特定规则，利用DDPG优化奖励和对抗性损失。

5)生命科学

除了工程应用之外，ML最近的进展也展示了它在各种生命科学应用方面的革命性潜力，如药物发现[101]-[103]和脑网络分析[104]。为此，[101]提出了一种设计将DRL耦合到深度生成模型的抗病毒候选药物的新方法。具体来说，作者使用了角色批评方法，其中基于支架的生成模型作为角色模型来构建有效的3D化合物。在临界模型中，平行gnn被用作结合概率预测器，以确定生成的分子是否与目标蛋白有效结合[102]。结果表明，该模型可以产生比当前基线更高的药物相似性、合成可及性、水溶性和亲水性的分子。Do等人[103]提出了一种图转换策略网络(GTPN)，它结合了DRL和GNN的优势，以最少的化学知识直接从数据中学习反应。他们的模型有三个关键组成部分:一个GNN，一个节点对预测网络和一个策略网络。GNN负责获得原子的表示，节点对预测网络负责计算最可能的反应原子对，策略网络负责确定将反应物转化为生成物的键变化的最佳顺序。此外，该模型逐步创建的产物分子，使其可以展示中间分子，大大提高了其可解释性。

4.讨论和经验教训

通过广泛的综述，我们观察到，从算法开发的角度和机器学习对复杂问题的应用来看，在DRL框架中使用gnn正变得越来越流行。在本节中，我们将从适用性和融合这些学习框架的优势方面提出我们的观点。

A. DRL与GNN融合的优点

如前所述，GNN和DRL在两个不同的方面进行融合，即算法增强(方法相互增强)和应用(算法相互支持)。这种融合有几个优点，可以总结如下:

(1) DRL中从单agent到多agent或者从单任务到多任务场景，问题的复杂性急剧增加。因此，各种新的方法不断被提出，以提高模型的性能。但是，为了进一步改进，总是可以纳入辅助信息。由于MADRL/MTDRL涉及到多个代理，因此在具有GNN架构的核心模型中合并这些代理之间的关系信息可以提高其性能。由于gnn天生被设计用于捕获拓扑/属性关系，它们是强大的模型，允许捕获相对于其他模型的多代理和多任务关系;

2) GNN和其他DNN模型一样，在自动生成设置、提高模型的可解释性和增强对对抗攻击的鲁棒性方面还有待进一步改进。由于固有的顺序特性，这些任务可以通过DRL轻松处理。与传统的基于优化的方法相比，DRL非常适合用于这些任务，因为它提供了一个计算轻量级的框架，以可伸缩和通用的方式处理大型问题空间;

(3)在涉及知识图和运输网络等图形化环境的应用中，DRL的性能在很大程度上取决于编码器。因此，gnn被用来表示这种环境下的轨迹信息，同时也起到函数逼近器的作用。与图信号处理或谱图理论方法等其他技术相比，gnn在表示/编码图方面非常有效。此外，它们足够灵活和通用，可以用于不同的图族和大小。

B. DRL和GNN方法的适用性问题

GNN和DRL的融合带来了一系列小众问题，这些问题跨越了不同的应用程序，同时又具有共同的特性。这些共同特征是:(1)问题的顺序决策设置，其中学习通过闭环方式与环境的交互发生;(2)学习代理在任何时候都利用其获得的知识，同时也在探索多个选项以获得可能更好的解决方案之间取得平衡;(3)学习以实现长期目标为目的，避免短视决策;(4)底层系统最有效地表示为一个图，从而使gnn成为表示此类系统的自然选择。

一个广泛研究的这类问题的例子是旅行销售人员问题，其中寻找最优路线的过程是一个循序渐进的过程，确定导致最小总旅行距离的节点。此外，底层问题具有一个图结构，其中节点是目的地，链接表示它们之间的连接。

文献中的大多数应用都涉及静态系统，因此单个GNN模块可以作为环境的函数逼近器和编码器。但是，根据问题的性质，必须选择适当的GNN算法以获得最佳性能。涉及大型图的环境应该依赖于GraphSAGE[23]而不是GCN[22]，因为GraphSAGE是一种基于子图的归纳学习方法，可扩展到更大的网络。同样，在节点相对于整个图的位置至关重要的应用中，位置感知gnn (PGNN)[105]是首选。PGNN明确地利用锚节点和相邻子图来提高节点嵌入的效率。此外，大多数gnn的表达能力受1-Weisfeiler-Lehman (1-WL)图同构检验的上限，即它们无法区分不同的d-正则图。因此，建议研究用于复杂图结构环境的身份感知GNN[106]，它在消息传递过程中归纳地考虑节点的身份。

除了静态图之外，某些应用程序还涉及动态图结构环境。例如，在一个连通的自动驾驶汽车网络中，车辆数量是动态变化的。在这种情况下，一种合适的策略是使用融合了gnn的LSTMs来捕获图的演化以及DRL轨迹。在任何时刻，都可以通过GNN收集环境的空间信息，并将其输入到LSTM细胞状态，学习长期的时空依赖性。此外，可以使用单独的gnn单独编码拓扑变化和远程依赖关系。除了环境的类型，感兴趣的问题可以有一个学习代理或多个代理。在多智能体应用程序中，传统的MADRL算法是最适合的。然而，在某些场景中，代理可能会相互作用以寻找更好的解决方案。这些交互还可以进一步预定义，也可以显示为与环境的代理交互。可以使用GNN模型来捕获这种关系和为代理提供辅助信息，以进一步提高模型性能。这也适用于多任务的情况，不同的任务是相关的或结构相关的。

gnn在其体系结构中包含各种调优参数。因此，神经结构搜索在其中是非常有效的。DQN等DRL算法是搜索的合适选择，因为搜索方法是通用的，适用于不同的体系结构。事实上，任何涉及GNN中搜索操作的应用程序，如对抗性攻击，都可以用DRL非常有效地解决。多模态数据的使用导致了各种应用中异构的图结构数据，包括知识图和推荐系统。传统的gnn不是为处理异质性而设计的。因此，建议采用关系型GCN[107]、异构GA T[108]、HetSANN[109]等自定义gnn进行编码。从根本上说，所有这些工作都需要对每个节点/链路类型(即节点属性或链路关系)有单独的聚合和组合函数(模型参数)，从而学习到强大的节点表示。

5.挑战和未来的研究机遇

在这项工作中调查的文章揭示了融合GNN和DRL的广泛适用性和重要性(总结在§IV)。本节确定了广泛采用前的挑战，并建议了释放组合GNN-DRL框架的全部潜力的未来方向。

A.问题的泛化（Generalization across problems）

增强DRL算法的泛化性是关键研究领域之一，尤其是深度神经网络对训练环境的过拟合问题。虽然在最近的文献中提出的方法很少，但它仍然是一个开放的问题，也适用于图结构环境和数据。一个可能的研究方向是开发图元强化学习框架，使agent能够快速适应样本较少的新任务或环境[110]。具体来说，这可以通过提供随应用程序而变化的上下文变量来实现。例如，在CO的情况下，看不见的问题可以是相同问题的较小实例，不同分布的问题实例，甚至是来自其他类型的CO问题的实例。虽然最近可以看到一些推广工作，但还有更多的工作要做。增强DRL算法泛化性的另一种方法是将代理暴露给几个图环境，这些环境可以通过图增强技术用训练图创建。一个潜在的想法是利用生成对抗网络(GAN)来进行图的增强，通过添加/删除节点和链接或修改节点/链接属性来干扰输入图，从而生成合成示例。这使得DRL代理能够通过学习不同的和嘈杂的环境中的不变特征来适应。我们认为，虽然这项任务是具有挑战性的，但它是极其重要的和有前途的研究方向在DRL。

B.模型的可解释性

大量可解释人工智能(XAI)的文献正在出现，它们是关于特征关联技术来解释深度神经网络(DNN)的预测或解释消耗图像源数据的模型。然而，目前还不清楚XAI技术如何帮助理解分类任务以外的模型，例如DRL。改进的DRL (XRL)模型的可解释性和可解释性可以帮助揭示在必要的情况下的潜在机制，以证明和解释代理的行为，这仍然被视为一个黑箱。最近在XRL上的努力是针对特定问题的，不能推广到现实世界的RL任务[111]。

基于表征学习的概念，如分层RL、自我注意和后知后觉体验回放，被认为是提高DRL模型可解释性的几个令人鼓舞的方法[111]，可以被认为是未来的研究方向。此外，DRL还通过识别最具影响力的子图[26]来解释GNN中的节点/链路预测。利用GNN改善DRL的预测也可以作为该领域未来研究的一部分。

C.从模拟环境到真实环境的无缝过渡

大多数流行的GNN-DRL方法都是基于合成的图结构数据集和仿真平台开发的。现实生活场景比模拟平台复杂得多，尽管各种合成图正在不断开发以模拟真实世界的网络。因此，在将DRL自信地部署到实际应用程序之前，需要进行严格的验证。这种验证对于联网自动驾驶汽车、制造工艺等应用尤为关键，因为这些应用的安全性至关重要。在一般DRL中，有一些尝试将训练过的DRL代理从模拟器转移到实际的测试平台[112]，但在图结构环境方面有很大的差距。因此，以一种谨慎的、受保护的和富有成效的方式从模拟场景无缝过渡到真实场景是未来的一个重要研究方向。

D.解决受限问题

实际应用中的优化问题大多受到资金、时间、资源等方面的各种约束。大多数现有的DRL工作都是通过奖励中的惩罚来处理约束，如果约束是软的，也就是可以以一定的代价违反它们，那么这种方法就很合适。但是，必须严格满足硬约束，而施加惩罚并不能消除它们，因此不是一个完美的方法。处理硬约束的另一种方法是在设计训练环境时屏蔽约束，使探索空间远离约束违例，如自动驾驶中所考虑的[113]，[114]。当底层环境是图形结构时，这些约束变得更加复杂，例如交通网络。处理硬约束的优雅方法目前还没有出现在文献中。因此，需要进一步研究有约束动力系统的丰富文献以及其他处理硬约束的策略。

E.对数据/环境的稳健性

从实践者的角度来看，由GNN和DRL开发的解决方案对于数据和环境的变化具有健壮性是至关重要的。鲁棒性表示预测对输入的敏感性。首先，进行这项研究是为了一般性/可转移性目的或保护模型免受对抗性攻击。在这方面，标准DNN已经完成了大量的工作，但在DRL中还很少有尝试，特别是在图结构环境中。敏感性分析可以在环境设计、模型规范、训练过程和数据保真度等方面提出适当的修改建议。因此，在达成一个安全、健壮的框架之前，还有很多工作要做。一种可能是利用GAN来提高DRL的鲁棒性，因为它们在监督学习案例中已经被证明是非常有效的。

F.动态/异构图形环境

现有的大多数GNN模型对同构图进行预测和推断。然而，现实世界中的大量应用程序，比如关键的基础设施网络、推荐系统和社交网络，都涉及到异构图的学习。异构的图形结构数据可以在一个通用的图形框架中表示多种类型的实体(节点)和关系(边)。使用现有的GNN模型很难处理这些不同的图。因此，开发能够使用异构图进行学习的新模型和算法将在诸如13网络安全[115]、[116]、文本分析[117]、[118]和推荐引擎[119]、[120]等真实系统中非常有益。综合使用DRL技术来实现这一目标可以被认为是未来可能的研究方向之一。此外，现有的GNN方法假设图结构数据是静态的，即不考虑添加和/或删除节点/边的可能性。然而，许多实际应用，如社交网络，包含了随着时间不断演化的动态空间关系。虽然时空gnn (stgnn)具有部分处理动态图的能力[121]，但对于如何在动态图中执行节点分类、链路预测、团体检测、图分类等下游任务，还需要进一步深入了解。

6.总结和结论

本文对融合DRL和GNN方法的文献进行了系统的综述。虽然近年来已经发表了一些与DRL相关的综述，但这些研究大多局限于特定的应用领域。本研究首次对不同的应用领域进行了系统性的综述。我们从基本算法增强和特定应用的发展两个角度对论文进行了回顾。从算法上看，要么利用GNN来加强DRL的编制，提高DRL的性能，要么利用DRL来扩大GNN的适用性。最近在多个应用(大致分为组合优化、运输、制造和控制、知识图和生命科学)中混合使用DRL和GNN的工作已经被彻底调查和讨论。我们还强调了融合DRL和GNN方法的关键优势，并概述了每个组件的适用性。此外，本文还指出了DRL与GNN的有效整合所面临的挑战，并提出了该领域未来可能的研究方向。