AdaProp: Learning Adaptive Propagation for Graph NeuralNetwork based Knowledge Graph Reasoning

小蜗子

已于 2024-01-25 00:37:00 修改

阅读量271

点赞数 1

分类专栏： GNN 文章标签：知识图谱人工智能

于 2023-11-14 10:24:07 首次发布

本文链接：https://blog.csdn.net/weixin_44466434/article/details/134381168

版权

GNN 专栏收录该内容

38 篇文章 4 订阅

订阅专栏

摘要

由于图神经网络(gnn)的流行，各种基于gnn的方法被设计用于在知识图(KGs)上进行推理。基于gnn的KG推理方法的一个重要设计组件是传播路径，它在每个传播步骤中包含一组相关实体。现有的方法使用手工设计的传播路径，忽略了实体和查询关系之间的相关性。此外，在更大的传播步骤中，涉及的实体数量将呈爆炸式增长。在这项工作中，我们的动机是学习一种自适应传播路径，以过滤掉不相关的实体，同时保留有希望的目标。首先，我们设计了一种增量采样机制，该机制可以保持线性复杂度的附近目标和分层连接。其次，我们设计了一个基于学习的抽样分布来识别语义相关的实体。大量的实验表明，我们的方法是强大的、高效的和语义感知的。代码可在https://github.com/LARS-research/AdaProp上获得。

1.介绍

知识图(Knowledge graph, KG)是一种表示现实世界实体之间关系的语义图[16,39]。基于KGs的推理旨在根据现有事实推断给定查询的缺失答案[1,6,20]。它已广泛应用于药物相互作用预测[4,40]、个性化推荐[4,18]和问答[12,18]。KG对查询(LeBron, lives_in， ?)和答案Los Angeles进行推理的示例如图1所示。符号上，推理问题可以表示为一个查询(𝑒𝑞，𝑟𝑞，?)，查询实体为𝑒𝑞，查询关系为𝑟𝑞。KG推理的目标是通过从给定KG学习到的局部证据找到(𝑒𝑞，𝑟𝑞，?)的目标答案实体𝑒𝑎。

KG推理的代表性方法可以分为三类:(i)基于三重体的模型[3,10,39,52,55]，通过学习到的实体和关系嵌入直接对每个答案实体进行评分;(ii)基于路径的方法[7,9,30,31,54]学习逻辑规则以生成从𝑒𝑞开始的关系路径，并探索哪个实体更有可能是目标答案𝑒𝑎;(iii)基于gnn的方法[32,38,53,56]通过图神经网络[22]在局部邻域之间传播实体表示。在这三类方法中，基于gnn的方法达到了最先进的性能[47,53,56]。具体来说，R-GCN[32]和CompGCN[38]在所有实体的满邻域内传播。与一般的GCNs一样，它们也容易出现过平滑问题。nbnet[56]和RED-GNN[53]在查询实体𝑒𝑞周围的本地邻域内传播。通过选择传播范围，它们比R-GCN或CompGCN具有更强的推理能力。然而，它们的局部邻域主要依赖于查询实体，并且在较大的传播步骤中将涉及大多数实体

现有的基于gnn的方法是在所有实体上的所有邻域之间或围绕查询实体传播，忽略了局部邻域与查询关系之间的语义相关性。直观地说，我们需要的本地信息依赖于查询实体和查询关系。例如，与图1中查询最相关的本地证据包括(LeBron, part_of, Lakers) & (Lakers, located_in, L.A.)和(LeBron, spouse_of, Savan Nah) & (Savan Nah, lives_in, L.A.)的组合。如果查询改为(LeBron, father_of， ?)，则最相关的信息将改为(LeBron JR, son_of, LeBron)。此外，现有的基于gnn的方法不可避免地会涉及太多不相关的实体和事实，增加了学习难度和计算成本，特别是在大规模KGs上。

基于上述例子，我们提出在传播过程中对语义相关实体进行自适应采样。在设计采样算法时面临三个挑战:(1)KG的结构复杂且尺寸较大;(ii) KG是多关系的，其中边和查询具有不同类型的关系，表示不同的语义含义;(iii)没有直接的监督和简单的启发式测量来表明实体与给定查询的语义相关性。为了解决这些挑战，我们提出了一种基于gnn的自适应传播路径方法AdaProp。其关键思想是减少涉及实体的数量，同时保留传播路径中的相关实体。这是通过增量抽样机制和适应不同查询的基于学习的抽样分布来实现的。通过这种方式，我们的方法学习了一种自适应传播路径，该路径保留了分层连接，选择了语义相关的实体，减少了有希望的目标。主要贡献总结如下:

我们提出了一种保持连接的采样方案，称为增量采样，它只具有关于传播步骤的线性复杂性，并且可以保持采样实体之间的分层连接。
我们设计了一个语义感知的Gumble top-𝑘分布，该分布自适应地选择与查询关系相关的局部邻域，并通过直通式估计器学习。
实验表明，所提出的方法在转换和归纳KG推理设置中都达到了最先进的性能。与其他采样器相比，它可以保留更多的目标实体。实例研究表明，学习后的采样器具有查询依赖性和语义感知性。

2 RELATED WORKS

2.1 GNN for KG reasoning

由于图神经网络(gnn)[14,22]在图结构数据建模方面的成功，最近的研究[36,38,53,56]尝试利用gnn的力量进行KG推理。它们通常遵循消息传播框架[14,22]在实体之间传播消息。

对于基于gnn的KG推理方法，参与传播的实体集是不同的。现有的基于gnn的方法根据其传播范围的设计大致可以分为三类:

完全传播(Full propagation)方法，如R-GCN[32]和CompGCN[38]，在所有实体之间传播，即，由于内存开销大，并且GNNs[28]在满邻居上存在过平滑问题，它们的传播步长很小。

渐进传播(Progressive propagation)方法(RED-GNN [53] and NBFNet [56])，从查询实体𝑒𝑞开始，逐步传播到𝑒𝑞的𝐿-hop邻域，即，其中N(𝑒)包含实体𝑒的1跳邻居。

约束传播(Constrained propagation)方法，例如GraIL[36]和CoMPILE[25]，在一个约束范围内传播，即，其中。由于对于不同的对是不同的(𝑒𝑞，𝑒𝑎)，这些方法是非常昂贵的，特别是在大规模的kg(见附录A.2中的讨论)。

我们在图2中间提供了这三个类别的传播方案的图形说明。其中，渐进式传播方法达到了最先进的推理性能。它们比约束传播方法更有效，并且用于传播的实体依赖于查询实体，从而过滤掉许多不相关的实体。然而，当𝐿变大时，渐进方法的V𝐿也会涉及到大多数甚至所有的实体。

我们在图2中间提供了这三个类别的传播方案的图形说明。其中，渐进式传播方法达到了最先进的推理性能。它们比约束传播方法更有效，并且用于传播的实体依赖于查询实体，从而过滤掉许多不相关的实体。然而，当𝐿变大时，渐进方法的也会涉及到大多数甚至所有的实体。

2.2 Sampling methods for GNN

采样方法可以在传播过程中控制和选择实体。为了提高gnn的可扩展性，引入了几种方法对同质图上的节点进行采样。它们可以分为三类:(i)node-wise sampling methods，如GraphSAGE[15]和PASS[48]，在每个传播步骤中为每个实体𝑒从邻居集N(𝑒)中采样𝐾实体;(ii)分层采样方法，如FastGCN[5]、Adaptive-GCN[17]和LADIES[57]，在每个传播步骤中最多采样𝐾个实体;(iii)子图采样方法，如Cluster-GCN[8]、GraphSAINT[51]、ShadowGNN[50]等，直接提取被查询实体周围的局部子图。所有这些方法都是为同构图设计的，目的是解决可伸缩性问题。

对于KG推理，也提出了一些抽样方法。RS-GCN[13]提出了一种基于节点node-wise的采样方法来选择R-GCN/CompGCN的邻居。DPMPN[45]包含一个全传播GNN来学习全局特征，并以分层采样的方式修剪另一个GNN进行推理。这些采样方法减少了在较大的KGs上传播的内存成本，但与基本模型相比，它们的经验性能并没有得到很大的提高。

3.提出的方法

3.1 Problem formulation

目标是设计更好的传播路径这样的模型与优化参数可以正确地预测目标回答实体𝑒𝑎为每个查询(𝑒𝑞,𝑟𝑞,?)。渐进式传播方法根据查询实体的不同具有不同的传播路径，达到了最优的性能。然而，它们忽略了查询关系的依赖性，并且在较大的传播步骤中将涉及到太多的实体。受渐进式传播Progressive propagation方法和采样方法在同构图上的成功启发，我们的目标是利用采样技术来动态适应传播路径。形式上，我们将查询(𝑒𝑞、𝑟𝑞、?)的依赖于查询的传播路径定义为:

这里的关键问题是如何设计采样策略𝑆(·)。对于KG推理任务，我们面临两个主要挑战:

对于查询(𝑒𝑞，𝑟𝑞，?)，目标答案实体𝑒𝑎是未知的，直接采样相邻实体可能会丢失查询实体与目标答案实体之间的连接;
传播路径中的实体与查询关系𝑟𝑞之间的语义依赖关系过于复杂，无法通过简单的启发式方法捕获。

现有的采样方法不太适用，因为:(1)它们没有考虑对未知目标实体的保留;(ii)它们是为同构图而设计的，没有建模关系类型;(3)对实体在查询上的传播依赖没有直接的监督。因此，我们认为KG推理需要一种特殊设计的采样方法，该方法可以去除实体，并为相应的查询保留有希望的目标。

在接下来的部分中，我们介绍了自适应传播(AdaProp)算法，该算法可以根据给定的查询自适应地选择相关实体到传播路径中。为了解决第一个挑战，我们设计了一种保持连接的采样方案，称为增量采样，它可以减少涉及实体的数量并保留3.2节中的分层连接。对于第二个挑战，我们提出了一个关系相关的抽样分布，它与模型参数共同优化，以选择与第3.3节中的查询关系在语义上相关的实体。完整的算法在第3.4节中进行了总结。

3.2 The connection-preserving incremental sampling strategy

3.2保持连接的增量采样策略

在设计抽样策略时，我们应该考虑要抽样什么，以及如何有效和高效地抽样。由于给定查询(𝑒𝑞，𝑟𝑞，?)的目标实体𝑒𝑎是未知的，因此从所有可能的邻居中自由采样将失去查询实体与有希望的目标之间的结构连接。现有的抽样方法不能很好地解决这一问题。对于节点node-wise采样方法，复杂度随传播步数的增加呈指数增长𝐿。对于分层layer-wise抽样方法，前一步的实体可能与当前一步的抽样实体没有多少联系，无法保持局部结构。子图subgraphs抽样方法可以更好地保留局部结构，但难以控制哪些实体与查询更相关，值得进行抽样。

观察到大多数目标答案实体靠近查询实体(参见附录C.1中的分布)，我们有动机保留在每个传播步骤中已经选择的实体。也就是说，我们利用约束，以增量方式保留前步实体和新走访实体的样本，避免放弃有希望的目标。一方面，传播步长越深，附近目标越有可能被保留。另一方面，可以保留两个连续层中实体之间的分层连接。增量采样器包含候选生成CAND(·)和候选采样SAMP(·)两部分。

3.2.1 Candidate generation

3.2.2 Candidate sampling.

3.2.3讨论

增量抽样策略有三个优点。首先，它比节点抽样方法的实体效率更高，节点抽样方法的实体数量随着传播步骤呈指数增长。与Prop.1中一样，涉及实体的数量随着传播步骤的增加而线性增长𝐿。其次，基于Prop.2的分层连接可以保持，这比分层采样方法具有优势。第三，如4.2.1节所示，在涉及的实体数量相同的情况下，它比其他抽样机制保留目标答案实体的概率更大

3.3 Learning semantic-aware distribution

增量抽样机制缓解了候选目标减少的问题。然而，从中随机抽取𝐾实体并没有考虑不同实体对不同查询的语义相关性。基于贪婪的搜索算法，如束搜索[42]，在这里不适用，因为没有直接的启发式来衡量语义相关性。为了解决这个问题，我们将采样器𝑆(·)的参数化with 为每个传播步骤l的参数化，即:。在接下来的两部分中，我们将介绍采样分布以及如何优化采样参数。

3.3.1 Parameterized sampling distribution

对于基于gnn的KG推理方法，在最后的传播步骤中使用实体表示(entity representation)来度量实体𝑒𝑜作为目标答案实体的合理性。换句话说，学习实体表示来指示它们与给定查询的相关性(𝑒𝑞，𝑟𝑞，?)。为了分享这些知识，我们引入一个线性映射函数with参数在每一层ℓ= 1。𝐿，按概率分布抽样:

Sampling 𝐾 entities without replacement from 采样𝐾实体而不替换，需要依次采样和更新每个样本的分布，这可能是昂贵的。我们采用Gumbel top-k技巧[24,43]来解决这个问题。Gumbel-trick首先从均匀分布(即𝑈𝑒~ uniform(0,1))中采样独立噪声，形成。然后根据它们的的值收集中最上面的𝐾实体。如[24,43]所证明，该过程等价于不从替换的样本。

3.3.2 Learning strategy

我们表示作为采样参数和参数化的传播路径。由于我们在(2)中的抽样分布与GNN表示有很强的相关性，因此联合优化模型参数和采样器参数可以更好地实现两者之间的知识共享。具体来说，我们设计了以下目标:

重参数化技巧经常用于Gumbel分布[19]。然而，它不做显式采样，因此仍然需要很高的计算成本。相反，我们选择直通式(ST)估计器[2,19]，它可以近似估计离散变量的梯度。ST估计器的关键思想是通过采样信号反向传播，就好像它是恒等函数一样。具体来说,而不是直接使用实体表示计算信息,我们使用,其中意味着 back-propagation signals不会经历这一项。在这种方法中，向前的计算不受影响，而向后的信号可以通过概率乘法器。估计离散抽样分布梯度的另一种选择是强化技术[27,41]。然而，已知强化梯度具有高方差[35]，并且方差将在传播步骤中累积，因此此处不使用。模型参数和采样器参数由Adam优化器[21]同步更新.

总的来说，学习语义感知分布的目的是根据查询关系自适应地保留有希望的目标。如第4.3节所示。通过与实体表示共享知识，在采样传播路径中选择的信息与查询关系在语义上相关。另一方面，与未学习的版本相比，学习分布保证了更高的目标实体覆盖率。

3.4 The full algorithm

AdaProp的完整过程如算法1所示。给定步中的实体，我们首先获得V的相邻实体，并生成新访问的实体作为第2行中的候选实体。然后，查询相关的消息在第3行中的边上计算，并在第4行中传播到中的实体。根据第5行计算的Gumbel对数 Gumbel logits，在第6行对中最上面的𝐾实体进行采样。至于ST估计器，我们在第7行修改了中实体的隐藏表示。最后，将采样实体集连接起来，形成第8行中第l步实体集。在传播𝐿步之后，返回所有涉及实体的最后一步表示。得分最高的单位中，将𝑟𝑞作为预测目标。

与现有的基于gnn的KG推理方法相比，算法1中的传播路径在消息传播之前不再是给定和固定的。相反，它是根据实体表示自适应调整的，并在每个传播步骤中动态更新。此外，算法1的效率也高于完全传播和渐进式传播方法，因为只涉及一小部分实体，而采样的额外计算成本相对较低。与约束传播方法需要在特定于答案的传播路径上进行多次传播相比，潜在目标答案实体在一次向前传递的最后传播步骤中直接得分。

4 EXPERIMENTS

在本节中，我们通过经验验证了有效性，并分析了拟议的AdaProp在传感器和感应设置上的组成部分。所有的实验都是用Python和PyTorch实现的[29]，并在一个具有24GB内存的NVIDIA RTX 3090 GPU上运行。

4.1 Comparison with KG reasoning methods

我们比较了AdaProp与一般的KG推理方法在转导和归纳推理。在转换设置中，训练和测试的实体集是相同的。而在归纳推理的测试中，模型需要泛化到不可见的实体，而不是训练集。此外，我们遵循[3,36,39,53,56]使用过滤后的基于排名的指标进行评估，即平均互惠排名(MRR)和Hit@𝑘(例如Hit@1和Hit@10)。值越高表示这两个指标的性能越好。对于超参数，我们将传播步骤的数量𝐿从5调整到8，采样实体的数量𝐾在{100,200,500,1000,2000}中，温度值为{0.5,1.0,2.0}。其他超参数的取值范围与RED-GNN保持一致[53]。

4.1.1 Transductive setting

图1显示了一个转换KG推理的例子，其中给出了一个与LeBron相关的KG，任务是根据给定的事实预测勒布朗住在哪里。形式上来说，我们有一个KG G = (V, R, E, Q)，其中查询集Q被分成三个不相交的集Qtra/Qval/Qtst，分别用于训练、验证和测试。

数据集。我们使用了6个广泛使用的KG完井数据集，包括Family[23]、UMLS[23]、WN18RR[10]、FB15k237[37]、NELL995[44]和YAGO3-10[33]。这些数据集的统计数据如表1所示。

基线。我们将AdaProp与非gnn方法ConvE[10]、QuatE[52]、RotatE[34]、MINERVA[9]、DRUM[31]、RNNLogic[30]和RLogic[7]进行了比较;(ii)基于gnn的全传播方法CompGCN[38]和渐进传播方法NBFNet[56]和RED-GNN[53]。R-GCN[32]在这里没有进行比较，因为它比CompGCN[38]差得多。如[53,56]所示，GraIL[36]和CoMPILE[25]难以处理具有许多实体的转导KGs，因此在此设置中不进行比较。这些基线的结果摘自他们的论文或由他们的官方代码复制。缺少RLogic的结果是由于缺乏源代码。

结果。AdaProp与转换推理方法的比较见表2。首先，基于gnn的方法可以同时捕获KGs中的结构和语义信息，总体上优于非基于gnn的方法。其次，渐进式传播方法，如NBFNet和REDGNN，优于完全传播方法CompGCN，特别是在较大的KGs上，如WN18RR、FB15k237、NELL-995和YAGO3-10。相比之下，AdaProp在WN18RR、NELL-995和YAGO3-10的所有基准上都取得了领先的性能，在FB15k237上略微优于nbnet。此外，AdaProp在较小的KGs Family和UMLS上也能很好地发挥竞争性能。为了进一步研究AdaProp学习的传播路径的优越性，我们分析了以下内容的性质。

Property of propagation path.

定量分析传播路径的性质,我们将介绍以下指标,即目标的比例超过实体,表明性能传播步骤:

我们在图3中比较了不同基于gnn的推理方法在不同传播步数𝐿下的值ToE(𝐿)和MRR性能。这里使用的是WN18RR和NELL-995。如图所示，当𝐿> 2时，CompGCN在WN18RR上快速下降，而在NELL-995上不上升，因为它的ToE(𝐿)是固定的且非常小。当𝐿增加时，它很容易出现过平滑问题[28]，并且很快就会耗尽内存。相比之下，RED-GNN和nbbfnet通过捕获更长的信息，性能从𝐿=2提高到𝐿=5。但当涉及的实体太多时，它们就会陷入𝐿>5。此外，在相同的传播路径设计下，RED-GNN和nbbfnet在此具有相似的性能曲线。对于AdaProp，在更深的传播步骤中，随着ToE的增大(𝐿)，性能不断得到提高。深度传播路径的好处可以归因于更大的传播步长和更深的GNN模型(我们在附录C.6中提供了更多细节)。AdaProp在更大的𝐿处具有更大的ToE(𝐿)，与其他方法相比，可以缓解过度平滑的问题。

4.1.2 Inductive setting

数据集。接下来[36,53]，我们使用WN18RR、FB15k237和NELL-995的相同子集(各4个版本，共12个子集)，其中每个子集具有不同的训练集和测试集分割。我们请读者参阅[36,53]了解详细的分裂和统计数据。

基线。所有在训练中学习实体嵌入的推理方法(ConvE [11]， QuatE [52]， RotatE [34]， MINERVA [9]， CompGCN[38])都不能在这种情况下工作。因此，我们将AdaProp与非gnn方法进行比较，这些方法学习没有实体嵌入的规则，即RuleN [26]， NeuralLP[46]和DRUM[31]。对于基于gnn的方法，我们以GraIL[36]、CoMPILE[25]、REDGNN[53]和nbbfnet[56]为基准。这里没有比较RNNLogic[30]和RLogic[7]，因为在这种设置中缺乏源代码和报告的结果。我们遵循[53]来评估目标答案实体在所有负面实体中的排名，而不是采用[36]中随机抽样的50个负面实体。

结果。如表3所示，约束传播方法GraIL和CoMPILE虽然具有归纳推理能力，但其性能远不如渐进式传播方法RED-GNN和nbbfnet。在GraIL和CoMPILE的约束范围内学习的模式不能很好地推广到不可见的KG。AdaProp在所有拆分版本的不同数据集中始终表现最佳或次佳。这表明，学习到的自适应传播路径可以推广到训练过程中看不到实体的新KG，从而获得较强的归纳推理能力。

4.1.3 Running time.

AdaProp的一个优点是，由于实体数量的减少，它的计算成本更低。在这一部分中，我们比较了不同方法的运行时间。

我们在图4中展示了不同基于gnn的方法在换能型数据WN18RR和感应型数据FB15k237-v1上的学习曲线。首先，全传播方法CompGCN是最慢的方法，因为它涉及的实体数量最多。其次，约束传播方法，如GraIL和CoMPILE，在归纳设置下速度很慢，因为它们的子图提取过程是昂贵的。使用更复杂的消息传递函数编译甚至比GraIL还要慢。

4.2 Understanding the sampling mechanism

在本节中，我们将从四个方面对采样机制进行评估，即不同采样策略的比较、可学习采样分布的重要性、不同学习策略的比较以及采样实体的影响.评估基于具有MRR度量的转导数据集WN18RR和具有Hit@10度量的感应数据集FB15k237-v1。

4.2.1 Sampling strategy.

在这一部分中，我们比较了2.2节中讨论的采样策略(设计细节见附录B.3)，即节点智能采样 node-wise sampling、层智能采样layer-wise sampling和子图采样 subgraph sampling，以及Eq.(4)中EI(𝐿)、ToE(𝐿)和测试性能的增量采样策略。为了公平的比较，我们保证不同的变体具有相同的传播步骤𝐿和相似的实体数量，即EI(𝐿)。

如表4所示，无论在学习设置还是非学习设置下，增量采样都优于其他采样策略。成功的原因是通过保留先前采样的实体，获得了更大的ToE(𝐿)。节点智能和层智能采样的性能更差，因为那里的采样是不受控制的。由于目标实体离查询实体很近，子图采样通过在查询实体周围的相关局部区域内传播，相对而言优于节点和层采样。

4.2.2 Importance of learning

为了说明学习的必要性，我们将3.3节中相同的采样分布和学习策略应用于节点智能采样和层智能采样。子图抽样很难学习到所提出的抽样分布，因此在这种情况下不进行比较。通过比较表4的上半部分和下半部分，我们观察到学习对于所有三种采样策略都很重要。由于实体表示可用于度量不同实体的语义相关性，因此参数化采样分布按比例𝑔(𝑒𝑜;(z)有助于确定有希望的目标，增加ToE(𝐿)，从而导致更好的性能。总的来说，在表4的抽样方法中，具有可学习抽样分布的增量抽样是最好的选择

4.2.3 Learning strategies

在这一部分中，我们比较了学习策略的变体。除了第3.3.2节中介绍的直通估计器(ST)外，另一种常见的离散变量梯度估计器是REINFORCE[27,41]，其中梯度通过对数技巧(称为REINFORCE)反向传播。或者，也可以将Eq.(3)中的优化问题形成为双级问题(称为bi-level)，其中采样器参数通过对验证数据的损失进行优化，并交替使用模型参数进行更新。没有优化器的随机采样器(命名为random)被包括作为参考基线。

四种学习策略的评价结果如图5所示。首先，与随机采样器相比，Bi-level、REINFORCE和ST的三个学习分布都更好，再次验证了学习在采样时的重要性。其次，由于估计量的方差较大，强化的学习曲线不稳定。第三，ST估计器在单级优化中优于其他变量，具有更高的任意时间性能。

4.2.4 Influence of K

如第3.2节所述，采样实体的数量𝐾限制了传播路径中涉及的实体的数量。为了弄清楚𝐾的影响，我们在图6中展示了不同𝐾相对于不同传播深度𝐿的性能。如图所示，当𝐾非常小时，由于目标实体覆盖率也很小，结果比无采样基线(RED-GNN)差。增大𝐾时，性能趋于较好。然而，采样更多实体所获得的性能收益将逐渐变得微不足道，甚至更差，特别是对于较大的𝐿。这意味着更多与查询无关的信息将包含在更大的𝐾和𝐿中。此外，更大的𝐾会增加培训成本。因此，𝐾应该选择一个适中的值。

4.3 Case study: adaptive propagation path

在第3.3节中，我们声称抽样分布是语义感知的。为了证明这一点，我们计算了不同查询关系在传播路径的采样边缘中的关系类型的数量。我们在图7中绘制了两个语义友好数据集(即Family和FB15k237)上关系类型的比率作为热图。特别地，由于FB15k237中有237个关系，我们在图7(c)和图7(d)中绘制了10个与“film”相关的关系。我们比较了渐进式传播方法(NBFNet和RED-GNN具有相同的范围)和AdaProp的传播路径。

图7:传播路径中关系类型比率的热图。行是不同的查询关系，列是所选边中的关系类型。对于FB15k237，我们在这里只显示了10个与“film”相关的选定关系

首先，如引言所述，渐进式传播方法忽略了局部邻域和查询关系之间的语义相关性。因此，图7(a)和图7(c)中用于不同查询关系的不同行是相同的。相比之下，图7(b)和图7(d)中的热图对于不同的查询关系是不同的。其次，更频繁的关系类型是语义感知的。对于图7(b)中的热图，我们观察到，当查询关系为兄弟时，颜色较深的列都是男性，即兄弟、侄子和叔叔。当查询关系为侄女时，颜色较深的列都是女性，即阿姨和侄女。对于图7(d)中的热图，前四个关系是关于电影奖项的，后六个关系是关于电影类别的。因此，该图显示了这些关系的两组。以上证据表明AdaProp确实可以学习到语义感知的传播路径。

此外,我们想象AdaProp和进步的范例传播路径传播两种不同的方法查询𝑞1 =(𝑒𝑞,𝑟1,?)和𝑞2 =(𝑒𝑞,𝑟2,?)在图8中(附录)更多的例子在图9中,具有相同的查询实体𝑒𝑞但不同的查询关系(𝑟1≠𝑟2)FB15k237-v1。如图所示，AdaProp学习到的𝑞1和𝑞2两种传播路径有明显的区别。但对于渐进传播方法，它们是相同的，只是边权不同。此外，AdaProp的传播路径具有更少的实体。这里的可视化案例进一步证明了AdaProp确实可以学习与查询相关的传播路径，并且是实体高效的。

总结

在本文中，我们提出了一种新的基于gnn的KG推理方法，称为AdaProp。与现有基于gnn的手工设计传播路径的方法不同，AdaProp在消息传播过程中学习自适应传播路径。AdaProp包含两个重要组成部分，即一种增量采样策略，该策略可以在涉及实体的线性复杂性下保留附近目标和分层连接;另一种基于学习的采样分布，可以在传播和采样器过程中识别语义相关的实体，并与GNN模型联合优化。在几个基准数据集上的经验结果证明了AdaProp通过学习自适应传播路径的优越性。研究表明，增量采样优于其他采样策略，利用直通式梯度估计器学习采样分布是重要而有效的。对学习传播路径的实例研究表明，所选择的实体是语义感知的和查询依赖的。

A DETAILS OF WORKS IN THE LITERATURE

A.1 Summary of MESS(·) and AGG(·)

A.2 Discussion on constrained propagation

B DETAILS OF THE SAMPLING METHOD

详细的抽样方法

B.1 Augmentation with inverse relations

B.2 Proofs of propositions

B.3 Adapting sampling methods for KG

B.4 Implementation of ST estimator

C FURTHER MATERIALS OF EXPERIMENTS

C.1 Hop distributions of datasets

我们总结了表6中最大的四个kg的测试查询的距离分布，这里，查询三元组(𝑒𝑞，𝑟𝑞，𝑒𝑎)的距离计算为从训练三元组连接𝑒𝑞和𝑒𝑎的最短路径的长度。如图所示，大多数应答实体都靠近查询实体，即在查询实体的3跳邻居内。

C.2 Hyper-parameters

我们选择最优的超参数进行评估，基于MRR度量或Hit@10度量在转导设置或诱导设置的验证集。我们在表7中提供了𝐿、𝐾、和批大小的超参数。我们观察到(1)在大多数情况下，当𝐿≥6时，我们有更多的传播步长。(2)在换能器设置下，由于kg较大，𝐾的值较大。但在归纳设置中，𝐾的值通常很小。这意味着𝐾不是尽可能的大。更多不相关的实体将影响性能。(3)对数据的选择没有太大的规律性，这取决于具体的kg。

C.3 Hit@1 results of inductive reasoning

C.4 Influence of temperature

此外，我们在第4节中评估了不同传播深度𝐿和实体数量𝐾的影响。我们在表9中展示了不同温度下的性能。可以看出，不同的选择对不同数据集的影响都不高。这意味着采样信号是稳定的，并且可以通过可学习的采样权值进行调整。

C.5 Parameter size

参数大小如表10所示。可以看出，AdaProp是参数高效的，尽管它比其他基于gnn的模型有更大的传播步骤，并且有额外的采样器参数。由于AdaProp没有实体嵌入，所以参数的数量比其他的要少得多。

C.6 Importance of deeper propagation step

在第4.1.1节中，我们将更深的传播路径的更好性能归因于远程信息以及更深的GNN模型。在这里，我们通过显式解耦来比较这两个因素的影响。在表11中，我们通过交替增加gnn层数或每行传播路径的深度来展示渐进式传播方法RED-GNN的性能。通过重复最后一个传播实体，即V𝐿+1:= V𝐿，得到更深的gnn层𝐿+1的传播路径𝐿。例如，2-depth的传播路径意味着消息的传播被限制在最多2跳的邻域内，即使使用3层GNN，消息也不能进一步传播。从加粗的逐行性能改进数字可以看出，更大的传播深度比更深的gnn层的影响更显著。基于上述分析，我们得出结论，远程信息的影响比更深层次的模型更重要。

C.7 Visualization of propagation paths

在第3.3节中，我们声明抽样分布与查询相关的表示相关。我们把更多的例子的传播路径AdaProp(𝐿= 5,𝐾= 10)和REDGNN(𝐿= 5)为两个不同的查询𝑞1 =(𝑒𝑞,𝑟1,?)和𝑞2 =(𝑒𝑞,𝑟2,?)在图9中,具有相同的查询实体𝑒𝑞但不同的查询关系(例如,𝑟1≠𝑟2)FB15k237-v1数据集。如图所示，AdaProp学习到的𝑞1和𝑞2两种传播路径有明显的区别。但对于渐进传播方法，它们是相同的，只是边权不同。以上可视化案例进一步证明了AdaProp确实可以学习与查询相关的传播路径。

我们还策划学传播路径g𝐿(𝜽)𝐿= 2,𝐾= 2和家人在图10的数据集。对于查询(2720，𝑠𝑜𝑛，?)，传播路径将查找谁是2720的父亲或母亲。对于查询实体相同的(2720，𝑛𝑒𝑝𝑒𝑤，?)，传播路径倾向于选择伯父伯母。这一观察结果表明，学习的传播路径是语义感知的。此外，由于AdaProp使用增量采样，因此在传播步骤中保留了前面步骤中的所有实体。由于其易于处理和可解释的推理程序，这种设计可以为gnn提供进一步的解释。

C.8 Distributions of degree and running time

在这里，我们给出了度分布和运行时间分布如下表12和表13所示。将std与平均值进行比较，我们发现不同查询的运行时间变化不大。基于命题1，采样实体的数量是线性有界的。因此，即使出现集线器节点，运行时间仍在控制之中。

C.9 Detailed values of TC(𝐿) and EI(𝐿)

这里，我们提供了Eq.(4)中TC(𝐿)和EI(𝐿)的值。如下表14和表15所示。由于AdaProp进行了采样，所以TC值比基线值要小。然而，在所有情况下，差距并不大(< 10%)。

C.10 Discussion on samples that get improved with larger steps

我们增加了对样本的分析，这些分析随着步骤的增加而得到改善。具体来说，我们选择在步骤4中没有正确预测但在𝐿> 4的所有步骤中都正确预测的样本(𝑒𝑞，𝑟𝑞，𝑒𝑎)(记为第4组)。判断样本是否正确预测的标准是基于𝑒𝑎的排名是否≤10。我们对步骤5和6(表示为第5组和第6组)执行相同的步骤。

在上面的表16中，我们给出了每组样本的数量，以及WN18RR上最短路径距离的分布。我们观察到(1)随着𝐿值的增加(用n个样本值表示)，在较大步长下改进的样本数量越来越少;(2)比较最短距离，第6组的距离样本比第5组的距离样本要远，第5组与第4组的距离样本相同。这些结果表明，在较大步长时得到改善的样本主要是那些具有较大最短路径距离的样本。