R-GCN论文阅读

zzfive

已于 2022-10-07 15:04:28 修改

阅读量775

点赞数

分类专栏：知识图谱嵌入/建模论文阅读文章标签： r语言深度学习人工智能

于 2022-09-04 22:09:04 首次发布

本文链接：https://blog.csdn.net/zzfive/article/details/126632476

版权

论文阅读同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

知识图谱嵌入/建模

2 篇文章 0 订阅

订阅专栏

链接：Modeling Relational Data with Graph Convolutional Networks

摘要

知识图支持各种各样的应用，包括问题回答和信息检索。尽管在它们的创建和维护上投入了巨大的努力，但即使是最大的(例如Yago、DBPedia或Wikidata)仍然不完整。本论文引入Relational Graph Convolutional Networks(R-GCNs)，并将其应用于两个标准的知识库完成任务：链接预测(恢复丢失的事实，即主语-谓语-宾语三元组)和实体分类(恢复丢失的实体属性)。RGCNs与最近一类在图上操作的神经网络有关，是专门为处理现实知识库的高度多关系数据特征而开发的。实验证明了R-GCNs作为实体分类的独立模型的有效性。进一步表明，通过使用编码器模型来积累关系图中多个推理步骤的证据，用于链路预测的因子分解模型(如DistMult)可以得到显著改进，这表明与仅使用解码器的基线相比，FB15k-237有29.8%的大幅改进。

简介

知识库组织和存储事实知识，赋能多种应用，包括问题回答和信息检索。即使是最大的知识库(如DBPedia、Wikidata或Yago)，尽管在维护上投入了巨大的努力，但仍然是不完整的，而且缺乏覆盖会损害下游应用程序。预测知识库中缺失的信息是统计关系学习(SRL)研究的重点。

按照前面关于SRL的工作，我们假设知识库存储形式为(subject、predicate、object)的三元组的集合。考虑,例如,三元组 (Mikhail Baryshnikov, educated at, Vaganova Academy)中，Baryshnikov和Vaganova Academy是实体，educated_at视为关系。另外，假设实体是用类型标记的(Vaganova Academy标记为university)。将知识库表示为有向标记的多重图很方便，其中实体对应于节点和由标记边编码的三元组（参见图 1）。
在这里插入图片描述

图1 一个知识库片段：节点是实体，标注了类型的边是关系，节点也标注了对应的类别；其中红色显示的边和节点标签是需要推断的缺失信息。

考虑了SRL的两个基本任务:链接预测(恢复丢失的三元组)和实体分类(为实体分配类型或类别属性)。在这两种情况下，可以预期许多丢失的信息将蕴含在通过邻域结构编码的图中–如知道 Mikhail Baryshnikov 在 Vaganova Academy 接受教育意味着 Mikhail Baryshnikov 应该有标签 person，并且三元组 (Mikhail Baryshnikov, lived in, Russia)必须属于知识图谱。按照这种直觉，本论文为关系图中的实体开发了一个编码器模型，并将其应用于两个任务。

本论文提出的实体分类模型，类似于GCN(Semi-Supervised Classification with Graph Convolutional Networks)，在图中的每个节点使用softmax分类器。分类器采用关系图卷积网络 (R-GCN) 提供的节点表示并预测标签。该模型，包括 R-GCN 参数，是通过优化交叉熵损失来学习的。

本论文的链接预测模型可以被认为是一个自动编码器，由（1）编码器：一个 R-GCN 产生实体的潜在特征表示，和（2）解码器：一个利用这些表示来预测标记边缘的张量分解模型。虽然原则上解码器可以依赖任何类型的分解（或通常任何评分函数），但我们使用最简单和最有效的分解方法之一：DistMult(Embedding Entities and Relations for Learning and Inference in Knowledge Bases)。观察到，本论文的方法在标准基准上取得了有竞争力的结果，在其他基准中表现优于直接优化分解（即 vanilla DistMult）。当考虑更具挑战性的FB15k-237数据集时，这种改进尤其大；这一结果表明，在R-GCNs中对邻域进行显式建模有利于知识库中缺失事实的恢复。

主要贡献如下。本论文当时是第一个证明GCN框架可以应用于关系数据建模，特别是链接预测和实体分类任务。其次，引入了参数共享技术和加强稀疏性约束，并利用它们将R-GCNs应用于具有大量关系的多重图。最后，以DistMult为例表明，通过在关系图中执行多个信息传播步骤的编码器模型来丰富它们，可以显著提高因数分解模型的性能。

神经关系建模

引入以下表示法：将有方向、有标记的多重图表示为 $G = (V, E, R)$ ，节点(实体) $v_i∈V$ ，标记边(关系) $v_i, R, v_j)∈E$ ，其中 $r \in R$ 是一种关系类型。

关系图卷积网络

本论文模型主要是作为在局部图邻域上操作的GCNs的扩展到大规模关系数据。这些方法和相关的方法，如图神经网络，可以被理解为简单可微消息传递框架的特殊情况：
在这里插入图片描述
其中 $h_i^{(l)}∈R^{d^{(l)}}$ 是神经网络第 $l$ 层节点 $v_i$ 的隐状态， $d^{(l)}$ 是该层的维度。 $g_m(·,·)$ 形式的传入消息被累积并通过元素激活函数 $σ (\cdot)$ 传递，例如 ReLU(·) = max(0,·)。 $M_i$ 表示节点 $v_i$ 的传入消息集合，通常选择与传入边集合相同。 $g_m(·,·)$ 通常被选择为一个(特定于消息的)类神经网络函数或简单的线性变换 $g_m(h_i, h_j) = Wh_j$ ，带有权重矩阵 $W$ ，如在Semi-Supervised Classification with Graph Convolutional Networks中。

这种类型的转换已被证明非常有效地积累和编码来自局部、结构化邻域的特征，并导致了在图分类(Convolutional Networks on Graphs for Learning Molecular Fingerprints)和基于图的半监督学习(Semi-Supervised Classification with Graph Convolutional Networks)等领域的显著改进。

受这些架构的启发，本论文定义了以下简单的传播模型，用于计算关系（有向和标记）多图中由 vi 表示的实体或节点的前向更新：
在这里插入图片描述
其中 $N_i^r$ 表示节点 $i$ 在 $r \in R$ 的关系下的邻居指标集。 $c_{i,r}$ 是一个特定于问题的归一化常数，可以预先学习或选择（例如 $c_{i,r}= |N_i^r|$ ）。

直观的说，公式(2)变换后的相邻节点特征向量进行归一化和的累加。与常规的GCNs不同，引入了特定于关系的转换，即依赖于边缘的类型和方向。为了确保第 $l + 1$ 层节点的表示也能被第 $l$ 层对应的表示所告知，向数据中的每个节点添加了一个特殊关系类型的单个自连接。请注意，除了简单的线性消息转换外，还可以选择更灵活的函数，比如多层神经网络(以牺牲计算效率为代价)。

神经网络层更新包括对图中的每个节点并行计算公式(2)。在实际应用中，利用稀疏矩阵乘法可以有效地实现公式(2)计算，避免了邻域上的显式求和。可以堆叠多个层，以允许跨多个关系步骤的依赖关系。本论文将这种图编码器模型称为关系图卷积网络(R-GCN)。R-GCN模型中单个节点更新的计算图如图2所示；收集来自相邻节点（深蓝色）的激活（d 维向量），然后针对每种关系类型单独转换（对于入边和出边）；结果表示（绿色）在（归一化）总和中累积并通过激活函数（例如 ReLU），这种每个节点的更新可以与整个图中的共享参数并行计算。
在这里插入图片描述

图2 R-GCN模型中单个图节点/实体的更新计算图(红色)

正则化

将公式(2)应用于高度多关系数据的一个核心问题是参数的数量随着图中关系的数量的快速增长。在实践中，这很容易导致对稀有关系的过度拟合和非常大的模型。

为了解决这个问题，本论文引入了两种单独的方法来规范R-GCN层的权重： basis-decomposition和 block-diagonal-decomposition。对于basis-decomposition，每个 $W_r^{(l)}$ 定义如下：
在这里插入图片描述
即，作为basis转换 $V_b^{(l)}∈R^{d(l+1) ×d(l)}$ 的线性组合，其系数为 $a_{rb}^{(l)}$ ，系数只与 $r$ 有关。在block-diagonal-decomposition中设每个 $W_r^{(l)}$ 通过一组低维矩阵的直和来定义:

从而， $W_r^{(l)}$ 是块对角矩阵， $diag(Q_{1r}^{(l)},...,Q_{Br}^{(l)})$ ，其中 $Q_{br}^{(l)}∈R^{(d^{(l+1)}/B)×(d^{(l)}/B)}$ 。

basis-decomposition公式(3)可以看作是不同关系类型之间的有效权值共享形式，而basis-decomposition公式(4)可以看作是对每种关系类型的权值矩阵的稀疏性约束。块分解结构编码了一种直觉，即潜在的特征可以被分组成一组变量，这些变量在组内比在组间耦合更紧密。这两种分解都减少了高度多关系数据(如现实的知识库)需要学习的参数数量。同时，期望基础参数化可以减轻对稀有关系的过度拟合，因为稀有关系和更频繁的关系之间共享参数更新。

整体的R-GCN模型采用如下形式：按照公式 (2) 中的定义堆叠 L 层——前一层的输出是下一层的输入。如果不存在其他特征，则可以选择第一层的输入作为图中每个节点的唯一独热向量。对于块表示，通过一个线性变换将这个单热点向量映射为一个密集表示。虽然在本论文工作中只考虑这种无特征的方法，但注意到，GCN表明，这类模型有可能使用预定义的特征向量(例如，与特定节点关联的文档的词袋描述)。

实体分类

对于节点(实体)的(半)监督分类，简单地堆叠公式 (2) 的 R-GCN 层，在最后一层的输出上使用 softmax(·) 激活（每个节点）。最小化所有标记节点上的交叉熵损失（同时忽略未标记节点）：
在这里插入图片描述
其中 $y$ 是具有标签的节点索引集， $h_{ik}^{(L)}$ 是第 $i$ 个标签节点的网络输出的第 $k$ 项。 $t_{ik}$ 表示其各自的真实标签。在实践中，使用(全批)梯度下降技术训练模型。实体分类模型的示意图如图3a所示。
在这里插入图片描述

图3 (a)描述具有每个节点损失函数的实体分类R-GCN模型；(b)使用R-GCN编码器(由全连接/密集层穿插)和DistMult解码器的链路预测模型，该解码器采用隐藏节点表示对，并为图中的每条(潜在)边产生一个分数。损失按每条边计算。

链接预测

链接预测处理的是对新事实(即三元组(主体、关系、客体))的预测。在形式上，知识库由一个有向标记图 $G = (V, E, R)$ 表示；其中不是边的全部集合 $E$ ，而是一个不完全子集 $\hat{E}$ 。任务是将分数 $f (s, r, o)$ 分配给可能的边 $(s, r, o)$ ，以确定这些边属于 $E$ 的可能性。

为了解决这个问题，引入了图自编码模型，由一个实体编码器和一个评分函数(解码器)组成。编码器将每个实体 $v_i ∈ V$ 映射到一个实值向量 $e_i ∈ R^d$ 。解码器根据顶点表示重建图的边缘；换句话说，它通过一个函数 $s:R^d × R × R^d→R$ 计算( $s u bj ec t, re l a t i o n, o bj ec t$ )三元组的分数。现有的大多数链接预测方法(例如张量方法和神经因子分解方法)都可以在这个框架下解释。本论文工作的关键区别特征是对编码器的依赖。尽管大多数先前的方法对在训练中直接优化的每个 $v_i ∈ V$ 使用单个实值向量 $e_i$ ，但本论文通过一个R-GCN编码器 $e_i = h_i^{(L)}$ 计算表示。全链接预测模型如图3b所示。

在实验中，使用DistMult分解作为评分函数，众所周知，当单独使用时，该函数在标准链路预测基准上表现良好。在 DistMult 中，每个关系 $r$ 都与对角矩阵 $R_r ∈ R^{d×d}$ 关联，并且三元组 $(s, r, o)$ 得分按如下计算：
在这里插入图片描述
与之前的因式分解工作一样，用负采样来训练模型。对于每一个观察到的例子，采样 $ω$ 个负例。通过随机破坏每个正例的主体或客体来进行抽样；优化交叉熵损失，以推动模型的对观察到的正例三元组得分高于负例：
在这里插入图片描述
其中 $T$ 是真实和损坏的三元组的集合， $l$ 是logistic sigmoid函数， $y$ 是一个指示器，对于正的三元组 $y = 1$ ，对于负的三元组 $y = 0$ 。

经验性评估

实体分类实验

为了推断，例如，一个实体的类型(例如，人或公司)，一个成功的模型需要推断该实体与其他实体的关系。

数据集

在资源描述框架 (RDF) 格式的四个数据集(AIFB、MUTAG、BGS 和 AM)上评估我们的模型。这些数据集中的关系不一定编码为定向的主客关系，但也用于编码给定实体的特定特征的存在或不存在。在每个数据集中，要分类的目标是表示为节点的一组实体的属性。数据集的准确统计数据见表1。有关数据集的更详细描述，请参阅A collection of benchmark datasets for systematic evaluations of machine learning on the Semantic Web。删除了用于创建实体标签的关系：employs和affiliation；MUTAG中的isMutagenic；BGS中的hasLithogenesis；AM中的objectCategory和material。
在这里插入图片描述

表1 每个数据集的实体、关系、边和类的数量以及标记实体的数量。Labeled表示有标签且要分类的实体子集

Baselines

作为实验的基线，比较了RDF2Vec嵌入、Weisfeiler-Lehman核，以及手工设计的特征提取器(Feat) 。Feat从每个标记实体的入度和出度（每个关系）组装一个特征向量。 RDF2Vec 在标记图上提取游走，然后使用 Skipgram模型进行处理以生成实体嵌入，用于后续分类。所有实体分类实验都是在拥有64GB内存的CPU节点上运行的。

结果

表2中的所有结果都是关于训练/测试基准拆分的报告；留出训练集的20%作为超参数调优的验证集。对于R-GCN，报告了具有16个隐藏单元(AM为10)的2层模型的性能，基函数分解(公式3)，并使用学习率为0.01的Adam优化器训练了50个epoch。归一化常数取 $c_{i,r} = |N^r_i|$ 。补充材料中提供了关于(基线)模型和超参数选择的进一步细节。
在这里插入图片描述

表2 实体分类结果的准确性(平均超过10轮运行)为一个基于特征的基线(详见正文)，WL ， RDF2Vec，以及R-GCN(本工作)

本论文模型在AIFB和AM上实现了最先进的结果。为了解释MUTAG和BGS在性能上的差距，理解这些数据集的性质是很重要的。MUTAG是一个分子图的数据集，它后来被转换为RDF格式，其中的关系要么表示原子键，要么仅仅表示某一特征的存在。BGS是一个具有分层特征描述的岩石类型数据集，该数据集同样被转换为RDF格式，其中关系编码了某个特征或特征层次的存在。MUTAG和BGS中的标记实体只能通过编码某一特征的高度集线器节点连接。

推测，来自相邻节点的消息聚合的归一化常数的固定选择是造成这种行为的部分原因，对于高度节点来说，这可能特别成问题。克服这一限制的一种潜在方法是引入注意力机制，即用数据相关的注意力权重 $a_{ij,r}$ 替换归一化常数 $\frac{1}{c_{i,r}}$ ，其中 $\sum_{i,r} a_{ij,r} = 1$ 。希望这是未来研究的一个有希望的途径。

链接预测实验

R-GCNs 作为关系数据的有效编码器；将编码器模型与评分函数（称为解码器，参见图 3b）结合起来，对知识库中链接预测的候选三元组进行评分。

数据集

链接预测算法通常在FB15k(关系数据库Freebase的一个子集)和WN18 (WordNet的一个子集，包含单词之间的词汇关系)上进行评估。在两个数据集中都观察到了一个严重的缺陷：存在逆三元组对，即在训练集上 $t = (e_1, r, e_2)$ 和在测试集中 $t' = (e_2, r^{−1}, e_1)$ 。这将大部分预测任务减少到记忆受影响的三元组对。一个简单的基线 LinkFeat 在观察到的训练关系的稀疏特征向量之上使用线性分类器，其性能大大优于现有系统。为了解决这个问题，提出了一个简化的数据集FB15k-237，去掉了所有这些逆三元组对。因此，本论文选择FB15k-237作为主要评估数据集。由于FB15k和WN18仍然被广泛使用，也使用引入的分割方法将这些数据集上的结果包括进来。
在这里插入图片描述

表3 三个数据集的实体和关系类型的数量

Baselines

两个实验的共同基线是直接优化 DistMult。众所周知，这种分解策略在标准数据集上表现良好，此外，它对应于本论文模型的一个版本，其中固定实体嵌入代替了R-GCN 编码器。作为第二个基线，添加基于简单邻居的LinkFeat(Modeling Relation Paths for Representation Learning of Knowledge Bases)算法。

进一步比较了 ComplEx和 HolE，这是 FB15k 和 WN18 的两个最先进的链路预测模型。 ComplEx通过将DistMult推广到复杂域来促进不对称关系的建模，而HolE用循环相关替换向量矩阵乘积。最后，包括与两种经典算法的比较——CP和TransE。

结果

使用两个常用的评估指标提供结果：平均倒数排名 (MRR) 和H@n。这两个指标都可以在原始和过滤设置中计算；本论文报告过滤后的和原始的MRR（过滤后的 MRR 通常被认为更可靠），以及n为1、3 和 10 处过滤的H@n。

评估各个验证拆分的超参数选择。找到了一个归一化常数，定义为 $c_{i,r} = c_i = \sum_r |N_i^r|$ — 换句话说，跨关系类型应用 — 以达到最佳效果。对于 FB15k 和 WN18，使用具有两个基函数的基分解（方程式 3）和具有 200 维嵌入的单个编码层来报告结果。对于 FB15k-237，发现块分解（方程 4）表现最好，使用块尺寸为 5×5 的两层和 500 维嵌入。通过在归一化之前应用adge dropout来规范编码器，self-loops的丢弃率为0.2，其他边丢弃率为0.4。使用边缘丢弃使我们的训练目标类似于去噪自动编码器；将 l2 正则化应用于解码器，惩罚为 0.01。

使用Adam优化器，学习率为0.01。对于基线和其他因数分解，发现除了FB15k-237上的维度外，来自Complex embeddings for simple link prediction的参数工作得最好，尽管为了使系统具有可比较性，保持了相同的负样本数量(即ω = 1)。对基线和本论文模型都使用了全批优化。在FB15k上，相对于R-GCN模型的设计，逆关系形式的局部上下文有望主导因子分解的性能。为了更好地理解差异，在图 4 中绘制了最佳R-GCN模型和基线 (DistMult) 的FB15k性能作为与所考虑的三元组中的实体相对应的节点度数的函数（即主题的度数平均值和对象实体）。可以看出，本论文模型对于上下文信息丰富的高度节点性能更好。观察到这两个模型是互补的，建议将两者的优势结合到一个单一的模型中，我们称之为R-GCN+。在本地和远程信息都可以提供强大解决方案的FB15k和 WN18上，预计R-GCN+的性能将优于每个单独的模型。在局部信息不太显着的FB15k-237上，预计组合模型不会显着优于纯R-GCN模型。为了测试这一点，使用经过训练的R-GCN模型和单独训练的DistMult分解模型来评估集成(R-GCN+)： $f (s, r, t)_{R-GCN+} =αf (s, r, t)_{R- GCN} + (1 − α)f (s, r, t)_{DistMult}$ ，在 FB15k 开发数据上选择 $α = 0.4$ 。

在这里插入图片描述

图4 R-GCN和DistMult在FB15k验证数据上的平均倒数秩(MRR)是节点度(主体和客体的平均值)的函数

在表4中，评价了FB15k和WN18上的R-GCN模型和组合模型(R-GCN+)。在FB15k和WN18数据集上，R-GCN和R-GCN+都优于DistMult基线，但像所有其他系统一样，在这两个数据集上的性能低于LinkFeat算法。该基线的强大结果突出了反向关系对对这些数据集的高性能解决方案的贡献。有趣的是，对于 FB15k，RGCN+ 比 ComplEx 产生更好的性能，即使 R-GCN 解码器 (DistMult) 与 ComplEx 相比没有明确地对关系中的不对称性建模。

这表明将 R-GCN 编码器与 ComplEx 评分函数（解码器）相结合可能是未来工作的一个有希望的方向。评分函数的选择与编码器的选择是正交的；原则上，任何评分函数或分解模型都可以作为解码器合并到本论文的自编码器框架中。
在这里插入图片描述

表4 Freebase和WordNet数据集的结果；R-GCN+表示R-GCN和DistMult的集成

在表5中，展示了FB15k-237的结果，其中(如前面讨论的)逆关系对被删除，LinkFeat基线无法泛化。在这里，R-GCN模型比DistMult基线高出29.8%，突出了单独编码器模型的重要性。正如之前的分析所预期的那样，R-GCN和R-GCN+在这个数据集上表现出相似的性能。尽管依赖于DistMult解码器，但R-GCN模型在没有编码器的情况下表现出相对较弱的性能，但与其他分解方法相比，R-GCN模型仍具有优势。
在这里插入图片描述

表5 FB15k-237上的结果，FB15k 的简化版本，删除了有问题的反向关系对

结论

本论文介绍了关系图卷积网络(R-GCNs)，并在两个标准统计关系建模问题中证明了它们的有效性:链接预测和实体分类。对于实体分类问题，已经证明R-GCN模型可以充当具有竞争力的、端到端可训练的基于图的编码器。对于链路预测，以DistMult分解作为解码组件的R-GCN模型优于直接优化分解模型，在标准链路预测基准上取得了有竞争力的结果。事实证明，使用R-GCN编码器丰富分解模型对于具有挑战性的 FB15k-237数据集特别有价值，比仅解码器的基线提高了29.8%。

有几种方法可以扩展本论文工作。例如，可以考虑将图自编码器模型与其他分解模型结合使用，例如 ComplEx ，它更适合建模非对称关系。在R-GCN中集成实体特征也很简单，这对于链接预测和实体分类问题都是有益的。为了解决我们方法的可扩展性，探索子采样技术是值得的。最后，用依赖于数据的注意力机制取代当前对相邻节点和关系类型求和的形式是有希望的。除了建模知识库之外，R-GCN 还可以推广到关系分解模型，已被证明有效的其他应用程序（例如关系提取）。

附录：进一步的实验细节和实体分类

对于本文中描述的实体分类基准，不同出版物之间的评估过程略有不同。为了消除这些差异，以统一的方式重复基线，使用规范测试/训练数据集分割。只在训练集上进行超参数优化，在为每个基线选择超参数后，在测试集上运行单个评估。这解释了为什么本论文报告的数字与原始出版物中的数字略有不同(其中报告了交叉验证的准确性)。

对于 WL，使用来自Mustard库的Weisfeiler-Lehman子树内核的树变体。对于RDF2Vec，使用作者提供的基于Mustard的实现。在这两种情况下，为实例节点提取显式特征向量，这些特征向量由线性SVM分类。对于 MUTAG 任务，预处理只删除编码目标关系的特定三元组。

根据A collection of benchmark datasets for systematic evaluations of machine learning on the Semantic Web中最佳模型性能选择基线超参数，即WL：2（树深度），3（迭代次数）； RDF2Vec：2（WL 树深度）、4（WL 迭代）、500（嵌入大小）、5（窗口大小）、10（SkipGram 迭代）、25（负样本数）。基于 80/20 训练/验证划分数据集，性能优化 SVM 正则化常数 C ∈ {0.001, 0.01, 0.1, 1, 10, 100, 1000}。

对于R-GCN，根据验证集的性能在第一层权重 $C_{l2} ∈$ {0, 5 · $10^{−4}$ }和基函数 $B \in$ {0, 10, 20, 30, 40}的数量上选择 $l 2$ 惩罚，其中 $B = 0$ 是指不使用基函数分解。使用块分解并没有改善结果。否则，超参数选择如下：50（epochs），16（num_hidden）和 $c_{i,r} = |N^r_i |$ （归一化常数）。不使用 dropout。对于 AM，为 R-GCN 使用减少的 10 个隐藏单元来减少内存占用。