Scalable Multi-Hop Relational Reasoning for Knowledge-Aware Question Answering翻译笔记(知识感知问答、多跳关系推理)


在这里插入图片描述

论文标题:用于知识感知问答的可扩展的多跳关系推理

论文链接:https://arxiv.org/abs/2005.00646
arXiv:2005.00646v2 [cs.CL] 18 Sep 2020

摘要

已有的关于通过外部知识(如知识图谱)增强问答(QA)模型的研究,要么在模拟多跳关系时遇到困难,要么缺乏对模型预测推理的透明度。在这篇论文中,我们提出了一种新颖的知识感知方法,该方法为预训练语言模型(PTLMs)配备了一个多跳关系推理模块,名为多跳图关系网络(MHGRN)。该方法在从外部知识图中提取的子图上执行多跳、多关系推理。所提出的推理模块将基于路径的推理方法和图神经网络相结合,以实现更好的可解释性和可扩展性。我们还通过实验证明了它在CommonsenseQA和OpenbookQA数据集上的有效性和可扩展性,并通过案例研究来解释其行为。

1 简介

许多最近提出的问题回答任务不仅需要机器理解问题和上下文,还需要通过引用外部知识对实体(概念)及其关系进行关系推理(Talmor等,2019;Sap等,2019;Clark等,2018;Mihaylov等,2018)。例如,图1中的问题需要模型对提到的实体进行关系推理,即推断概念之间的潜在关系:{儿童,坐,桌子,教室}。背景知识如“儿童很可能出现在教室里”可能并不包含在问题本身中,但对人类来说是常识。
在这里插入图片描述

图1:知识感知问答的示意图。如果提供一个与ConceptNet相关的子图作为证据,CommonsenseQA的一个样例问题可以得到更好的回答。蓝色节点对应于问题中提到的实体,粉色节点对应于答案中的实体。其他节点是一些在提取子图时引入的相关实体。⋆表示正确答案。

尽管大规模预训练语言模型(PTLMs)取得了成功(Devlin等人,2019;Liu等人,2019b),但这些模型在提供可解释性预测方面还存在问题。因为它们的预训练语料库中的知识不是明确表达的,而是通过隐式学习获得的。因此,很难找到推理过程中使用的证据。

这导致许多人利用知识图谱(KGs)(Mihaylov和Frank,2018;Lin等人,2019;Wang等人,2019;Yang等人,2019)。知识图谱通过多关系边表示实体之间的关系,以便模型获取这些关系。采用知识图谱带来了可解释和值得信任的预测可能性,因为知识现在已经明确地表述出来了。例如,在图1中,关系路径(CHILD → AtLocation → CLASSROOM → Synonym → SCHOOLROOM)自然为答案SCHOOLROOM提供了证据。

一种简单的方法是直接利用知识图谱来建模这些关系路径。KagNet(林等人,2019)和MH-PGM(鲍尔等人,2018)通过从知识图谱中提取关系路径并使用序列模型对其进行编码来模拟多跳关系。在这些关系路径上应用注意力机制可以进一步提高解释性。然而,这些模型很难扩展,因为图中可能的路径数量(1)与节点数量呈多项式关系(2)与路径长度呈指数关系(见图2)。因此,一些研究者(Weissenborn等人,2017;Mihaylov和Frank,2018)只使用一跳路径,即三元组,来平衡可扩展性和推理能力。
在这里插入图片描述

图2:在Common-senseQA上提取的图中,节点数量与K跳关系路径数量之间的关系。左:路径数量与节点数量呈多项式关系。右:路径数量与跳跃次数呈指数关系。

图神经网络(GNNs)通过它们的信息传递公式具有更好的可扩展性,但通常缺乏透明度。最常用的GNNs变体,图卷积网络(GCNs)(Kipf和Welling,2017),通过聚合每个节点的邻居信息来执行信息传递,但忽略了关系类型。RGCNs(Schlichtkrull等人,2018)通过执行关系特定的聚合来扩展GCNs,使其适用于多关系图。然而,这些模型不能区分不同邻居或关系类型的重要性,因此无法为模型行为解释提供明确的关系路径。

在这篇论文中,我们提出了一种新颖的图编码架构——多跳图关系网络(MHGRN),它结合了基于路径模型和GNNs的优势。我们的模型从GNNs那里继承了可扩展性,通过保持消息传递公式来实现这一点。同时,它还享受到了基于路径模型的解释性优势,方法是引入了结构化的关联注意力机制。我们的主要动机是在单层内执行多跳消息传递,以使每个节点能够直接关注其多跳邻居,实现多跳关系推理。我们在表1中概述了知识感知问答模型的有利特性,并将MHGRN与它们进行比较。
在这里插入图片描述

表1:我们MHGRN与其他代表性的图编码模型的特性对比。

我们总结本工作的主要贡献如下:1)我们提出了MHGRN,这是一种专为多跳关系推理设计的新型模型架构,它明确地大规模建模多跳关系路径。2)我们提出了一种结构化的关系注意力机制,用于有效且可解释地建模多跳推理路径,以及其训练和推断算法。3)我们在两个问题回答数据集上进行了广泛的实验,并证明我们的模型相比知识非相关PTLMs带来了显著的改进,而且在很大程度上超过了其他图编码方法。

2 问题表述和概述部分

在这篇论文中,我们把范围限制在多选题回答的任务上,尽管它可以很容易地推广到其他知识指导的任务(例如,自然语言推理)。知识感知问答的总体范式如图3所示。正式地说,给定一个外部知识图(KG)作为知识来源和一个问题q,我们的目标是从一组给定的选项C中确定正确答案。我们将这个问题转化为测量q和每个选项a∈C之间的可信度得分,然后选择可信度得分最高的选项。

将问题q和选项a的向量表示分别记为q和a。为了衡量q和a的得分,我们首先将它们连接起来形成一个陈述向量s = [q; a]。然后,我们从外部知识图中提取一个子图G(即KagNet中的模式图(Lin等人,2019)),在s的指导下进行操作(详细信息见第5.1节)。这个上下文相关的子图被定义为一个多关系图G = (V, E, φ)。在此,V是外部知识图中实体的一个子集,只包含与s相关的那些实体。E ⊆ V × R × V 是连接V中节点的边的集合,其中R = {1, …, m} 是所有预定义关系类型的ids。映射函数 φ(i) ∶ V → T = {Eq, Ea, Eo} 将节点i ∈ V作为输入,并输出Eq如果i是在q中提到的实体,Ea如果它在a中被提及,否则为Eo。最后,我们将陈述编码为s,G编码为g,将s和g连接起来,以计算合理性分数。

3 背景:多关系图编码方法

我们把s的编码留给预训练的语言模型处理,而专注于解决如何编码图G以捕捉实体之间的潜在关系这一挑战。当前用于编码多关系图的方法主要分为两类:GNNs(图形神经网络)和基于路径的模型。GNNs通过在节点之间传递消息来编码结构化信息,直接操作图形结构,而基于路径的方法首先将图形分解为路径,然后在其上聚合特征。

使用GNNs进行图形编码。对于一个包含n个节点的图,图神经网络(GNN)以一组节点特征{h1, h2, …, hn}作为输入,并通过信息传递(Gilmer等人,2017)计算它们对应的节点嵌入{h’1, h’2, …, h’n}。因此,可以通过在节点嵌入{h’i}上进行池化来获得图G的紧凑表示:
在这里插入图片描述
作为GNNs的一个显著变体,图卷积网络(GCNs)(Kipf和Welling,2017)通过从直接邻居节点收集信息来更新节点嵌入。关系增强的图卷积网络(RGCNs)(Schlichtkrull等人,2018)将GCNs扩展到编码多关系图中,方法是为每种边类型定义关系特定权重矩阵Wr
在这里插入图片描述
其中 N i r N^r_i Nir表示节点i在关系r下的邻居。

虽然GNNs已经证明具有良好的可扩展性,但它们的推理是在节点级别进行的,这使得它们与建模路径不兼容。这个特性也阻碍了模型的决策在路径级别上变得不可解释。

基于路径的图编码模型。除了直接使用GNNs对图进行建模外,还可以将图看作是一组连接实体对的关系路径。

关系网络(RNs)(Santoro等人,2017)可以适应多关系图编码在问答设置中。RNs使用MLPs来编码图G中所有三元组(一个跳转路径),其头部实体在Q = {j | φ(j) = Eq}中,尾部实体在A = {i | φ(i) = Ea}中。然后,它对三元组嵌入进行池化,以生成如下所示的G向量。
在这里插入图片描述

在此,hj 和 hi 分别是节点 j 和 i 的特征,er 是关系 r ∈ R 的嵌入向量,⊕ 表示向量拼接。

为了进一步使 RN 具有建模非退化路径的能力,KagNet(林等人,2019)采用 LSTM 来编码问题实体和答案实体之间长度不超过 K 的所有路径。然后通过注意力机制聚合所有路径嵌入向量。

在这里插入图片描述

4 拟议的方法:多跳图关系网络(MHGRN)

本节介绍了一种新型的GNN架构——多跳图关系网络(MHGRN),该架构统一了GNN和基于路径的模型。MHGRN继承了基于路径的模型的路径级推理和可解释性,同时保持了GNN的良好可扩展性。
在这里插入图片描述

图4:我们提出的用于关系推理的MHGRN架构。MHGRN接受一个多元关系图G和一个(问题-答案)语句向量s作为输入,输出一个表示该语句可信度得分的标量。

4.1 MHGRN:模型架构

我们遵循在第3节中介绍的GNN框架,其中节点特征可以使用预训练权重进行初始化(详情请参阅附录C)。在这里,我们主要关注节点嵌入的计算。

类型特定转换。 为了让我们的模型能够感知到节点类型φ,我们首先对输入节点特征执行类型特定的线性变换:

在这里插入图片描述
其中可学习的参数U和b是特定于节点 i 的类型。

多跳消息传递。正如前面提到的,我们的动机是赋予GNN能够直接建模路径的能力。为此,我们提议直接在所有长度不超过K的关系路径上传递消息。有效的一跳关系路径集定义为:

在这里插入图片描述
我们对这些路径进行k-hop(1≤k≤K)消息传递,这是RGCNs中单跳消息传递的推广(见方程2):
在这里插入图片描述
其中 W r t W^t_r Wrt(1≤t≤K,0≤r≤m)矩阵是可学习的3,α(j,r1,…,rk,i)是一个在第4.2节中详细介绍的关注得分, d i k d^k_i dik=∑(j⋯i)∈Φk α(j⋯i)是归一化因子。{ W r k k W^k_{rk} Wrkk W r 1 1 W^1_{r1} Wr11 | 1≤ r1,…,rk≤m}矩阵可以解释为一个{m×⋯×m}k×d×d(k维关系,维度为d)的低阶近似张量,该张量为每个k跳关系分配了一个独立的变换,其中d是xi的维度。

来自不同长度路径的输入消息通过注意力机制(Vaswani等,2017)进行聚合:

在这里插入图片描述
非线性激活。最后,我们将捷径连接和非线性激活应用到输出节点嵌入中。

在这里插入图片描述
其中,V 和 V’ 是可学习的模型参数,σ是一个非线性激活函数。

4.2 结构化关系注意力

这里我们致力于有效地为所有 k 跳路径的注意力分数 α(j, r1, …, rk, i) 在公式 7 中进行参数化,而不引入 O(mk) 参数。
我们首先将其视为在给定 s 的条件下,关系序列(φ(j),r1,…,rk,φ(i)的概率:

在这里插入图片描述
这段内容可以自然地通过概率图形模型来建模,如条件随机场(Lafferty等人,2001):
在这里插入图片描述
其中 f(⋅),δ(⋅) 和 g(⋅) 是由两层MLP参数化,τ(⋅) 由一个m×m形状的过渡矩阵参数化。直观地说,β(⋅) 模型了一个k-hop关系的重要性,而 γ(⋅) 模型了从节点类型 φ(j) 到 φ(i) 的消息重要性(例如,该模型可以学习只从问题实体传递消息到答案实体)。

我们的模型通过将k-跳关系分解为上下文感知的单跳关系(由 δ 建模)和两跳关系(由τ建模),来对k-跳关系进行评分。我们认为 τ 是不可或缺的,如果没有 τ,模型可能会给不合逻辑的多跳关系(例如,[AtLocation, CapableOf])或噪声关系(例如,[RelatedTo, RelatedTo])分配高重要性。

4.3 计算复杂度分析

尽管在方程7中的消息传递过程和在方程11中的注意力模块处理可能指数级数量的路径,但它们可以在线性时间内通过动态编程计算(参见附录D)。如表2中总结的那样,MHGRN在稀疏图上的时间复杂度和空间复杂度都与最大路径长度K或节点数n呈线性关系。
在这里插入图片描述

表2:在密集/稀疏多关系图上,不同K跳推理模型的计算复杂度,其中有n个节点和m种关系类型。尽管相对于m的复杂度是二次的,但MHGRN的时间成本与RGCN在GPU上的并行矩阵乘法相似(参见图7)。

4.4 MHGRN的表现力

除了效率和可扩展性,我们现在讨论MHGRN的建模能力。通过消息传递公式和关系特定的转换,它本质上是RGCN的泛化。它还能够直接建模路径,使其像RN和KagNet这样的基于路径的模型一样具有解释性。为了展示这一点,我们首先将RN(方程3)推广到多跳设置,并引入K-hop RN(正式定义在附录E),它将多跳关系建模为单跳关系的组合。我们证明MHGRN能够表示K-hop RN(证明在附录F)。

4.5 学习、推断和路径解码

我们现在讨论为问答任务实例化的MHGRN的学习和推断过程。遵循第2节的问题表述,我们的目标是确定给定问题q的答案选项a∈C的可信度,同时利用文本s和图G的信息。我们首先通过在答案实体的输出节点嵌入{h’i|i∈A}上执行注意力池化来获得图表示g。接下来,我们将它与文本表示s连接,并通过ρ(q, a)=MLP(s⊕g)计算可信度分数。

在训练过程中,我们通过最小化交叉熵损失来最大化正确答案 a ^ \widehat{a} a 的可信度分数:
在这里插入图片描述
整个模型与文本编码器(如RoBERTa)一起进行端到端的训练。

在推理过程中,我们通过在答案集合C中取argmaxa∈C ρ(q, a)来预测最有可能的答案。
此外,我们还可以解码一条推理路径作为模型预测的证据,使我们的模型具有路径基础模型所享受的可解释性。具体来说,我们首先在汇聚层中确定得分最高的答案实体i*,并在公式8中确定得分最高的路径长度k*。 然后通过argmax α(j, r1, . . . , rk*, i*)解码推理路径,这可以通过动态规划在线性时间内计算得出。

5 实验设置

我们介绍了如何构建G(第5.1节),数据集(第5.2节)以及基线方法(第5.3节)。附录C展示了更多实现和实验细节以供重复使用。

5.1 从外部知识图中提取G

我们使用ConceptNet(Speer等人,2017年)作为一个通用领域的知识图谱来测试模型利用结构化知识源的能力。遵循KagNet(林等人,2019年),我们将关系类型合并以提高图的密度,并添加逆向关系来构建一个包含34种关系类型的多关系图(详情见附录A)。为了从知识图谱中提取一个信息丰富的上下文图形G,我们识别s中的实体提及并将它们链接到ConceptNet中的实体,以此来初始化我们的节点集V。然后,我们将所有出现在提及实体对之间的两跳路径中的实体添加到V中。与KagNet不同的是,我们不进行任何剪枝,而是保留V中所有节点之间的边,形成我们的G。

5.2 数据集

我们在这两个多项选择题回答数据集上评估模型,分别是CommonsenseQA和OpenbookQA。这两个数据集都要求模型具备超越文本理解的世界知识才能表现良好。

常识性问答(CommonsenseQA,Talmor等人,2019)需要各种常识推理技巧。这些问题是由ConceptNet中的实体创建的,并旨在探测试图在ConceptNet实体之间潜在的组合关系。

开放图书问答(OpenBookQA,Mihaylov等人,2018)提供了小学科学问题以及一本开放的科学事实书籍。该数据集还探测了一般常识超越提供的事实。

5.3 比较方法

我们实现了预训练语言模型的知识无关微调和将知识图作为外部来源的模型作为基线。此外,我们直接将我们的模型与对应排行榜的结果进行比较。这些方法通常利用文本知识或额外的训练数据,而不是外部知识图。在我们实现的所有模型中,为了公平比较,我们将预训练的语言模型作为文本编码器。虽然我们坚持将重点放在编码结构化的知识图谱上,但我们也确实将我们的模型与那些通过其他文本形式的外部知识(例如,维基百科)增强的模型进行了比较(马等,2019;吕等,2019;卡沙比等,2020)。

具体来说,我们对BERT-BASE、BERT-LARGE(Devlin等人,2019年)和ROBERTA(Liu等人,2019b)进行多选题的微调。我们将RGCN(第3节的方程2)、RN5(第3节的方程3)、KagNet(第3节的方程4)和GconAttn(Wang等人,2019年)作为基线。GconAttn推广了匹配LSTM(Wang和Jiang,2016年),并在语言推断任务中取得了成功。

6 结果和讨论

在这部分,我们展示了我们的模型与基准以及CommonsenseQA和OpenbookQA排行榜上方法的结果对比。我们还分析了模型的组件和特性。

6.1 主要结果

对于CommonsenseQA(表3),我们首先使用Lin等(2019)的内部数据分割(IH)(参见附录B)将我们的模型与实现的基线进行比较。这与官方分割中使用的领先板方法不同。几乎所有基于知识图谱增强的模型在性能上都超过了普通的预训练语言模型,证明了在这个数据集上外部知识的价值。此外,我们还在官方分割(OF,表4)上评估了我们的MHGRN(文本编码器为ROBERTA-LARGE),以便与其他方法在排行榜上的单模型设置和集成模型设置中进行公平比较。由于其训练成本,我们不打算将我们的基于ROBERTA的模型与UnifiedQA(Khashabi等人,2020)进行比较。我们在其他模型中取得了最佳表现。
在这里插入图片描述

表3:在CommonsenseQA内部分割上的性能比较。我们报告使用Lin等人(2019)的数据分割在CommonsenseQA上的内部开发(IHdev)和测试(IHtest)准确率(四个运行的平均值和标准差)。†表示其论文中的报告结果。

在这里插入图片描述

表4:在常识QA官方测试中的性能比较,与排行榜上的SoTAs(准确度%)相比。带†的表示排行榜上的报告结果。UniifiedQA使用T5-11B作为文本编码器,其参数数量大约是其他模型的30倍。

对于OpenbookQA(表5),我们使用官方分割,并使用ROBERTA-LARGE作为文本编码器。MHGRN超过了所有实现的基线,在测试上绝对增加了约2%。此外,由于我们的方法自然兼容利用文本知识或额外数据的方法,因为在我们的范式中,文本陈述和图的编码在结构上是解耦的(图3)。为了实证MHGRN可以在文本知识增强系统上带来收益,我们用AristoRoBERTaV7替换了我们的文本编码器,并在OpenbookQA上微调我们的MHGRN。实验证明,MHGRN仍然对表现强劲的文本知识增强系统有益。这表明文本知识和结构化知识可能可以相互补充。
在这里插入图片描述

表5:在OpenbookQA上的性能比较。†表示在排行榜上报告的结果。T5-3B比我们的模型大8倍。UnifiedQA大30倍。

6.2 性能分析

模型组件的消融研究。如表6所示,禁用类型特定转换会导致性能下降约1.3%,这表明在QA任务中区分节点类型是必要的。我们的结构化关系注意力机制也非常关键,其两个子组件几乎同等重要。
在这里插入图片描述

表6:使用ROBERTA-LARGE作为文本编码器的模型组件(每次只移除一个组件)的消融研究。我们报告CommonsenseQA中IHdev准确度的结果。

训练数据量的影响。我们使用Common-senseQA的不同比例的训练数据,并在图5中报告了仅微调文本编码器和同时训练文本编码器和图形编码器的结果。无论训练数据的比例如何,我们的模型都比知识无感知微调显示出一致的性能提升,这表明MHGRN相对于其他图形编码方法具有互补的优势,强调了MHGRN对文本编码器的补充优势。
在这里插入图片描述

图5:性能变化(准确率百分比)相对于训练数据量在常识QA IHT测试集上的表现(与Lin等人(2019)相同)。

影响数量(K)。我们通过在CommonsenseQA上的表现来研究MHGRN超参数K的影响(图6)。随着K的增加,性能持续提高直到K=4。然而,当K>3时,性能开始下降。这可能是由于知识图中较长关系路径中的指数噪声导致的。
在这里插入图片描述

图6:K值在MHGRN中的影响。我们展示了MHGRN在CommonsenseQA上的IHDev准确度与跳跃次数的关系。

6.3 模型可扩展性

图7展示了MHGRN和RGCN的计算成本(以训练时间为测量)。两者都随着K的增长呈线性增长。尽管MultiRGN的理论复杂度是RGCN的m倍,但它们的实际成本比值接近2,表明我们的模型可以更好地并行化。
在这里插入图片描述

图7:模型可扩展性分析。关于模型训练效率的对比,以批次为单位,与跳数K的关系。

6.4 模型可解释性

我们可以通过使用第4.5节中描述的方法解码推理路径来分析我们模型的推理过程。图8显示了来自常识QA的两个示例,其中我们的模型正确地回答了问题并提供了合理的路径证据。在左边的例子中,模型通过链条连接问题实体和答案实体以支持推理,而在右边的例子中,我们的模型利用未提及的实体来弥合问题实体和答案实体之间的推理鸿沟,这种方式与问题中CHAPEL和期望答案之间的潜在关系相一致。

7 相关工作

自然语言处理中的知识感知方法 各种研究工作都探讨了为自然语言处理(NLP)模型赋予外部知识的潜力。许多人试图提取结构化知识,无论是以节点的形式(Yang和Mitchell,2017;Wang等,2019),三元组的形式(Weissenborn等,2017;Mihaylov和Frank,2018),路径的形式(Bauer等,2018;Kundu等,2019;Lin等,2019),还是子图的形式(Li和Clark,2015)。然后将这些知识编码,以增强文本理解能力。

最近,预训练语言模型(LMs)的成功激发了许多研究者(Pan等人,2019;Ye等人,2019;Zhang等人,2018;Li等人,2019;Banerjee等人,2019)去探究将语言模型作为潜在知识库的潜力。这一系列的研究转向文本知识(例如维基百科)以直接向预训练语言模型传授知识。它们通常可以分为两种范式:1) 在大规模通用领域数据集(例如RACE(Lai等人,2017))或知识丰富的文本上微调语言模型。2) 通过信息检索技术为语言模型提供证据。然而,这些模型无法提供明确的推理和证据,因此难以信赖。它们还受到领域内数据集可用性和预训练语言模型最大输入令牌的限制。

神经图编码 图形注意力网络(GAT)(Velickovic等人,2018)在特征聚合中引入了注意力机制,RGCN(Schlichtkrull等人,2018)提出了关系消息传递,使其适用于多关系图。然而,它们只执行单跳消息传递,不能在路径级别进行解释。其他工作(Abu-El-Haija 等,2019;Nikolentzos 等,2019)根据节点间的距离,将节点的K跳邻居聚合在一起,但它们是为非关系图设计的。MHGRN通过在多关系图上进行推理,并通过保持路径作为推理链来解决这些问题。

8 结论

我们提出了一种有原则的、可扩展的方法,称为MHGRN,它可以通过多跳推理来利用一般知识(例如ConceptNet)。提出的MHGRN概括并结合了GNN和基于路径的推理模型的优点。它明确地执行多跳关系推理,并在实证上被证明具有优于现有方法的可扩展性和解释性。

A 概念网络中关系类型的合并

在这里插入图片描述

表7:在预处理中被合并的ConceptNet中的关系。*RelationX表示RelationX的逆关系。

我们合并语义上相近以及三元组实例一般使用上相近的关系。

B 数据集分割规范

在这里插入图片描述

表8:不同数据集划分中的实例数量。

常识QA和开放书本QA都有它们的排行榜,其中训练集和开发集都是公开可用的。由于常识QA的真实标签不容易获得,为了进行模型分析,我们从官方训练示例中选取了1,241个例子作为我们的内部测试示例,并将剩下的8,500个例子视为我们的内部训练示例(简称常识QA(IH))。

C 实现细节

在这里插入图片描述

表9:文本编码器在不同数据集上的学习率。

在这里插入图片描述

表10:图编码器在不同数据集上的学习率。

在这里插入图片描述

表11:不同图编码器的参数数量。

我们的模型是用PyTorch实现的。我们使用交叉熵损失和RAdam(刘等人,2019a)优化器。我们发现为文本编码器和图编码器使用不同的学习率是有益的。我们在两个数据集上调整了文本编码器和图编码器的学习率。 我们首先对ROBERTA-LARGE、BERT-LARGE、BERT-BASE在CommonsenseQA上进行微调,并对ROBERTA-LARGE在OpenbookQA上进行微调,分别选择每个文本编码器的最佳学习率,学习率取自{1×10−5, 2×10−5, 3×10−5, 6×10−5, 1×10−4},根据开发集上的最佳性能列出在表9中。我们报告这些微调文本编码器的性能,并在与图编码器联合训练时采用其数据集特定的最佳学习率。对于涉及知识图谱的模型,根据它们使用ROBERTA-LARGE作为文本编码器在开发集上的最佳性能,选择其图编码器的学习率从{1 × 10−4, 3 × 10−4, 1 × 10−3, 3 × 10−3}中选取。我们报告表10中图编码器的最佳学习率。在训练过程中,我们将文本编码器的最大输入序列长度设置为64,批量大小设置为32,并进行早期停止。AristoRoBERTaV7+MHGRN是唯一的例外。为了举办公平的比较,我们遵循Aris-toRoBERTaV7,将批量大小设置为16,最大输入序列长度设置为256,并从{1 × 10−3, 2 × 10−5}中选择解码器的学习率。

对于输入的节点特征,我们首先使用模板将ConceptNet中的知识三元组转换为句子,并将其输入到预训练的BERT-LARGE中,从BERT-LARGE的最后一层获得每个三元组的令牌嵌入序列。对于ConceptNet中的每个实体,我们在所有句子中对实体出现的令牌进行平均池化,以形成一个1024维向量作为其对应的节点特征。我们为所有实现的模型使用这套特征。

在我们的实验中,我们使用两层RGCN和单层MHGRN。每个图编码器的参数数量如表11所示。

D 动态规划算法用于解决方程7

为了表明多跳消息传递可以在线性时间内计算,我们注意到方程7可以改写为矩阵形式:
在这里插入图片描述
其中G是对角矩阵,其元素为g函数的输出值,Ar是关系r的邻接矩阵,Dk定义如下:

在这里插入图片描述

使用这种矩阵表达式,我们可以通过动态规划来计算公式7:
在这里插入图片描述

E 正式定义K-hop关系网络

定义1(K-hop关系网络)多跳关系网络是一个函数,它将一个多关系图映射到一个固定大小的向量:

在这里插入图片描述
其中◦表示元素相乘,而˜β(⋯)=1/(K|A|⋅|{(j’,…,i)∈G|j’∈Q}|)定义了池化权重。

F 用MultiGRN表达K跳RN

定理1 给定任意的 W ~ \widetilde{W} W E ~ \widetilde{E} E H ~ \widetilde{H} H ,存在一种参数设置,使得模型的输出对于任意G变为KHopRN(G; W ~ \widetilde{W} W E ~ \widetilde{E} E H ~ \widetilde{H} H )。
在这里插入图片描述
我们禁用关系类型注意力模块,只允许从Q到A的消息传递。通过进一步选择σ作为恒等函数并在A上进行池化,我们发现MultiGRN的输出变为:

在这里插入图片描述

  • 38
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值