UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question An...翻译笔记（统一检索与推理解决知识图谱多跳问答）

最新推荐文章于 2024-10-02 00:23:27 发布

QYLZ

最新推荐文章于 2024-10-02 00:23:27 发布

阅读量1.3k

点赞数 31

分类专栏：论文笔记文章标签：知识图谱人工智能自然语言处理 nlp 深度学习 python 机器学习

本文链接：https://blog.csdn.net/weixin_56242678/article/details/137473705

版权

论文笔记专栏收录该内容

37 篇文章 0 订阅

订阅专栏

在这里插入图片描述

论文标题：统一检索与推理解决知识图谱多跳问答

论文链接：https://arxiv.org/abs/2212.00959
arXiv:2212.00959v2 [cs.CL] 1 Mar 2023

摘要

多跳知识图谱问答（KGQA）的目标是在大规模知识图谱（KG）中找到与问题相关的答案实体，这些实体距离问题中提到的主题实体有多步的距离。为了应对庞大的搜索空间，现有工作通常采用两阶段方法：首先检索与问题相关的一个相对较小的子图，然后在子图上进行推理以准确找到答案实体。尽管这两个阶段密切相关，但之前的工作在开发检索和推理模型时采用了非常不同的技术解决方案，忽视了它们在任务本质上的相关性。在这篇论文中，我们提出了一种用于多跳知识图谱问答任务的新型方法——UniKGQA，通过在模型架构和参数学习方面统一检索和推理。对于模型架构，UniKGQA包括一个基于预训练语言模型（PLM）的语义匹配模块，用于问题关系语义匹配，以及一个匹配信息传播模块，用于沿着知识图谱上的有向边传播匹配信息。对于参数学习，我们设计了一个基于问题关系匹配的共享预训练任务，适用于检索和推理模型，然后提出检索和推理导向的微调策略。与以前的研究相比，我们的方法更加统一，紧密关联检索和推理阶段。在三个基准数据集上的大量实验已经证明了我们的方法在多跳知识图谱问答任务中的有效性。我们的代码和数据可以在https://github.com/RUCAIBox/UniKGQA上公开获取。

1 简介

随着大规模知识图谱（KG）的出现，例如Freebase（Bollacker等人，2008年）和Wikidata（Tanon等人，2016年），知识图谱问答（KGQA）已成为一个重要的研究课题，旨在从KG中找到自然语言问题的答案实体。最近的研究（Lan等人，2021）主要关注多跳KGQA，这是一种更复杂的场景，需要复杂的多跳推理来推断KG上的正确答案。我们在图1（a）中展示了一个示例。给定问题“谁是《杰夫·普罗布斯特秀》的提名人妻子”，任务目标是从主题实体“《杰夫·普罗布斯特秀》”找到一条推理路径到答案实体“雪莱·赖特”和“丽莎·安·拉塞尔”。

面对大规模知识图谱中庞大的搜索空间，之前的研究（Sun等，2018；2019）通常采用检索然后推理的方法，以实现良好的折衷。一般来说，检索阶段旨在从大规模知识图谱中提取与问题相关的三元组，组成一个相对较小的问题相关子图，而推理阶段则专注于准确地从检索到的子图中找到答案实体。尽管两个阶段的目的不同，但两个阶段都需要评估候选实体与问题的语义相关性（用于删除或重新排序），这本质上可以被视为一个语义匹配问题。为了衡量实体的相关性，基于关系的特征，无论是直接关系（Miller等人，2016）还是复合关系路径（Sun等人，2018），都被证明对于构建语义匹配模型特别有用。如图1（a）所示，给定问题，识别语义匹配的关系和知识图谱中组成的 relation path（例如，“提名人 → 配偶”）是找到正确答案实体的关键。由于这两个阶段在知识图谱上处理不同规模的搜索空间（例如，数百万与数千），它们通常采用特定的技术解决方案：前者更喜欢更高效的聚焦于召回性能的方法（Sun等，2018），而后者更喜欢更有能力的方法来建模细粒度匹配信号（He等，2021）。
在这里插入图片描述

图1：我们工作的说明性示例和学习过程。

考虑到两个阶段的相同本质，本工作旨在通过研究以下问题来推动多跳知识图谱问答（KGQA）的研究：我们是否可以为两个阶段设计一个统一的模型结构以获得更好的性能？为了开发一个多跳KGQA的统一模型结构，一个主要的优点是我们可以紧密关联这两个阶段并增强相关信息的共享。尽管这两个阶段高度相关，但以往的研究通常在模型学习中将它们分开处理：只将检索到的三元组从检索阶段传递到推理阶段，而忽略了在流水线框架中其他有用的语义匹配信号。这种方法可能会导致次优或劣质的性能，因为多跳知识图谱问答是一项非常具有挑战性的任务，需要精心设计的解决方案，充分利用两个阶段的各种相关信息。

然而，在为多跳知识图谱问答（KGQA）开发统一模型架构时，存在两个主要问题：(1)如何应对两个阶段非常不同的搜索空间规模？(2)如何有效地在两个阶段之间共享或传递有用的关联信息？针对第一个问题，我们提出了一种新的子图形式来减少检索阶段的节点规模，即抽象子图。这种子图由合并知识图谱中具有相同关系的节点构成（如图1（b）所示）。对于第二个问题，我们基于相同的模型架构设计了一种有效的学习方法，以便我们可以共享相同的预训练参数，并使用学到的检索模型来初始化推理模型（见图1c））。

为此，本文提出了一种用于多跳知识图谱问答任务的统一模型——UniKGQA。具体来说，UniKGQA包括一个基于预训练语言模型（PLM）的问题关系语义匹配模块，以及一个匹配信息传播模块，用于沿着知识图谱上的有向边传播匹配信息。为了学习这些参数，我们基于统一的架构设计了预训练（即问题关系匹配）和微调（即检索和推理导向的学习）策略。与以前关于多跳KQGA的工作相比，我们的方法更加统一和简化，紧密地关联了检索和推理阶段。

据我们所知，这是第一项在模型架构和学习方面统一检索与推理的工作，适用于多跳知识图谱问答任务。为了评估我们的方法，我们在三个基准数据集上进行了大量实验。在难度较大的数据集WebQSP和CWQ上，我们大幅度超过了现有最先进的基线（例如，在WebQSP上，Hits@1提高了8.1%，在CWQ上，Hits@1提高了2.0%）。

2 预备知识

在这部分，我们将介绍本文中使用的符号，并正式定义多跳知识图谱问答任务。

知识图谱（KG）。知识图谱通常由一组三元组组成，表示为G = {⟨e, r, e′⟩|e, e′ ∈ $\varepsilon$ , r ∈ R}，其中E和R分别表示实体集和关系集。一个三元组⟨e, r, e′⟩描述了一个事实，即头实体e和尾实体e′之间存在一个关系r。此外，我们用Ne表示属于实体e的所有邻近三元组集合，即N_e = {⟨e, r, e′⟩ ∈ G} ∪ {⟨e′, r, e⟩ ∈ G}。让r^-1表示r的逆关系，我们可以将一个三元组⟨e, r, e’⟩表示为它的逆三元组⟨e’, r^-1, e⟩。这样，我们可以简化实体e的邻近三元组的定义为N_e = {⟨e’, r, e⟩ ∈ G}。我们进一步使用 ${\mathbf{E}} \in {{\mathbb{R}}^{d \times {|\varepsilon|}}}$ 和 ${\mathbf{R}} \in {{\mathbb{R}}^{d \times {|R|}}}$ 分别表示知识图中实体和关系的嵌入矩阵。

多跳知识图谱问题回答（Multi-hop KGQA）。给定一个自然语言问题q和一个知识图G，知识图问答的任务旨在在知识图中找到问题的答案实体，表示为答案集A_q ∈ $\varepsilon$ 。遵循之前的工作（Sun等，2018；2019），我们假设问题中提到的实体（例如，“The Jeff Probst Show”在图1(a)中）被标记并与知识图上的实体链接，即主题实体，表示为T_q ⊂ $\varepsilon$ 。在这项工作中，我们关注解决多跳知识图谱问答任务，其中答案实体在知识图谱中距离主题实体有多次跳转。考虑到效率和准确性的权衡，我们遵循现有工作（Sun等，2018；2019），使用检索-推理框架来解决这个任务。在两阶段框架中，给定一个问题q和主题实体T_q，检索模型的目标是从大规模输入的知识图谱G中检索出一个小的子图G_q，而推理模型则通过在检索到的子图G_q上进行推理来搜索答案实体A_q。

摘要子图。基于知识图谱，我们进一步引入了抽象图的概念，它是通过对原始子图的简化而得出的。具体来说，给定与问题q相关的一个子图G_q，它在G中是子集，我们合并来自相同前缀（即，相同的头实体和关系：＜e，r，？＞）的尾部实体，然后生成一个相应的抽象节点～e来表示尾部实体集合，所以我们有 $\widetilde{e}$ = {e’ | ＜e，r，e’＞ ∈ G}。同样，我们也可以对头实体执行相同的操作。为了统一表示法，我们将一个不能合并的原始节点转换为一个抽象节点，方法是创建一个仅包含该节点自身的集合。通过这种方式，相应的抽象子图Gq可以表示为： $\widetilde{G_q}$ = {⟨ $\widetilde{e}$ , r, $\widetilde{e}$ ′⟩|∃e ∈ $\widetilde{e}$ , ∃e′ ∈ $\widetilde{e}$ ′, ⟨e, r, e′⟩ ∈ G_q}，其中每个节点 $\widetilde{e}$ 是一个抽象节点，代表一组原始节点（一个或多个）。我们分别在图1(a)和图1(b)中展示了原始子图及其抽象子图的示例。

3 方法

在此部分，我们介绍了我们提出的UniKGQA，它将多跳知识图谱问答的检索和推理进行了统一。主要创新点在于，我们在两个阶段引入了一个统一的模型结构（第3.1节）并设计了一种有效的学习方法，包括特定的预训练和微调策略（第3.2节）。接下来，我们将详细介绍这两个部分。

3.1 统一模型结构

我们考虑了一个通用的检索和推理输入形式，并通过整合两个主要模块来开发基本架构：(1) 语义匹配（SM）模块，该模块使用预训练模型（PLM）在问题和关系之间进行语义匹配；（2）匹配信息传播（MIP）模块，该模块在知识图谱上传播语义匹配信息。我们在图2中展示了模型架构的概述。接下来，我们详细描述这三个部分。
在这里插入图片描述

图2：在我们的UniKGQA中，通过聚合子图中指向实体e的有向关系集（即{r₁，r₂，r₃}）中的语义匹配信息，更新实体表示e的步骤t的示意图。

通用输入公式。为了支持检索和推理阶段，我们考虑了一种评估实体相关性的通用形式，其中给定一个问题q和候选实体子图G_q。对于检索阶段，G_q是一个抽象子图，它结合了抽象节点来合并来自同一关系的实体。在推理阶段，G_q是根据检索阶段检索到的子图构建的，没有抽象节点。这种通用输入公式使得两个不同阶段的统一模型架构得以发展。接下来，我们将以一种通用的方式描述这种方法，而不考虑特定的阶段。

语义匹配（SM）。SM模块的目标是在问题q和给定子图G_q中的一个三元组⟨e′, r, e⟩之间产生语义匹配特征。考虑到PLM（预训练语言模型）的优秀建模能力，我们利用PLM来生成文本编码作为问题q和关系r的表示。具体来说，我们首先利用PLM对q和r的文本进行编码，并使用[CLS]标记的输出表示作为它们的表示：

在这里插入图片描述
根据h_q和h_r，受NSM模型（He等，2021）的启发，我们通过采用相应的投影层，在问题q和三元组⟨e′, r, e⟩在第t步之间获得捕捉语义匹配特征的向量 $m^{(t)}_{⟨e′,r,e⟩}$ 。

在这里插入图片描述
在t时刻， ${\mathbf{m^{(t)}_{⟨e′,r,e⟩}}} \in {{\mathbb{R}}^{d}}$ , m(t)表示的是属于Rd的e’、r和e的坐标， ${\mathbf{W^{(t)}_{Q},W^{(t)}_{R}}} \in {{\mathbb{R}}^{h \times d}}$ , W(t)Q和W(t)R是t步投影层的参数，其中h和d分别是PLM（预训练语言模型）的隐藏维度和特征向量的维度。σ表示的是sigmoid激活函数，⊙表示的是Hadamard积（对应元素相乘）。

匹配信息传播（MIP）。基于生成的语义匹配特征，MIP模块首先将它们聚合以更新实体表示，然后利用它来获得实体匹配分数。为了初始化匹配分数，给定一个问题q和一个子图G_q，对于每个实体e_i∈G_q，我们设置q与e_i之间的匹配分数如下： $s^{(1)}_{e_i}$ =1如果e_i是一个主题实体，否则 $s^{(1)}_{e_i}$ =0。在第t步，我们将上一步计算的头实体的匹配分数 $s^{(t-1)}_{e'}$ 作为权重，并聚合相邻三元组的匹配特征，以获得尾实体的表示。

在这里插入图片描述
在第t步中， ${\mathbf{e^{(t)}}} \in {{\mathbb{R}}^{d}}$ 表示实体e， ${\mathbf{W^{(t)}_{E}}} \in {{\mathbb{R}}^{2d \times d}}$ 是一个可学习的矩阵。在第一步中，由于没有匹配分数，我们遵循NSM（He等人，2021）模型，直接聚合其一跳关系的表示作为实体表示：e⁽¹⁾ = σ(∑_{⟨e’,r,e⟩∈Ne} r · U)，其中 ${\mathbf{U}} \in {{\mathbb{R}}^{2d \times d}}$ 是一个可学习矩阵。基于所有实体 ${\mathbf{E^{(t)}}} \in {{\mathbb{R}}^{d \times n}}$ 的表示，我们使用softmax函数更新它们的实体匹配分数：

在这里插入图片描述
其中 ${\mathbf{v}} \in {{\mathbb{R}}^{d}}$ 。

在经过T步迭代后，我们可以得到最终实体匹配分数s^(T)，它是在子图G_q中所有实体的概率分布。这些匹配分数可以用来衡量实体作为给定问题q的答案的可能性，并且将在检索和推理阶段中使用。

3.2 模型训练

在我们的方法中，我们为多跳知识图谱问答的两个阶段都设计了检索模型和推理模型。由于这两个模型采用了相同的架构，我们引入Θ和Γ来表示用于检索和推理阶段的模型参数，分别对应于回答问题的不同阶段。如第3.1节所示，我们的架构包含两组参数，即潜在的语言模型（PLM）和其他用于匹配和传播的参数。因此，Θ和Γ可以分解为：Θ = {Θ_p, Θ_o} 和 Γ = {Γ_p, Γ_o}，其中下标p和o分别表示PLM参数和其他我们架构中的参数。为了学习这些参数，我们基于统一架构设计了预训练（即问题关系匹配）和微调（即检索和推理导向学习）策略。接下来，我们将描述模型训练方法。

使用问题关系匹配进行预训练。在预训练阶段，我们主要关注学习潜在PLM（即Θ_p和Γ_p）的参数。在实现过程中，我们让两个模型共享同一份PLM参数，即Θ_p=Γ_p。如第3.1节所示，语义匹配模块的基本能力是建模问题与单个关系之间的相关性（方程2），这基于潜在PLM提供的文本编码。因此，我们设计了一个基于问题关系匹配的对比预训练任务。具体来说，我们采用了对比学习目标（Hadsell等人，2006年）来使相关问题关系对的表现相互接近，同时推动其他问题关系对之间的距离。为了收集相关的问题关系对，给定一个包含问题q、主题实体T_q和答案实体A_q的示例，我们从整个知识图谱中提取所有主题实体和答案实体之间的最短路径，并将这些路径中的所有关系视为与问题q相关，表示为R⁺。通过这种方式，我们可以获得大量弱监督示例。在预训练期间，对于每个问题q，我们随机采样一个相关的正关系r⁺∈R⁺，并利用对比学习损失进行预训练。

在这里插入图片描述
在此过程中，τ是一个温度超参数， $r^-_i$ 是从随机采样的负关系中提取的，sim(q,r)是余弦相似度，q和r是由SM模块中的PLM编码的问题和关系（方程1）。通过这种方式，问题-关系匹配能力将通过预训练PLM参数来增强。请注意，预训练后，PLM参数将被固定。

微调用于抽象子图（RAS）上的检索。预训练后，我们首先对整个模型进行微调，以学习根据检索任务调整参数Θ_o。回顾一下，我们将子图转换为一种抽象子图的形式，其中抽象节点被纳入以合并来自同一关系的实体。由于我们的MIP模块（第3.1节）可以产生子图中节点的匹配分数s_A（方程式4），其中下标A表示节点来自抽象子图。此外，我们利用标注的答案获取地面真实向量，表示为 $s^*_A$ 。如果一个抽象节点包含答案实体，我们在 $s^*_A$ 中将其设置为1。然后我们最小化学习到的和地面真实的匹配分数向量之间的KL散度：

在这里插入图片描述

在微调RAS损失后，检索模型可以有效地学习。我们进一步利用它来检索给定问题q的子图，通过根据匹配分数选择排名前K的节点。请注意，只有与主题实体距离合理的节点才会被选入子图中，这确保了一个相对较小但相关的子图G_q，以便在后续推理阶段找到答案实体。

微调用于检索子图（RRS）上的推理。在微调检索模型之后，我们继续通过学习参数Γ_o来微调推理模型。使用经过微调的检索模型，我们可以为每个问题q获得一个更小的子图G_q。在推理阶段，我们专注于进行精确的推理以找到答案实体，以便恢复抽象节点中的原始节点以及它们之间的原始关系。由于检索和推理阶段高度依赖，我们首先使用检索模型的参数来初始化推理模型的参数：Θ_o → Γ_o。然后，根据方程4，我们采用类似的方法将学到的匹配分数（表示为s_R）与地面实况向量（表示为 $s^*_R$ ）进行拟合，根据KL损失：
在这里插入图片描述
子脚本R表示节点来自检索到的子图。在使用RRS损失进行微调后，我们可以利用学习到的推理模型根据匹配分数选择排名前n的实体作为答案列表。

如图1（c）所示，整个训练过程包括以下步骤：（1）通过问题关系匹配对Θ_p进行预训练，（2）固定Θ_p并微调Θ_o以在抽象子图上进行检索，以及（3）使用由Θ_p初始化的Γ_p和由Θ_o初始化的Γ_o进行子图上的推理。

我们的工作提供了一种新颖的统一模型，用于检索和推理阶段共享推理能力。在表1中，我们总结了我们的方法与几种流行的多跳知识图谱问答方法之间的差异，包括GraphfNet（Sun等人，2018年）、PullNet（Sun等人，2019年）、NSM（He等人，2021年）和SR+NSM（Zhang等人，2022年）。如我们所见，现有的方法通常为检索和推理阶段采用不同的模型，而我们的方法更加统一。作为一个主要的好处，两个阶段之间的信息可以有效地共享和重用：我们将推理模型初始化为学习到的检索模型。
在这里插入图片描述

表1：不同方法的比较。

4 实验

4.1 实验设置

数据集。遵循现有关于多跳知识图谱问答（KGQA）的研究（Sun等，2018；2019；He等，2021；Zhang等，2022），我们采用了三个基准数据集，即MetaQA（Zhang等，2018）、WebQuestionsSP（WebQSP）（Zhang等，2018；Yih等，2015）和Complex WebQuestions 1.1（CWQ）（Talmor & Berant，2018）来评估我们的模型。表2显示了这三个数据集的统计数据。由于之前的工作在MetaQA上已经取得了近乎满分的成绩，因此WebQSP和CWQ是我们主要评估的数据集。我们在附录A中对这些数据集进行了详细的描述。
在这里插入图片描述

表2：所有数据集

评估协议。对于检索性能，我们遵循Zhang等（2022）的评估方法，通过答案覆盖率（%）来评估模型。这是指那些检索到的子图中至少包含一个答案的问题的比例。对于推理性能，我们遵循Sun等人（2018；2019）的方法，将推理视为一个排名任务进行评估。给定每个测试问题，我们依赖于被评估模型的预测概率来对所有候选实体进行排名，然后评估前一名答案是否正确，使用Hits@1指标。由于一个问题可能对应多个答案，我们也采用了广泛使用的F1指标。

基准。我们考虑以下基准进行性能比较：(1) 以推理为中心的方法：KV-Mem（Miller 等人，2016），GraftNet（Sun 等人，2018），EmbedKGQA（Saxena 等人，2020），NSM（He 等人，2021），TransferNet（Shi 等人，2021）；(2) 检索增强方法：PullNet（Sun 等人，2019），SR+NSM（Zhang 等人，2022），SR+NSM+E2E（Zhang 等人，2022）。我们在附录B中详细描述了这些基准。

4.2 评估结果

表3显示了在5个多跳知识图谱问答数据集上不同方法的结果。从表中可以看出：
在这里插入图片描述

表3：不同方法在KGQA上的性能比较（以百分比为单位的Hits@1和F1）。我们从Shi et al. (2021)复制TransferNet的结果，而其他结果来自Zhang et al. (2022)。粗体和下划线字体分别表示最佳和第二佳的方法。

首先，大多数基线在三个MetaQA数据集上的表现都非常出色（100%的Hits@1）。这是因为这些数据集基于少量手工制作的问题模板，并且对于给定的知识图谱只有九种关系类型。因此，模型可以轻松捕捉问题和关系之间的相关语义以进行推理。为了进一步研究这个问题，我们在MetaQA数据集上进行了一次性实验，并在附录E中详细介绍了细节。其次，TransferNet在使用相同的检索方法时比GraftNet、EmbedKGQA和NSM表现更好。它通过关注问题词来计算关系得分，并沿着关系转移实体得分。这种方式可以有效地捕获问题路径匹配语义。此外，SR+NSM和SR+NSM+E2E在很大程度上超过了NSM和PullNet的性能。原因是它们都利用了一个基于预训练模型的关系路径检索器来提高检索性能，从而降低了后续推理阶段的难度。

最后，在WebQSP和CWQ上，我们提出的UniKGQA比所有其他竞争性基线要好得多。与依赖独立模型进行检索和推理的其他基线不同，我们的方法可以利用统一的架构来完成这些任务。这种统一的架构可以预先学习问题关系语义匹配的基本能力，适用于两个阶段，并且能够有效地从检索阶段传递相关性信息到推理阶段，即使用检索模型的参数初始化推理模型。

在我们的方法中，为了提高效率，我们固定了基于PLM的编码器的参数。实际上，更新这些参数可以进一步提高我们的性能。这种方式使研究人员能够在实际应用中使用我们的方法时权衡效率和效果。在这里，我们通过提出两种UniKGQA的变体来研究这个问题：(1) 带有更新问题编码器参数的QU，即在编码问题时更新知识图谱编码器的参数；(2) 带有更新问题和关系编码器参数的QU、RU，即在编码问题和关系时都更新知识图谱编码器的参数。事实上，这两种变体都能提高我们的统一知识图谱问答系统的性能。而且只在编码问题时更新知识图谱编码器的参数可以得到与更新问题和关系时相同的甚至更好的性能。一个可能的原因是，在下游任务上更新预训练语言模型（PLM）编码器时，对问题和关系进行编码可能导致过拟合。因此，我们的UniKGQA只需在编码问题时更新PLM编码器，因为它可以在相对较少的额外计算成本下获得更好的性能。

4.3 进一步分析

检索评估。我们评估我们的UniKGQA在给定问题下检索到的较小但更好的答案覆盖率子图的有效性。遵循SR（Zhang等人，2022）的评估原则，我们从三个方面衡量这种能力：直接子图大小、答案覆盖率和最终问答性能。具体来说，我们首先根据答案覆盖率曲线随图节点数量的变化来比较UniKGQA与SR（Zhang等，2022年）和基于PPR的启发式检索方法（Sun等，2018年）。然后，我们根据其最终的问答性能，将UniKGQA与SR+NSM（Zhang等，2022年）和PPR+NSM（He等，2021年）进行比较。为了进一步研究我们的方法的有效性，我们添加了一个我们UniKGQA的额外变体，称为UniKGQA+NSM。它依赖于UniKGQA进行检索，而NSM用于执行推理。图3的左半部分和中间部分显示了上述方法的比较结果。如我们所见，在相同大小的检索子图下，UniKGQA和SR的回答覆盖率明显高于PPR。这段文字表明了训练一个可学习的检索模型的有效性和必要性。此外，尽管UniKGQA和SR的曲线非常相似，我们的UniKGQA在最终推理性能上可以比SR+NSM更好。原因是UniKGQA可以在统一架构的基础上从检索阶段传递相关性信息到推理阶段，学习更有效的推理模型。这种发现可以通过比较我们的UniKGQA和UniKGQA+NSM得到进一步证实。
在这里插入图片描述

图3：检索和微调效率的评估：在各种子图大小下的答案覆盖率（左），在不同答案覆盖率下的Hits@1分数（中），以及在WebQSP上不同周期的Hits@1分数（右）。

消融研究。我们的UniKGQA包含两种重要的训练策略以提高性能：（1）通过问题关系匹配进行预训练，（2）使用检索模型初始化推理模型的参数。在这里，我们进行消融研究以验证它们的有效性。我们提出以下三个变体：（1）w/o Pre 移除预训练过程，（2）w/o Trans 移除使用检索模型参数进行的初始化，（3）w/o Pre, Trans 同时移除预训练和初始化过程。我们在表4中展示了消融研究的结果。我们可以看到，所有这些变体都比完整的UniKGQA表现差，这表明这两种训练策略对于最终性能都很重要。此外，这种观察也证实了我们的UniKGQA确实能够转移和重用学到的知识以提高最终性能。

在这里插入图片描述

表4：我们训练策略的消融研究。

微调效率。由于我们的UniKGQA模型能够从预训练阶段和检索任务中转移学习到的知识，因此它可以轻松地适应下游推理任务。通过这种方式，我们可以在推理任务上进行更有效的微调，只需少量的微调步骤。为了探索这一点，我们比较了我们的UniKGQA和一个强大的基线NSM在基于相同检索子图的微调周期增加时的性能变化。结果如图3右侧所示。首先，我们可以看到，在微调之前（即当epoch为零时），我们的UniKGQA已经取得了与NSM最后一个epoch的最佳结果相当的性能。这说明推理模型已经成功地利用了从检索模型初始化参数中获取的知识。经过两个周期的微调后，我们的UniKGQA已经取得了很好的性能。这证实了我们的模型可以通过很少的周期进行有效的微调。为了进一步研究我们的UniKGQA模型，我们在附录H中进行了关于预训练步骤、隐藏维度和检索节点数量K的参数灵敏度分析。

5 相关工作

多跳知识图谱问题回答。多跳KGQA旨在寻找在大规模KG中与主题实体相隔多个跳转的答案实体。考虑到效率和准确性，现有工作（Sun等，2018；2019；Zhang等，2022）通常首先检索一个与问题相关的子图以减少搜索空间，然后在其上进行多跳推理。这种检索和推理范式已经显示出优于直接在整个知识图谱上进行推理的优势（陈等，2019；Saxena 等，2020）。

检索阶段关注于提取涉及答案实体的相对较小的子图。常用的方法是收集围绕主题实体的较近跳转的实体来组成子图，并过滤掉个性化PageRank分数低的实体以减少图的大小（Sun等，2018；He等，2021）。尽管这种方法很简单，但这种做法忽视了问题的语义，限制了检索的效率和准确性。为了解决这个问题，有几项工作（Sun等，2019；Zhang等，2022）设计了基于语义匹配的检索器，使用神经网络（例如LSTM或PLM）。从主题实体开始，这些检索器迭代地测量问题与相邻实体或关系之间的语义相关性，并将合适的实体添加到子图中。这样，一个更小但与问题更相关的子图将被构建。

推理阶段的目标是通过从主题实体开始沿着关系走动，准确地找到给定问题的答案实体。早期的研究（Miller 等人，2016 年；Sun 等人，2018 年和 2019 年；Jiang 等人，2022 年）依赖于特殊网络结构（例如，键值记忆网络或图卷积网络）来建模多跳推理过程。最近的工作从中间监督信号（He等人，2021）和知识传递（Shi等人，2021）等角度进一步提高了上述网络的推理能力。然而，所有这些方法分别为检索和推理阶段设计不同的模型结构和训练方法，忽略了这两个阶段之间的相似性和内在联系。

最近，一些工作将问题解析成结构化查询语言（如SPARQL）（Lan等人，2021；Das等人，2021；Huang等人，2021），并通过查询引擎执行以获取答案。在这种方式下，通常采用编码器-解码器架构（即T5（Raffel等人，2020））来生成结构化查询，其中还需要标注的结构化查询用于训练。

密集检索。给定一个查询，密集检索任务旨在从大规模的文档库中选择相关文档。与传统的基于稀疏术语的检索方法（如TF-IDF（陈等，2017）和BM25（Robertson & Zaragoza，2009））不同，密集检索方法（Karpukhin等，2020；Zhou等，2022a,b）依赖于双编码器架构来将查询和文档映射到低维度的密集向量。然后可以使用向量距离度量（例如，余弦相似性）来测量它们的相关性分数，这支持高效的近似最近邻（ANN）搜索算法。在多跳知识图谱问答中，从主题实体开始，我们需要从大规模的知识图谱中选择相关的相邻三元组，以引导一条到达答案实体的路径，这可以看作是一个受约束的密集检索任务。因此，在这项工作中，我们还采用了一个双编码器架构，将问题和关系映射到密集的向量中，然后根据它们的向量距离进行检索或推理。

6 结论部分

在这项工作中，我们提出了一种针对多跳知识图谱问答任务的新型方法。作为主要的技术贡献，UniKGQA引入了一个基于预训练模型的统一模型结构，用于检索和推理两个阶段，包括语义匹配模块和匹配信息传播模块。为应对两个阶段中不同的搜索空间规模，我们提出生成检索阶段的抽象子图，这可以显著减少需要搜索的节点数量。此外，我们设计了一种有效的模型学习方法，该方法基于统一架构，结合预训练（即问题关系匹配）和微调（即检索和推理导向学习）策略。通过统一的架构，所提出的学习方法可以有效地增强两个阶段之间相关信息的共享和传递。我们在三个基准数据集上进行了广泛的实验，实验结果表明，我们提出的统一模型在性能上超过了竞争性方法，特别是在更具挑战性的数据集（如WebQSP和CWQ）上表现尤为突出。

A 数据集

在本工作中，我们采用了三个广泛使用的多跳知识图谱问答数据集：
• MetaQA（Zhang 等，2018）包含超过40万个关于电影领域的问题，答案实体距离主题实体最多3个跳转。根据跳转次数，该数据集被分为三个子数据集，即MetaQA-1hop、MetaQA-2hop和MetaQA-3hop。
• WebQuestionsSP（WebQSP）（Yih等人，2015年）包含4,737个问题，答案实体需要在知识图谱Freebase（Bollacker等人，2008年）上进行最多2次跳转的推理。我们使用与GraftNet（Sun等人，2018年）相同的训练/验证/测试划分。
• 复杂WebQuestions 1.1（CWQ）（Talmor和Berant，2018年）是基于WebQSP构建的，通过扩展问题实体或对答案添加约束。这些问题需要在知识图谱Freebase（Bollacker等人，2008年）上进行最多4次跳转的推理。

已有的研究表明，MetaQA的训练数据是足够的（Shi等人，2021；He等人，2021），因此我们实验中的所有比较方法都能取得非常高的性能。我们对三个MetaQA数据集进行了进一步的分析，包括模板数量、每个模板的平均训练案例数量以及用于构建问题的关系数量，并将结果展示在表5中。总的来说，更多的训练案例和更简单的问题使MetaQA更容易解决。
在这里插入图片描述

表5：MetaQA数据集的分析。

B 基准方法

我们考虑以下基准方法进行性能比较：

KV-内存（Miller等人，2016）维护一个键值记忆表来存储知识图谱事实，并通过在记忆上执行迭代读取操作来进行多跳推理。
GraftNet（Sun等人，2018）首先使用启发式方法从知识图谱和维基百科中检索与问题相关子图和文本句子。然后它采用图神经网络在构建于子图和文本句子的异构图上进行多跳推理。
PullNet（孙等人，2019）通过训练一个由LSTM和图神经网络组成的图检索模型，而不是像GraftNet那样采用启发式方法来进行检索任务，然后使用GraftNet进行多跳推理。
EmbedKGQA（Saxena等人，2020）将GraftNet的多跳推理重新表述为一个链路预测任务，通过将预训练实体嵌入与来自PLM的问题表示进行匹配。
NSM（He等人，2021）首先按照GraftNet进行检索，然后使用神经状态机（Hudson & Manning，2019）在视觉推理中进行多跳推理的适应。
TransferNet（石等人，2021）首先按照GraftNet进行检索，然后在一个透明的框架中对知识图谱或文本形式的关系图执行多跳推理。推理模型包括一个PLM用于问题编码和一个图神经网络用于更新实体与问题之间的相关性分数。
SR+NSM（张等人，2022）首先学习了一个基于PLM的关系路径检索器，以有效地进行检索，然后利用NSM推理器进行多跳推理。
SR+NSM+E2E（张等人，2022）进一步通过端到端的方式对SR+NSM进行微调。

C 知识图谱预处理细节

我们按照现有工作（Sun等，2018；He等，2021）的方式对整个Freebase进行预处理。对于MetaQA，我们直接使用由数据集提供的WikiMovies子集，其大小约为134,741。对于WebQSP和CWQ数据集，我们将检索和推理的最大跳数分别设置为两跳和四跳。根据原始数据集中标注的主题实体，我们为每个样本保留主题实体四跳内的邻近子图。经过这样的简单预处理后，我们使用的知识图谱大小为WebQSP的147,748,092和CWQ的202,358,414。基于预处理后的知识图谱，我们使用我们提出的方法进行检索和推理。

D 实现细节

在预训练阶段，我们根据主题实体和答案实体之间的最短关系路径收集问题-关系对，并使用这些对以对比学习目标预训练RoBERTa-base（Liu等人，2019）模型。我们将温度τ设置为0.05，并通过在验证集上评估Hits@1来选择最佳模型。对于检索和推理，我们使用对比学习预训练的RoBERTa来初始化我们的UniKGQA模型的PLM模块，并将其他线性层的隐藏大小设置为768。我们使用AdamW优化器优化参数，其中PLM模块的学习率为0.00001，其他参数的学习率为0.0005。批次大小设置为40。对于CWQ数据集，推理步骤设置为4，对于WebQSP和MetaQA-3数据集，设置为3，对于MetaQA-2数据集，设置为2，对于MetaQA-1数据集，设置为1。我们按照现有工作（Sun等，2018；He等，2021）对每个数据集的KG进行预处理。

E 针对MetaQA的一次性实验

由于MetaQA中的样本数量充足，我们实验中所有的对比方法都取得了非常高的性能。例如，我们的方法和之前的工作（如TransferNet和NSM）在MetaQA上达到了超过98%的Hits@1，这表明这个数据集的性能可能已经饱和。为了检验这个假设，我们考虑进行一些微调实验来验证不同方法的性能。具体来说，我们遵循NSM论文（He等人，2021）中进行的一击实验方法。我们从原始训练集中随机抽取每个问题模板的一个训练案例，从而形成一个一击训练数据集。通过这种方式，MetaQA-1、MetaQA-2和MetaQA-3的训练样本数量分别为161、210和150。我们评估了我们的方法和一些强大的基线（即TrasnferNet和NSM）在新训练数据集上的性能。如表6所示，我们的方法在所有三个子集中都能持续优于这些基线。
在这里插入图片描述

表6：MetaQA上的一次性实验结果（以百分比为单位的Hits@1）。

F 我们的统一模型架构的消融研究

统一模型架构是我们方法的关键。一旦移除统一模型架构，就很难在检索和推理阶段分享经过预训练增强的问题关系匹配能力，同时也难以将在检索阶段学到的多跳知识图谱问答的相关信息传递到推理阶段。为了验证这一点，我们进行了额外的裁剪研究，探讨仅采用统一模型结构作为推理模型或检索模型的效果。我们选择了现有的强大检索模型（即SR）和推理模型（即NSM），并比较了与我们的UniKGQA集成时的性能。如表7所示，所有变体的表现都不及我们的UniKGQA。这表明，在检索和推理阶段同时使用统一模型确实是提高性能的关键原因。

在这里插入图片描述

表7：通过将我们的UniKGQA与其他模型相结合进行的消融研究。

G 预训练策略分析

我们进行了分析实验，以研究预训练策略（Pre）如何在更新PLM（QU）的情况下影响性能。我们在表8中展示了结果。一旦移除了预训练策略，模型性能在WebQSP和CWQ数据集上分别下降了10.4%(固定PLM)和5.1%(不固定PLM)。这表明预训练策略是我们方法的重要组成部分。经过预训练后，PLM可以在微调期间被固定以实现更高效的参数优化。

在这里插入图片描述

表8：带有或不带预训练策略（Pre）和更新PLM（QU）的变体结果。

H 参数敏感性分析

预训练步骤 尽管预训练策略在我们的方法中表现出了有效性，但过多的预训练步骤将会耗费时间和成本。在这里，我们研究了随着预训练步骤变化的性能。如图4左所示，我们可以看到，与最好的基线TransferNet相比，我们的方法只需很少的预训练步骤（即2800步）就能达到最佳性能。这表明，我们的方法不需要太多的预训练步骤。相反，我们可以看到，过多的预训练步骤会损害模型性能。原因可能是PLM过度适应了对比学习目标。
在这里插入图片描述

图4：在WebQSP上进行的消融研究结果。随着预训练步骤（左）、隐藏维度（中）和检索节点数量K（右）的变化，WebQSP的表现。

参数调整。在我们的方法中，需要调整两个超参数：(1) 线性层的隐藏大小d和(2)检索节点的数量K。在这里，我们从{64, 128, 256, 512, 768, 1024}中调整d，并从{1, 5, 10, 15, 20}中调整K。我们在图4中间和右边展示了结果，并与推理阶段和检索阶段的最佳结果进行了比较。由于K是UniKGQA和SR中一致的超参数，我们还描述了使用不同K的SR的各种结果，以便进行公平的比较。首先，我们可以看到我们的方法对不同的隐藏大小具有很强的鲁棒性，因为性能始终在77.0附近。由于PLM采用768作为嵌入大小，我们可以看到768比其他数字略好一些。此外，我们可以看到，随着K的增加，答案覆盖率也持续提高。然而，当K增加到15甚至20时，性能提升变得相对较小。这意味着检索到的子图可能已经饱和，进一步增加K只能带来微小的改进。