Improving Multi-hop Knowledge Base Question Answering by Learning Intermediate Supervision Signal笔记

最新推荐文章于 2024-10-12 18:23:57 发布

QYLZ

最新推荐文章于 2024-10-12 18:23:57 发布

阅读量1k

点赞数 15

分类专栏：论文笔记文章标签：自然语言处理人工智能 python nlp 深度学习语言模型机器学习

本文链接：https://blog.csdn.net/weixin_56242678/article/details/137402222

版权

论文笔记专栏收录该内容

37 篇文章 0 订阅

订阅专栏

在这里插入图片描述

论文标题：通过学习中间监督信号来提高多跳知识库问答的性能

论文链接：https://arxiv.org/abs/2101.03737
arXiv:2101.03737v2 [cs.CL] 7 Apr 2021

摘要

多跳知识库问答（KBQA）的目标是在知识库（KB）中找到与问题中的实体有多次跳跃关系的答案实体。主要的挑战在于中间步骤缺乏监督信号。因此，多跳KBQA算法只能从最终答案中获得反馈，这使得学习不稳定或无效。

为了解决这个挑战，我们提出了一种新颖的师生式方法来完成多跳知识库问答任务。在我们的方法中，学生网络的目标是找到查询的正确答案，而教师网络则试图学习中间监督信号以提高学生网络的推理能力。主要的创新点在于教师网络的设计，我们利用前向和后向推理来增强中间实体分布的学习。通过考虑双向推理，教师网络可以产生更可靠的中间监督信号，这可以缓解虚假推理的问题。在三个基准数据集上的大量实验已经证明了我们方法在KBQA任务中的有效性。用于重现我们分析的代码可以在https://github.com/RichardHGL/WSDM2021_NSM上获取。

关键词：知识库问答；师生网络；中间监督信号

1 简介

知识库问答（KBQA）是一项具有挑战性的任务，旨在从给定的知识库（KB）中找到自然语言问题的答案。传统的解决方案[2, 5, 7, 36]通常会开发一个专门的流程，包括多个机器学习或手工设计的模块（例如，命名实体识别，实体链接）。最近，端到端深度神经网络（如[21，31]）成为了这项任务的流行范式，通过自动学习数据表示和网络参数。

对于KBQA任务，越来越多的人关注解决需要多步推理过程的复杂问题，这种被称为多跳KBQA。除了最终的答案，一个能够识别出通向答案实体的合理关系路径的多跳KBQA算法也很重要[6, 27]。在某些情况下，即使找到了正确的答案，关系路径也可能是偶然的。我们将在图1中展示一个虚假的多步推理示例。问题为：“在《九命野猫》中，演员们主演的电影类型是什么？”除了正确的路径（红色箭头所示），还有两条虚假的路径（蓝色箭头所示）也可以通过包含第一步骤中的导演实体来找到正确答案。这主要是由于在中间推理步骤中缺乏监督信号（我们称之为中间监督信号）。对于多跳KBQA任务，训练数据通常是以⟨问题，答案⟩的形式，而不是理想的⟨问题，关系路径⟩形式。因此，使用这种数据集，多跳推理算法只能在最终答案处接收到反馈。
在这里插入图片描述

图1：来自MetaQA-3hop数据集的虚假案例。我们使用绿色、红色、黄色和灰色圆圈分别表示主题实体、正确答案、中间实体和无关实体。

为了解决这个问题，有几项研究将多跳知识库问答（KBQA）制定为强化学习（RL）任务[3, 22, 27]。他们设置了一个基于策略的代理，以顺序扩展其推理路径，直到达到目标实体。状态通常定义为查询和当前实体的元组，动作为通过当前实体的出站边在知识库上进行遍历。基于RL的方法严重依赖于终端奖励来偏置搜索。为防止在搜索过程中出现虚假路径，有研究者提出了奖励塑造（reward shaping）[22, 27]和动作辍取（action dropout）[22]来改进模型学习。然而，这些解决方案要么需要专家经验，要么在中间步骤仍然缺乏有效的监督信号。

与以往的研究不同，我们的想法是为多跳知识库问答（KBQA）建立两个具有不同目的的模型。主要模型旨在找到查询的正确答案，而辅助模型则试图学习中间监督信号以提高主要模型的推理能力。具体来说，辅助模型推断在中间步骤中哪些实体与问题更相关，并将这些实体视为中间监督信号。虽然这个想法很吸引人，但由于我们没有这样的标注数据进行训练，因此学习一个有效的辅助模型是具有挑战性的。

我们的解决方案受到了图上的双向搜索算法（例如，双向BFS[17]）的启发，在这种算法中，通过双向探索可以更有效地找到连接源和目标的理想路径。实际上，对于KBQA任务，我们也有两个不同的视角来考虑其设置：向前推理找到从主题实体（即查询中的实体）到答案实体的路径，以及向后推理从答案实体返回到主题实体。大多数现有方法只考虑向前推理。然而，可以联合模型这两个推理过程，因为主题实体和答案实体在训练数据中都是已知的。这种双向推理机制能够结合中间步骤的额外自我监督信号。如图1所示，通过前向推理在第二步获得的实体分布应与通过后向推理在第一步获得的实体分布相似。无关实体“魔鬼之门”和“棺材岩”很可能在前向推理的第二步被触及，但在后向推理的第一步无法触及。为了保持两个过程之间的对应关系，我们应该避免在前向推理的第一步中包含导演“罗伯特·泰勒”。这种潜在的对应关系有助于提高每个单独推理过程在中间步骤的学习效果。这就是我们学习可靠中间监督信号的关键点。

为了这个目标，本文提出了一种新的师生方法，适用于多步知识库问答任务。具体而言，学生网络（即核心模型）的目标是找到答案，它通过修改神经状态机（NSM）[14]来实现，该模型源于视觉问题回答领域。在我们的方法中，学生网络能够根据教师网络学到的中间实体分布进行自我提升。主要的创新点在于教师网络的设计（即辅助模型），它提供了中间监督信号。我们利用前后推理过程中的状态信息之间的对应关系来增强中间实体分布的学习。我们进一步设计了两种推理架构，以支持前向和后向推理之间的集成。通过考虑双向推理，教师网络可以减轻虚假推理的问题，并产生更可靠的中间监督信号。

为了评估我们的方法，我们在三个基准数据集上进行了广泛的实验。大量的实验表明，我们的方法在多跳知识库问答任务中非常有效，尤其是在缺乏训练数据的情况下。据我们所知，这是第一次使用教师-学生框架显式地学习中间监督信号。

2 相关工作

我们的工作与KBQA（知识库问答）、多跳推理和教师-学生框架的研究密切相关。

知识库问答。对于KBQA任务，过去十年里已经开发出了各种方法。它们可以分为两类：语义解析法和检索法。基于语义解析的方法[2, 19, 21, 36, 37]学习一个语义解析器，该解析器将自然语言问题转换为中间逻辑形式，这些逻辑形式可以在知识库中执行。基于检索的方法[5, 24, 30, 31, 34]根据问题中的信息直接从知识库中检索答案。

最近，研究人员越来越关注基于多跳的KBQA。一些工作[24, 31, 38]采用了经典方法（例如，变分推理网络、键值存储网络和图卷积网络）在知识库中进行多跳推理。此外，Sun等人[30]和Saxena等人[29]利用额外的语料库和丰富的知识图嵌入来提高多跳KBQA的性能。然而，这些方法只将最终预测的性能作为唯一目标，因此容易受到虚假例子的影响。

多跳推理。近年来，多跳推理成为了计算机视觉和自然语言处理领域的热门研究主题。Min等人[25]提出将复杂的查询分解成若干个单跳查询，并逐个解决。Hudson等人[13]设计了一种新颖的循环记忆、注意力和组合（MAC）单元，将复杂推理分为一系列基于注意力的推理步骤。Das等人[3, 22]在图上的强化学习环境中进行了多跳推理，并将每个推理步骤视为图上的边转换。此外，还有相当数量的研究采用了图神经网络（GNN）[16, 33]来对图结构进行显式推理[12, 31]。

教师-学生框架。知识蒸馏（KD）由早期工作[10]引入和推广。他们提出了一种教师-学生框架，其中复杂的高性能模型和轻量级模型分别被视为教师和学生。教师模型的预测被视为“软标签”，学生模型被训练以适应这些软标签。虽然知识蒸馏最初是为模型压缩而提出的，但最近的研究[9、39]发现，将软标签作为训练目标可以帮助学生获得更好的表现。

一些研究也将教师-学生框架应用于问答任务。Yang等人[35]设计了一种多教师知识蒸馏范式，用于Web问答系统。Do等人[4]和Hu等人[11]分别将教师-学生框架应用于视觉问答任务和阅读理解任务。在这项工作中，我们试图通过一个精心设计的教师-学生框架来解决多跳KBQA任务中由弱监督引起的虚假推理问题。

3 预备知识

在这一部分，我们介绍背景并定义任务。

知识库（KB）。知识库通常将事实信息组织为一组三元组，表示为G = {⟨𝑒,𝑟,𝑒′⟩|𝑒,𝑒′ ∈ E,𝑟 ∈ R}，其中E和R分别表示实体集和关系集。三元组⟨𝑒,𝑟,𝑒′⟩表示头实体𝑒和尾实体𝑒′之间存在关系𝑟。此外，我们引入实体邻域来表示涉及实体𝑒的三元组集合，记为𝑁_𝑒 = {⟨𝑒,𝑟,𝑒′⟩ ∈𝐺} ∪ {⟨𝑒′,𝑟,𝑒⟩ ∈𝐺}，包含𝑒的入站和出站三元组。为了简单起见，我们将一个三元组⟨𝑒,𝑟,𝑒′⟩替换为其反向三元组⟨𝑒′,𝑟−1,𝑒⟩，以便我们可以有𝑁_𝑒 = {⟨𝑒′,𝑟,𝑒⟩ ∈𝐺}。为了方便起见，我们使用斜体粗体字体表示实体或关系的嵌入。让 ${\mathbf{E}} \in {{\mathbb{R}}^{d \times |E|}}$ 和 ${\mathbf{R}} \in {{\mathbb{R}}^{d \times |R|}}$ 分别表示知识库中实体和关系的嵌入矩阵，其中每一列向量 ${\mathbf{e}} \in {{\mathbb{R}}^d}$ 或 ${\mathbf{r}} \in {{\mathbb{R}}^d}$ 是实体 $e$ 或关系 $r$ 的 $d$ -维嵌入。

知识库问答（KBQA）。我们关注的是在知识库上的事实型问题回答。我们假设一个知识库G作为可用资源，并且答案将是G中的实体。正式地，给定一个自然语言问题 $q = \{w_1, w_2, ..., w_l\}$ 和一个知识库G，KBQA的任务是从候选实体集 $E$ 中找出问题q的答案实体，表示为集合 $A_q$ 。在问题中提到的实体称为主题实体。特别地，我们考虑解决复杂问题，其中答案实体在知识库中离主题实体有多跳，这称为多跳KBQA。

4 所提出的方案

在这部分，我们提出了一个基于教师-学生框架的多跳知识库问答（KBQA）任务的方法。

4.1 概述

多跳KBQA的一个主要困难在于，它通常在中间推理步骤缺乏监督信号，因为只给出了答案实体作为真实信息。为了解决这个问题，我们采用了最近提出的教师-学生学习框架[10, 28]。主要思路是训练一个专注于多跳知识库问答任务本身的学生网络，同时另一个教师网络被训练以提供（伪）监督信号（即在我们的任务中推断出的实体分布）以便在中间推理步骤中改进学生网络。

在我们的方法中，学生网络是基于神经状态机（NSM）[14]实现的，它最初是为了在从图像数据提取的场景图上进行视觉问题回答而提出的。我们将它适应于多跳KBQA任务，通过将知识库视为一个图，并在多跳推理过程中逐渐学习实体分布。为了开发教师网络，我们通过引入一种新颖的双向推理机制来修改NSM（非显式状态机）的结构，以便在中间推理步骤中学习更可靠的实体分布，这些分布随后将被学生网络作为监督信号使用。

接下来，我们首先描述适用于多跳知识库问答（KBQA）的适应性NSM架构，然后介绍教师网络和模型学习。

4.2 神经状态机用于多跳知识库问答

我们在图2中展示了NSM的整体草图。它主要由一个指令组件和一个推理组件组成。指令组件向推理组件发送指令向量，而推理组件推断实体分布并学习实体表示。
在这里插入图片描述

图2：神经状态机在问题“哪个人导演了约翰·克拉辛斯基主演的电影？”上的两个推理步骤示意图。在不同的推理步骤中，指令向量关注问题的不同部分。

4.2.1 教学组件

我们首先描述如何将给定的自然语言问题转换为一系列指导向量，以控制推理过程。教学组件的输入包括一个查询嵌入和上一步推理的指令向量。初始指令向量设置为零向量。我们使用GloVe [26]获取查询词的嵌入。然后我们采用标准的LSTM编码器来获得一组隐藏状态 ${\{h_j\}}^l_{j=1}$ ，其中 ${\mathbf{h}_{j}} \in {{\mathbb{R}}^{d}}$ ，l是查询的长度。之后，最后一个隐藏状态被认为是问题的表示，即q= $h_l$ 。让 ${\mathbf{i}^{(k)}} \in {{\mathbb{R}}^{d}}$ 表示第k个推理步骤的指令向量。我们采用以下方法学习指令向量 ${\mathbf{i}^{(k)}}$ :
在这里插入图片描述
其中， ${\mathbf{W}^{(k)}} \in {{\mathbb{R}}^{d \times 2d}}$ , ${\mathbf{W}_{\alpha}} \in {{\mathbb{R}}^{d \times d}}$ , ${\mathbf{b}_{\alpha}} \in {{\mathbb{R}}^{d}}$ 是要学习的参数。其核心思想是，在不同时间步骤学习指令向量时，关注查询的特定部分。在这一过程中，我们还会动态更新查询表示，使其能够包含之前指令矢量的信息。通过重复上述过程，我们可以在经过 𝑛 个推理步骤后得到一个指令向量列表 ${\{i^{(k)}\}}^n_{k=1}$ 。

4.2.2 推理组件

一旦我们获得了指导向量𝒊^(𝑘)，我们可以将其作为推理组件的引导信号。推理组件的输入包括当前步骤的指导向量，以及从上一步推理中获得的实体分布和实体嵌入。推理组件的输出包括实体分布概率𝒑^(𝑘)和实体嵌入向量{𝒆^(𝑘)}。首先，我们通过考虑涉及𝑒的关系来设置初始实体嵌入向量：
在这里插入图片描述
其中， ${\mathbf{W}_{T}} \in {{\mathbb{R}}^{d \times d}}$ 是需要学习的参数。与以往的研究[24, 31]不同，我们明确地利用相关关系类型的信息对实体进行编码。在多跳知识图谱问答任务中，由多个关系类型组成的推理路径可以反映指向答案实体的重要语义信息。此外，这种方法还有助于降低噪声实体的影响，并且易于应用于已知上下文关系但未曾出现过的实体。注意，我们在初始化𝑒⁽⁰⁾时并未使用原始的嵌入式𝑒，因为对于推理路径中的中间实体，这些实体的标识符并不重要；最重要的是这些中间实体所参与的关系。

给定一个三元组⟨𝑒′,𝑟,𝑒⟩，通过匹配当前指令𝑖^(𝑘)与关系向量𝑟来学习匹配向量 $m^{(k)}_ {⟨e′,r,e⟩}$ :
在这里插入图片描述
其中， ${\mathbf{W}_{R}} \in {{\mathbb{R}}^{d \times d}}$ 是需要学习的参数。此外，我们对相邻三元组的匹配消息进行聚合，并根据它们在上一步推理中获得的关注度分配权重：

在这里，我们使用公式表示实体𝑒′在上一步推理中被分配的概率 $p^{(k-1)}_ {e′}$ ，接下来我们将解释这一点。这种表示方法能够捕捉知识库中与实体相关的语义关系。然后，我们按照以下方式更新实体嵌入：

在这里插入图片描述

其中FFN(·)表示一个输入为前一次嵌入𝑒^(𝑘−1)和关系聚合嵌入 $\widetilde{e}^{(k)}$ 的前馈层。

通过这样的过程，关系路径（从主题实体到答案实体）及其与问题的匹配程度可以被编码到节点嵌入中。在第𝑘步得到的中间实体的概率分布可以计算为：

在这里插入图片描述
其中，E^(k)是一个矩阵，其中每列向量是第𝑘步时实体的嵌入，而 ${\mathbf{w}} \in {{\mathbb{R}}^{d}}$ 是参数，用于导出实体分布𝒑^(𝑘)，并且E^(𝑘)是通过方程5更新的实体嵌入矩阵。

4.2.3 讨论

我们选择NSM模型作为学生网络的原因有两个。首先，我们的核心思想是利用从教师网络得出的中间实体分布作为学生网络的监督信号。相比之下，大多数以前的多跳知识库问答方法并没有明确地维护和学习这些在中间步骤的实体分布。其次，NSM可以被视为一种特殊的图神经网络，它在给定知识图上具有出色的推理能力。如第4.2.2节所示，实体分布和实体嵌入的学习确实可以对应于图神经网络的一般“传播然后聚合”更新机制。我们希望利用这种强大的神经架构来解决当前的任务。

NSM[14]被提出用于在抽象的潜在空间中进行视觉推理。我们对多跳KBQA进行了两项重大改编。首先，在方程2中，我们通过聚合实体涉及的关系的嵌入来初始化节点嵌入。在我们的任务中，给定的知识库通常非常庞大。一个实体很可能与许多其他实体有联系。我们的初始化方法能够降低噪声实体的影响，专注于重要关系语义。另外，该方法还易于推广到已知关系的新的或未知实体，这在增量训练中尤其重要。其次，在方程5中，我们通过整合之前的实体嵌入e^(k-1)和关系聚合嵌入 $\widetilde{e}^{(k)}$ 来更新实体嵌入。为了比较，原始的NSM[14]分别对这两部分进行建模，而我们将这两个因素结合在一个统一的更新过程中，这有助于得出更有效的节点嵌入。

4.3 教师网络

与学生网络不同，教师网络旨在学习或推断中间推理步骤中可靠的实体分布。请注意，没有这样的标记实体分布用于训练教师网络。相反，我们受到双向搜索算法（例如双向BFS[17]）的启发，将双向推理机制纳入教师网络，以增强对中间实体分布的学习。

4.3.1双向推理用于多跳KBQA

给定一个知识库，多跳KBQA的推理过程可以被认为是图上的探索和搜索问题。大多数现有的多跳KBQA方法从主题实体开始，然后寻找可能的答案实体，这称为正向推理。另一方面，从答案实体到主题实体的反向搜索（我们称之为反向推理）在先前的研究中被忽视了。我们的核心思想是考虑两个方向上的探索，并让这两个推理过程在中间步骤相互同步。这样，得出的中间实体分布会比单个方向学习到的更可靠。更具体地说，给定一个n跳的推理路径，让 $p^{(k)}_ {f}$ 和 $p^{(n-k)}_ {b}$ 分别表示第k步向前推理的实体分布和第(n-k)步向后推理的实体分布。关键点在于，如果两个推理过程稳定且准确，那么这两个分布应该相似或一致，即 $p^{(k)}_ {f}$ ≈ $p^{(n-k)}_ {b}$ 。我们将在以下模型中利用这种对应关系作为约束。

4.3.2 推理架构

基于上述想法，我们为教师网络设计了两种神经架构，即并行推理和混合推理。

并行推理。第一种方法是在前向推理和后向推理中分别设置两个独立的非确定性采样模块（NSMs）。这两个NSM网络相对孤立，不共享任何参数。我们只考虑在它们之间的中间实体分布上引入对应关系约束。

混合推理。在第二种方式中，我们共享相同的指令组件，并将两个推理过程安排在一个循环的流水线中。除了对应关系约束，这两个过程还接收相同的指令向量。此外，前向推理最后一步得出的信息被作为初始值输入到后向推理中。在这个情况下，以下方程成立：
在这里插入图片描述
我们展示了并行推理和混合推理的示例，分别在图3(a)和图3(b)中。通过比较这两种推理架构，可以看出，并行推理具有更松散的集成方式，而混合推理需要在两种推理过程中的信息之间进行更深的融合。与双向BFS不同，在我们的任务中，反向推理可能无法完全模仿正向推理的逆过程，因为这两个过程在多跳KBQA中对应于不同的语义。考虑到这个问题，我们共享指令向量并回收前向推理的最终状态以初始化后向推理。这样，后向推理可以获得更多关于前向推理的信息，从而更好地追溯前向推理的推理路径。
在这里插入图片描述

图3：设计的教师架构示意图。我们使用蓝色、黄色和橙色的方块分别表示指令组件、前向推理组件和后向推理组件。虚线箭头连接两个推理过程中的相应中间实体分布。我们使用𝑓和𝑏作为子脚本来区分前向推理和后向推理。

4.4 通过教师-学生框架进行学习

在这部分，我们详细介绍了使用我们的教师-学生框架进行模型学习的过程。

4.4.1 优化教师网络

教师网络的两个推理架构可以通过相同的方式进行优化。我们主要考虑两部分损失，即推理损失和对应关系损失。

推理损失反映了预测准确实体的能力，它可以分解为两个方向：
在这里插入图片描述
其中， $p^{(n)}_f$ ( $p^{(n)}_b$ )表示向前（向后）推理过程的最终实体分布， $p^*_f$ ( $p^*_b$ )表示地面真实实体分布，𝐷𝐾𝐿(·, ·)是Kullback-Leibler散度[18]，它以不对称的方式测量两个分布之间的差异。为了获得 $p^*_f$ 和 $p^*_b$ ，我们将地面真实实体的发生转换为频率归一化的分布。具体来说，如果图中𝑘个实体是真实实体，那么它们在最终分布中的概率被赋予1/𝑘。

对应关系损失反映了两个推理过程中中间实体分布的一致性程度。可以通过将每个中间步骤的损失相加来计算它:
在这里插入图片描述
其中D_JS(·, ·)是Jensen-Shannon散度[8]，它以对称的方式测量两个分布之间的差异。

为了结合上述损失项，我们定义教师网络的整个损失函数L_t为：
在这里插入图片描述
其中𝜆_𝑏和𝜆_𝑐是介于（0，1）之间的超参数，用于控制各因素的权重。

4.4.2 优化学生网络

在教师模型训练收敛后，我们可以得到两个推理过程中的实体分布。我们将这两个分布的平均值作为监督信号：

在这里插入图片描述
如前所述，我们采用NSM模型作为学生网络进行前向推理。除了推理损失外，我们还结合了学生网络预测与教师网络监督信号之间的损失：

在这里插入图片描述
其中， $p^{(k)}_t$ 和 $p^{(k)}_s$ 分别表示教师网络和学生网络在第𝑘步的中间实体分布，𝜆是一个超参数用于调整。

实际上，很少有可用的中间推理步骤的标注数据。大多数现有方法仅依赖于最终答案来学习整个模型，这可能无法得到良好的训练或者形成错误的推理路径。我们的方法采用教师网络来提高学生网络的性能。主要创新点在于在生成更可靠的中间实体分布时利用前向和后向推理。请注意，我们没有使用任何额外的标注数据来训练教师网络中的中间推理步骤。相反，我们试图通过强制双向推理过程中的对应关系来学习这些中间实体分布。据我们所知，在多跳KBQA任务中，很少考虑向后推理及其与向前推理的对应关系。这种想法确实与最近的自监督学习进展有关[15]，其中我们利用内部监督信号来学习模型。

5 实验

在本节中，我们在KBQA任务上对我们的方法进行评估实验。

5.1 数据集

我们采用三个基准数据集用于多跳知识图谱问答任务：
MetaQA [38] 包含超过40万个单跳和多跳（最多3跳）的电影领域的问题，包含三个数据集，即MetaQA-1hop、MetaQA-2hop和MetaQA-3hop。
网页问答SP（webqsp）[36]包含4737个可以用Freebase作为知识库回答的自然语言问题。这些问题需要从知识库进行最多2跳的推理。我们使用与GraftNet [31]相同的训练/开发/测试划分。
复杂网络问题1.1（CWQ）[32]是从WebQuestionsSP中生成的，通过扩展问题实体或对答案添加约束。问题分为四种类型：组合（45%）、联合（45%）、比较性（5%）和最高级（5%）。这些问题需要在知识图谱上进行最多4次跳转的推理。遵循[30, 31]，我们使用原始数据集中标记的主题实体，并采用PageRank-Nibble算法（PRN）[1]来找到与它们接近的知识图谱实体。通过这些实体，我们可以获得一个相对较小的子图，该子图很可能包含答案实体。对于CWQ和webqsp数据集，我们首先获取主题实体两跳内的邻域图，然后在它上面运行PRN算法。我们进一步扩展Freebase中CVT实体的一跳，以获取邻域子图。如表1所示，2跳图足以覆盖大多数答案实体。而在MetaQA数据集上，我们在整个知识库上运行PRN算法。具体来说，我们使用PRN算法[1]，设置𝜖=1e^-6，然后选择得分最高的前m个实体。我们设置𝑚=500用于较小的MetaQA KB，𝑚=2000用于较大的Freebase。对于保留的三元组，它们的头实体和尾实体都来自PRN算法识别出的前𝑚个实体。我们在表1中总结了这三个数据集的统计信息。
在这里插入图片描述

表1：所有数据集的统计信息。"#实体"表示子图中的平均实体数量，而"覆盖率"表示子图中至少有一个答案的比例。

5.2 实验设置

5.2.1 评估协议

我们遵循[30, 31]将多跳知识库问答任务视为排名任务进行评估。对于数据集中的每个测试问题，模型会根据预测概率返回一个答案列表。我们采用两种在以往工作中广泛使用的评估指标，即准确率（Hits@1）和F1值。具体来说，准确率是指顶部答案是否正确。对于所有方法，我们使用训练集来学习它们，并使用验证集优化参数，然后在测试集上比较它们的性能。

5.2.2 方法对比

我们考虑以下方法进行性能对比：

KV-内存[24]为检索维护一个内存表，该表存储以键值对编码的知识库事实。
GraftNet[31]采用图卷积网络的变体，在异构图上执行多跳推理。
PullNet[30]利用最短路径作为监督来训练图检索模块，并在检索到的子图上使用GraftNet进行多跳推理。
SRN[27]是在RL设置下的多跳推理模型，通过在知识库上扩展推理路径来解决多跳问题回答。
EmbedKGQA[29]通过将预训练的实体嵌入与来自RoBERTa[23]的问题嵌入相匹配，进行多跳推理。
NSM、**NSM_+𝑝和NSM_+ℎ**是我们的模型的三种变体，它们分别（1）不使用教师网络，（2）使用具有并行推理的教师网络，以及（3）使用具有混合推理的教师网络。

5.2.3 实现细节

在训练学生网络之前，我们首先在多跳KBQA任务上预训练教师网络。为了避免过拟合，我们采用早停策略，每5个周期在验证集上评估一次Hits@1。我们使用Adam优化器优化所有模型，其中批量大小设置为40。学习率在{0.01, 0.005, 0.001, 0.0005, 0.0001}中进行调整。对于CWQ数据集，推理步骤设置为4，而对于其他数据集则设置为3。系数𝜆（在式12中）和𝜆𝑏, 𝜆𝑐（在式10中）在{0.01, 0.05, 0.1, 0.5, 1.0}中进行调整。

5.3 结果

在这里插入图片描述

表2：不同方法的KBQA性能比较（以百分比为单位的Hits@1）。我们从[30]中复制了KV-Mem、GraftNet和PullNet的结果，从[27, 29]中复制了SRN和EmbedKGQA的结果。粗体和下划线字体表示最好和第二好的方法。

表2展示了KBQA不同方法的结果。可以观察到：

（1）在基线方法中，KV-Mem的表现最差。这可能是因为它没有明确考虑复杂的推理步骤。大多数方法在MetaQA-1hop和MetaQA-2hop数据集上的表现非常好，这些数据集只需要最多两步的推理。另一方面，其他数据集似乎更难处理，尤其是webqsp和CWQ数据集。总的来说，EmbedKGQA和PullNet比其他基线更好。PullNet基于主题实体和答案实体之间的最短路径训练了一个有效的子图检索模块。这样的模块特别有助于减少子图大小并产生高质量的候选实体。

（2）我们的基本模型（即单个学生网络）NSM在大多数情况下表现优于竞争性基线。它基于图神经网络开发，并为这项任务提供了两个新颖的扩展（见第4.2节）。教师-学生框架的优势在不同的数据集上表现出差异。具体而言，在两个最困难的数据集Webqsp和CWQ上，NSM_+𝑝和NSM_+ℎ的变体明显优于NSM和其他基线。这些结果表明，在我们的方法中，教师网络的有效性在很大程度上提高了学生网络。与SRN和PullNet不同，我们设计了一种新颖的双向推理机制，以学习更可靠的中间监督信号。比较NSM_+𝑝和NSM_+ℎ，我们发现它们的结果相似。在Webqsp和CWQ数据集上，混合推理稍微优于并行推理，以提高学生网络。

5.4 详细性能分析

表2显示，我们的方法总体上具有更好的性能。接下来，我们进行一系列详细的分析实验。
为了清晰起见，我们仅将NSM的结果作为参考，因为它在所有基线中表现普遍良好。

5.4.1

消融研究。以前的实验已经表明，主要的改进来自于教师网络的贡献。在这里，我们比较了不同实现方式的教师网络的效果。所比较的变体包括：(1) $\underline{NSM_{+f}}$ 使用仅前向推理（单向）；(2) $\underline{NSM_{+b}}$ 使用仅后向推理（单向）；(3) $\underline{NSM_{+p}}$ 使用并行推理（双向）；(4) $\underline{NSM_{+h}}$ 使用混合推理（双向）；(5) $\underline{NSM_{+p,-c}}$ 从NSM+𝑝中删除对应关系损失（公式9）；(6) $\underline{NSM_{+h,-c}}$ 从 $\underline{NSM_{+h}}$ 中删除对应关系损失（公式9）。在表3中，我们可以看到单向推理始终不如双向推理：NSM+𝑓和NSM+𝑏的变体性能低于其他变体。这种观察证实了我们的假设，即双向推理可以提高中间监督信号的学习效果。此外，通过从教师网络中删除对应损失，性能大幅下降，这表明前向和后向推理可以相互增强。
在这里插入图片描述

表3：教师网络的消融研究（以百分比表示）。

5.4.2 参数调整

在我们的方法中，我们有几个组合系数需要调整，包括方程12中的𝜆，以及方程10中的𝜆𝑏和𝜆𝑐。我们首先在{0.01, 0.05, 0.1, 0.5, 1.0}中调整𝜆，它控制着教师网络对学生网络的影响。如图4所示，混合推理在小的𝜆（例如0.05）时表现较好，而并行推理在相对较大的𝜆（例如1.0）时效果更佳。同样地，我们也可以调整参数λb和λc。总的来说，我们发现λc=0.01和λb=0.1是我们的方法的好选择。另一个需要调整的参数是嵌入维度d（设置为100），并且当d>100时，我们没有观察到显著的改进。推理步骤𝑛应根据不同的数据集进行调整。我们观察到，我们的方法在CWQ数据集上以𝑛=4取得了最佳性能，而在其他数据集上则使用穷尽搜索，𝑛=3。由于篇幅限制，我们省略了这些调优结果。

在这里插入图片描述

图4：我们方法的性能调优。

5.4.3 评估中间实体

我们做出的一个重要假设是，我们的教师网络可以比学生网络获得更可靠的中间实体。在这里，我们比较了两个网络在找到中间实体方面的表现。由于MetaQA-3hop数据集是使用预定义的模板创建的，我们可以恢复中间跳转的地面真实实体。我们将此任务视为检索任务，并采用标准的精确度、召回率和F1作为评估指标。从表4中我们可以看到，教师网络在找到中间实体方面比学生网络表现更好，但在第二跳时的性能稍微差一些。注意，由于第三个跃点是最后一个跃点，所以其结果已被省略。由于学生网络只使用前向推理，所以第一个跃点的结果比后续跃点的结果更重要。这些结果也解释了为什么我们的教师-学生方法比单个学生模型更好。
在这里插入图片描述

表4：在MetaQA-3hop数据集上关于不同跳数的性能比较（以百分比为单位）。

5.4.4 一次性评估。

在表2中，我们发现我们的方法相对于基本的NSM模型在MetaQA数据集上的改进非常小。我们怀疑这是因为MetaQA的数据量已经足够多了：每个数据集不超过300个模板，共有10万个训练样本。为了验证这一点，我们从原始训练集中随机抽取每个问题模板的一个训练样本来形成一个一次性的训练数据集。我们评估了使用新训练数据集训练的我们的方法的性能。结果如表5所示。正如我们所看到的，我们的方法仍然非常有效，而且与基本NSM相比，改进更加显著。
在这里插入图片描述

表5：在一击设置下的结果（以百分比表示）。

5.5 案例研究

我们的方法的主要创新点在于教师网络。接下来，我们通过一个案例研究来说明它是如何帮助学生网络的。

给定问题“音乐爱好者电影的编剧都写过哪些类型的电影”，正确的推理路径是“音乐爱好者”（电影）→由“梅尔文·布雷格”（编剧）→编写“玩命脏战”（电影）→具有类型“战争”（类型）。请注意，“伊萨多拉”在第二步也是符合条件的。然而，它的类型在知识库中缺失。图5展示了在改进前（即没有教师网络的情况下）学生学习到的结果、教师网络和改进后的学生网络之间的比较。
在这里插入图片描述

图5：来自MetaQA-3hop数据集的一个案例。我们使用绿色、红色、黄色和灰色圆圈分别表示主题实体、正确答案、中间实体和不相关实体。红色边缘表示不同方法的实际推理路径。颜色的深浅表示一个实体对一种方法的相关程度。为了简单起见，我们只可视化概率等于或高于0.01的实体。

如图5(a)所示，原始学生网络选择了通往无关实体的错误路径。在第一步中，NSM主要关注两个实体“Ken Russell”和“Melvyn Bragg”，概率分别为0.48和0.51。由于它在第一次推理步骤中错误地包括了“Ken Russell”（电影《音乐爱好者》的导演），最终将“戏剧”作为顶级实体，并选择了一个无关实体作为答案。相比之下，教师网络（图5（b））能够结合前向和后向推理来增强中间实体分布。正如我们所看到的，我们的教师在第一步为实体“梅尔文·布雷格”分配了一个非常高的概率0.99。当教师的监督信号被纳入学生时，它以高概率0.99正确地找到了答案实体“战争”（图5（c））。

这个例子表明，我们的教师网络确实在中间步骤提供了非常有用的监督信号，以提高学生网络的性能。

6 结论

在这篇论文中，我们基于教师-学生框架开发了一种精细的方法，用于多跳知识库问答任务。在我们的方法中，由通用神经状态机实现的学生网络专注于任务本身，而教师网络旨在学习中间监督信号以改进学生网络。对于教师网络，我们利用前向和后向推理过程中的状态信息之间的对应关系来增强中间实体分布的学习。我们进一步设计了两种推理架构，以支持前向和后向推理之间的整合。我们使用三个基准数据集进行了评估实验。结果表明，我们提出的模型在多跳知识库问答任务的有效性方面优于以前的方法。

目前，我们采用NSM模型作为学生网络。我们的方法可以灵活地扩展到其他基于图的神经架构或学习策略。在未来，我们还将考虑使用KB嵌入方法来增强实体嵌入，并获得更好的中间监督信号。