Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension

最新推荐文章于 2023-02-04 16:39:56 发布

置顶学人工智能的皮皮虾

最新推荐文章于 2023-02-04 16:39:56 发布

阅读量782

点赞数

分类专栏：图神经网络文章标签：深度学习自然语言处理

本文链接：https://blog.csdn.net/weixin_43747748/article/details/107077232

版权

图神经网络专栏收录该内容

5 篇文章 0 订阅

订阅专栏

论文解读：使用图注意力网络进行多粒度机器阅读理解的文档建模
阅读目的：学习该论文中基于文档结构的多粒度建模。

摘要

“自然问题”是一种具有挑战性的新机器阅读理解基准，它具有两个粒度的答案，即长答案（通常是一个段落）和短答案（长答案中有一个或多个实体）。尽管现有方法在此基准上很有效，但它们在训练期间会分别对待这两个子任务，而忽略了它们之间的依赖性。为了解决这个问题，我们提出了一个新颖的多粒度机器阅读理解框架，该框架专注于以文档的分层性质对文档进行建模，这些文档具有不同的粒度级别：文档，段落，句子和标记。我们使用图注意力机制取获得不同层次的表示，以便可以同时学习它们。长答案和短答案可以分别从段落级别表示和token级别表示中提取。这样，我们可以对两个粒度答案之间的依赖关系进行建模，以相互提供证据。我们共同训练了这两个子任务，我们的实验表明，在长和短答案标准上，我们的方法都明显优于以前的系统。

1.简介（introduction）

机器阅读理解（MRC）是一项旨在根据给定文档回答问题的任务，最近发布的数据集和模型已大大提高了阅读能力（Rajpurkar等人，2016; Seo等人，2017; Xiong等人， 2017; Joshi等，2017; Cui等，2017; Devlin等，2019; Clark和Gardner，2018）。自然问题（NQ，Kwiatkowski et al。，2019）是新发布的基准，通过引入比现有数据集和来自真实用户查询的问题更长的文档，使其更具挑战性。此外，与常规的MRC任务（例如Rajpurkar等人，2016）不同，在NQ中，答案以两种粒度的形式提供：长答案（通常是一个段落）和短答案（通常是位于长答案重的一个或多个实体）。图1显示了来自NQ数据集的示例
在这里插入图片描述
现有的NQ方法已经取得了可喜的成果。例如，Kwiatkowski等人（2019）使用两个独立的模型构建了管道模型：可分解注意力模型（Parikh等人，2016）选择长答案，以及文档阅读器模型（Chen等人，2017）。从选定的长答案中提取短答案。尽管这些方法有效，但他们将长答案和短答案提取作为训练过程中的两个子任务，并且无法对基准测试的这种多粒度特征进行建模，而我们认为应考虑NQ的两个子任务同时获得准确的结果。
根据Kwiatkowski等。（2019），有效的长答案必须包含回答问题所需的所有信息。此外，准确的简短答案应有助于确认长答案。例如，当人类尝试在图1的给定Wikipedia页面中找到两个答案时，他们将首先尝试检索描述实体保龄球馆的段落（长答案），然后尝试确认位置（简短）段落中存在被询问实体），这有助于最终确定哪个段落是长答案。这样，两层答案可以为彼此提供证据。
为了共同解决这两个子任务，我们建议不使用像分层RNNs这样的传统文档建模方法（Cheng和Lapata，2016; Yang等，2016; Nallapati等，2017; Narayan等，2018）。使用图注意力网络（Velickovic等，2018）和BERT（Devlin等，2019），直接对标记，句子，段落和文档的表示进行建模，这四个不同的粒度级别可捕获文档的层次结构性质。这样，我们直接从其段落级别的表示中得出长答案的分数，并从token级别的表示中的开始和结束位置获得简短答案的分数。因此，可以共同训练长答案和短答案选择任务，以相互促进。在推论时，我们使用类似于Kwiatkowski等人的流水线策略。（2019），我们首先选择长答案，然后从选定的长答案中提取短答案。
NQ数据集上的实验表明，在长和短答案条件下，我们的模型均明显优于以前的模型。我们还分析了在实验中从图模块派生的多粒度表示的好处。总而言之，这项工作的主要贡献如下：
•我们提出了基于图注意力网络和BERT的多粒度MRC模型。
•我们采用了联合训练策略，可以同时考虑长答案和短答案，这对于建模两粒度答案的依存关系非常有用。
•在提交时（2019年6月25日），我们在NQ的长答案和短答案排行榜上都达到了最先进的性能，并且在长答案和短答案上，我们的模型都超过了开发数据集上的单个人类表现标准。
代码公开地址：https://github.com/DancingSoul/NQ_BERT-DM.
图2：系统概述。一个文档的文档片段被独立地输入到我们的模型中。图形编码器的输出被合并并发送到答案选择模块，该模块会生成长答案和短答案。
在这里插入图片描述

2.准备工作

2.1 自然问题数据集

NQ数据集中的每个示例都包含一个问题以及整个Wikipedia页面。预计模型将预测两种类型的输出：1）长答案，即HTML跨度，其中包含足够的信息，供读者完全推断问题的答案。它可以是一个段落，一个表，一个列表项或整个列表。长答案从候选列表中选择，或者如果没有候选回答该问题，则应给出“否”； 2）简短答案，可以是“是”，“否”或长答案内的实体列表。另外，如果没有合适的简短答案，则应给出“无答案”。

2.2 数据处理

由于NQ中文档的平均长度太长而不能被视为一个训练实例，因此我们首先将每个文档拆分为带有token窗口重叠的文档片段列表，就像在用于MRC任务的原始BERT模型中一样（Alberti等等人，2019b； Devlin等人，2019）。然后，我们通过一个“ [CLS]”标记，tokenized化后的问题，一个“ [SEP]”标记，来自文档片段内容的标记以及最后的“ [SEP]”标记连接起来，从而生成一条实例。【 question document segment 】。并且每个document fragment 包含答案标记，标记为五个标签之一，以此构建训练实例：“ short”表示包含所有带标记的短跨度的实例， yes”和“ no”表示是/否标记，其中“long“表示包含了长答案。除了上述情况外，我们还为这些实例标记了“no-answer”。
我们将在实验部分中详细说明数据预处理。

3 方法 (Approach)

在本节中，我们将解释我们的模型。我们模型的主要思想在于使用图注意力网络进行多粒度文档建模。我们的模型的总体架构如图2所示。

3.1 输入和输出定义

形式上，我们在训练集中将一个实例定义为六元组（c，S，l，s，e，t）。假设实例是从相应示例的第i个文档片段Di生成的，则c =（[CLS]，Q1，…，Q | Q |，[SEP]，Di，1，…，Di ，| Di |，[SEP]）定义文档片段Di以及实例的问题Q，| Q | + | Di | + 3 = 512，对应于数据预处理方法。 S表示文档片段内的长答案候选集。 l∈S是本例候选集S中的目标长答案候选。 s，e∈{0，1，…，511}是包含性索引，指向目标答案范围的开始和结束。 t∈{0，1，2，3，4}标记答案的类型，对应于五个标签。对于包含多个简短答案的实例，我们将s和e设置为分别指向第一个简短答案的最左侧位置和最后一个简短答案的最右侧位置。
我们的目标是学习一个模型，该模型识别l中的较长答案候选者l和较短的答案跨度（s，e），并预测其得分以进行评估。

3.2 多粒度文档建模

以多粒度表示文档的直觉是从文档的自然层次结构得出的。一般而言，文档可以分解为段落列表，而段落可以进一步分解为句子列表和token列表。因此，将文档结构视为一棵树是很简单的，它具有四种类型的节点，即token节点，句子节点，段落节点和文档节点。不同类型的节点以不同的粒度级别表示信息。由于长答案候选者是段落，表格或列表，因此段落节点处的信息也代表长答案候选者的信息。
文档的分层树结构包含token和句子之间，句子和段落之间以及段落和文档之间的边。此外，我们进一步在token和段落之间，token和文档之间，句子和文档之间添加边以构造图形。在我们的图形表示中，以上所有这些边都是双向的。因此，每两个节点之间的信息可以通过图中不超过两个边缘传递。在本节的其余部分，我们将介绍如何利用这种图结构在具有图注意力网络的节点之间传递信息，从而使两种粒的答案可以相互促进。

3.3 图编码（Graph Encoder）

图3显示了我们的图形编码器的内部结构。我们的图形编码器中的每一层都包含三个self-attention层，一个图形集成层和一个前馈层。自注意层用于具有相同粒度的节点之间的交互，而图集成层旨在通过图关注网络从其他粒度级别收集信息。图4是图集成层的示意图。由于自注意力是图完全连接的图注意力网络的特例，因此我们仅介绍图注意力网络的一般形式，可以将其概括为自注意力机制。

3.1 图注意力网络

我们使用图注意力网络（Velickovic et al。，2018）来建模节点之间的信息流，使得图可以通过注意力机制越过其邻居的特征进一步改善节点的表示。以此方式，可以增强两个粒度答案之间的交互。代替其他基于图的模型，我们使用图注意网络以保持与BERT模型中多头注意模块的一致性。下面我们将描述我们的图注意网络的单层。我们定义一个图G =（V，E，X），该图由一组节点V，节点特征X =（h1，…，h | V |）和有向边集合E =（E1，…，EK）的列表，其中K是边的数量。每个i∈V都有自己的表示hi∈R dh，其中dh是模型的隐藏大小。
我们遵循Vaswani等人在图注意力网络中使用多头注意力机制。（2017）。我们描述了m个attention head 中的一个。所有参数对于每个attention head和层都是唯一的。如果从节点j到节点i有一条边，则注意力系数eij的计算如下：
在这里插入图片描述
我们通过softmax函数来归一化节点i的所有邻居节点j∈Ni注的意力系数。特别是，每个节点都有一个自环（即i∈Ni）以允许其更新自己。这个过程可以表示为

然后，将该注意头zi的输出计算为线性变换后的输入元素的加权和
在这里插入图片描述
在上述等式中，WQ，WK和WV∈R dh×dz是参数矩阵，dz是一个注意头的输出大小，我们使用dz×m = dh。
最后，通过合并m个单独的注意头的输出，得到多头注意结果zi∈R dh

3.3.2 Self-Attention Layer

自注意力机制等效于图注意网络的完全连接版本。为了使相同粒度的节点之间进行交互，我们利用了三个自我注意层，分别是令牌级自我注意，句子级自我注意和段落级自我注意。由于四种类型的节点本质上是异构的，因此我们将自注意力层与图集成层分开，以区分具有相同粒度或不同粒度的节点信息。

3.3.3 Graph Integration Lay

我们在图4所示的图上使用图注意网络，该层允许信息传递到具有不同粒度级别的节点。我们将这一层放在图形编码器内的每个自注意层之后，而不是仅在图编码器之后仅集成一次信息，这意味着自注意层带来的更新也将被其他粒度级别的节点利用。该层有助于对两种粒度答案的依赖性进行建模。我们将图集成层的输入和输出连接起来，并将其传递给前馈层：
在这里插入图片描述
左侧的图形是图形集成层的图示。右图显示了更新段落节点时的传入信息。实线表示文档的分层树结构中的原始边缘，而虚线表示我们另外添加的边缘。

3.3.4 Feed-Forward Layer

遵循Transformer的内部结构（Vaswani et al。，2017），我们还在图形编码器的末端使用了一个额外的全连接前馈网络。它由两个线性转换组成，中间有一个GELU激活。 GELU是高斯误差线性单位激活（Hendrycks和Gimpel，2016年），我们使用GELU作为非线性激活，这与BERT一致。

3.3.5 关系嵌入（Relational Embedding）

受Vaswani等人（2017）中的位置编码和Shaw等人中的相对位置表示启发。（2018），我们在构造的图上引入了一种新颖的关系嵌入，旨在对多粒度文档结构上节点之间的相对位置信息进行建模。我们在文档建模图中制作边缘以嵌入相对位置信息。我们针对eij和zi修改方程式1和2，以引入我们的关系嵌入，如下所示：
在这里插入图片描述
在上述等式中，节点i和节点j之间的边缘由可学习的嵌入
表示。并且可以在attention head 之间共享。与以前在嵌入层中编码位置信息的工作相比，我们提出的关系嵌入更加灵活，并且在每个图形层中都可以考虑位置信息。例如，相同类型的两个节点之间的关系嵌入表示自我注意层中它们之间的相对距离。在图集成层中，句子与其段落之间的关系嵌入表示句子在段落中的相对位置，对于其他类型的边也是如此.

3.3.6 图的初始化

由于BERT模型只能提供token级表示，因此我们使用自下而上的平均池化策略来初始化token级节点以外的节点。我们使用oi∈{0，1，2，3}来表示节点i的类型，分别代表token节点，句子节点，段落节点和文档节点。初始化图的计算表示如下：
在这里插入图片描述
其中：aij , boi ∈ R dh表示关系和节点嵌入。

3.4 输出

任务目标是使用极大似然取预测概率分布。

自我总结

由于我的方向是文档关系抽取，因此后续部分没有继续写下去。阅读该论文的目的是学习该论文中的对文档分层次建模，不同粒度的注意力机制，利用图的注意力机制实现图节点之间的信息传递。
存在的疑惑是：（1）怎样使用BERT的嵌入初始化图节点？（2）文档的原始树结构怎么样得到？（3）图中边的信息会在节点聚合的时候一同拿来计算？（4）图的注意力聚合信息与图卷积的聚合信息是不是等同的？能否用图卷积来实现信息聚合这部分？【该博客有进行分析：https://blog.csdn.net/qq_32768743/article/details/104960145?utm_medium=distribute.pc_relevant.none-task-blog-baidujs-7】