目录
-
作者:Danqing Wang, Pengfei Liu, Yining Zheng, Xipeng Qiu, Xuanjing Huang
摘要
抽取式摘要的目标是从原文章中选出最为重要的若干个句子,并且将它们重组成摘要。因而,如何构建句子之间的关系,并得到更好的句子表示,就成为抽取式摘要的核心问题。这种方法天然的在语法、句法上错误率低,保证了一定的效果。该论文提出了一种基于异构图的神经网络,用于提取摘要(HETERSUMGRAPH),其中包含句子以外的不同粒度级别的语义节点。 这些额外的节点充当句子之间的中介,丰富了跨句关系。此外,论文图结构通过引入文档节点,从单文档摘要抽取扩展到多文档摘要抽取。
介绍
本论文提出了一种异构图网络用于抽取式摘要,先前的研究工作都是集中在构建句子图,论文通过引入更多语义节点作为额外节点来丰富句子之间的关系。这些额外的节点充当连接句子的中介。可以将每个额外节点视为包含它的句子之间的特殊关系。 在通过异构图的消息传递过程中,这些额外节点以及句子节点将被迭代更新。论文使用词节点作为额外节点,每个句子都与其包含的词相连接,另外句子与句子之间,词与词之间没有直接相连的边。这样构建异构图的优势有以下四点:
- 不同句子之间交互可以考虑显式重叠的单词。
- 单词节点还可以聚合句子中的信息并得到更新,现有模型通常将单词作为嵌入层保持不变。
- 多个消息传递过程可以充分利用不同粒度的信息。
- 异构图网络可扩展为更多类型的节点,例如通过引入单文档节点来抽取多文档摘要。
相关工作
随着神经网络的发展,非常大进步在抽取式摘要工作,他们中的大多数人专注于编码器-解码器框架,并使用递归神经网络或Transformer编码器或句子编码。 最近,预训练的语言模型也被应用到上下文词表示的摘要抽取中。
提取摘要的另一种直观结构是图形,它可以更好地利用句子之间的统计或语言信息。 早期作品着重于用句子之间的内容相似性构建的文档图,例如LexRank和TextRank。 最近的一些工作旨在通过图神经网络(GNN)将关系优先级合并到编码器中。 从方法上讲,这些论文仅使用一种类型的节点,这些节点将每个文档表示为同构图。
方法
给定一篇文档,n代表n个句子,目标是得到序列标签其中是需要摘要句子。
HeterSumGraph主要由三部分组成:
- 图初始化
- 异构图更新
- 句子选择
图初始化
给定一个图,其中,,
代表文章中m个不同的单词。
代表文章n个句子。
论文使用wordembedding作为词节点特征表示,使用cnn编码句子n-gram特征,和bilstm编码句子全局特征,concatenation局部特征和全局特征作为句子特征表示。TF-IDF作为边e的权重。
异构图更新
使用GAT网络来更新词节点和句子节点,GAT网络结构如下:
为了避免梯度消失,每步迭代之后加上残余量
进一步修改GAT层以注入标量边缘权重eij,
更新步骤
从图中可以看出单词节点可以聚合句子中的文档级信息。 例如,单词节点的度比较高,表示这个词出现在许多句子中,很可能是文档的关键字。 关于句子节点,倾向于选择具有更重要单词的句子作为摘要。
对于第t步迭代,先通过句子节点更新词节点,再由词节点更新句子节点,更新公式如下:
句子选择
Trigam blocking : 论文提出使用trigam blocking算法来解码选择句子,更具体一点,则是根据句子的分数对句子进行排名,并丢弃与前代词组重叠的句子。
实验结果
其中ORACLE使用贪心算法得到真实标签数据的指标。
Ext-BiLSTM 通过将文档视为句子序列采用bilstm编码来学习句子间关系。
Ext-Transformer 通过完全连接的先验以纯数据驱动的方式学习句子之间的成对交互关系。