《Heterogeneous Graph Neural Networks for Extractive Document Summarization》论文阅读笔记（抽取式摘要）

最新推荐文章于 2021-07-18 18:31:32 发布

nlp小仙女

最新推荐文章于 2021-07-18 18:31:32 发布

阅读量774

点赞数 1

分类专栏：论文文章标签：自然语言处理深度学习神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yanqiuxia123/article/details/106638546

版权

论文专栏收录该内容

6 篇文章 0 订阅

订阅专栏

目录

异构图更新

论文 https://arxiv.org/abs/2004.12393
代码 https://arxiv.org/abs/2004.12393
作者：Danqing Wang, Pengfei Liu, Yining Zheng, Xipeng Qiu, Xuanjing Huang

摘要

抽取式摘要的目标是从原文章中选出最为重要的若干个句子，并且将它们重组成摘要。因而，如何构建句子之间的关系，并得到更好的句子表示，就成为抽取式摘要的核心问题。这种方法天然的在语法、句法上错误率低，保证了一定的效果。该论文提出了一种基于异构图的神经网络，用于提取摘要（HETERSUMGRAPH），其中包含句子以外的不同粒度级别的语义节点。这些额外的节点充当句子之间的中介，丰富了跨句关系。此外，论文图结构通过引入文档节点，从单文档摘要抽取扩展到多文档摘要抽取。

介绍

本论文提出了一种异构图网络用于抽取式摘要，先前的研究工作都是集中在构建句子图，论文通过引入更多语义节点作为额外节点来丰富句子之间的关系。这些额外的节点充当连接句子的中介。可以将每个额外节点视为包含它的句子之间的特殊关系。在通过异构图的消息传递过程中，这些额外节点以及句子节点将被迭代更新。论文使用词节点作为额外节点，每个句子都与其包含的词相连接，另外句子与句子之间，词与词之间没有直接相连的边。这样构建异构图的优势有以下四点：

不同句子之间交互可以考虑显式重叠的单词。
单词节点还可以聚合句子中的信息并得到更新，现有模型通常将单词作为嵌入层保持不变。
多个消息传递过程可以充分利用不同粒度的信息。
异构图网络可扩展为更多类型的节点，例如通过引入单文档节点来抽取多文档摘要。

相关工作

随着神经网络的发展，非常大进步在抽取式摘要工作，他们中的大多数人专注于编码器-解码器框架，并使用递归神经网络或Transformer编码器或句子编码。最近，预训练的语言模型也被应用到上下文词表示的摘要抽取中。

提取摘要的另一种直观结构是图形，它可以更好地利用句子之间的统计或语言信息。早期作品着重于用句子之间的内容相似性构建的文档图，例如LexRank和TextRank。最近的一些工作旨在通过图神经网络（GNN）将关系优先级合并到编码器中。从方法上讲，这些论文仅使用一种类型的节点，这些节点将每个文档表示为同构图。

方法

给定一篇文档，n代表n个句子，目标是得到序列标签其中 y_i=1 是需要摘要句子。

HeterSumGraph主要由三部分组成：

图初始化
异构图更新
句子选择

HeterSum 模型框架图

图初始化

给定一个图 $G=\left \{ V,E \right \}$ ，其中 $V=V_\omega \bigcup V_s$ , $E={e_{11},\cdots ,e_{mn}}$ ,

$V_\omega =\left\{ \ \omega_1,\cdots ,\omega_m{ \right \}$ 代表文章中m个不同的单词。

$V_s=\left \{ s_1,\cdots ,s_n \right \}$ 代表文章n个句子。

论文使用wordembedding作为词节点特征表示，使用cnn编码句子n-gram特征 l_j ，和bilstm编码句子全局特征 g_j ，concatenation局部特征和全局特征作为句子特征表示 $X_{s_j}=[l_j;g_j]$ 。TF-IDF作为边e的权重。

异构图更新

使用GAT网络来更新词节点和句子节点，GAT网络结构如下：

为了避免梯度消失，每步迭代之后加上残余量

进一步修改GAT层以注入标量边缘权重eij，

更新步骤

句子节点和词节点更新策略

从图中可以看出单词节点可以聚合句子中的文档级信息。例如，单词节点的度比较高，表示这个词出现在许多句子中，很可能是文档的关键字。关于句子节点，倾向于选择具有更重要单词的句子作为摘要。

对于第t步迭代，先通过句子节点更新词节点，再由词节点更新句子节点，更新公式如下：

句子选择

Trigam blocking : 论文提出使用trigam blocking算法来解码选择句子，更具体一点，则是根据句子的分数对句子进行排名，并丢弃与前代词组重叠的句子。

实验结果

模型实验结果比较

其中ORACLE使用贪心算法得到真实标签数据的指标。

Ext-BiLSTM 通过将文档视为句子序列采用bilstm编码来学习句子间关系。

Ext-Transformer 通过完全连接的先验以纯数据驱动的方式学习句子之间的成对交互关系。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。