Neural Summarization by Extracting Sentences and Words (2016)
原文地址:https://arxiv.org/pdf/1603.07252.pdf
抽取式自动摘要系列第一篇,选择了一些我觉得挺有用的文献放在了下面,直接查找阅读
Abstract:
提出了一种基于神经网络和连续句子特征的数据驱动方法, 可以从大量的文档中提出句子和单词,在没有任何语言注释的情况下依然取得的不错的成绩。
Introduction
之前的摘要技术大多是人类设计的特征来识别句子,如:句子的位置和长度 [1] ,标题中的单词,专有名词的存在,内容特征,如单词频率(Nenkova 等人,2006) [2] ,以及事件特征,如动作名词(Filatova 和 Hatzivassiloglou,2004) [3]。 在如何选择句子上,过去也有很多传统的方法,如: binary classifiers (Kupiec 等人 , 1995)[4],隐藏马尔可夫模型(Conroy 和 O’ Leary , 2001)[5] ,基于图的算法(Erkan 和 Radev , 2004;Mihalcea , 2005)[6] 还有 integer linear programming (Woodsend 和 Lapata , 2010)[7]。
在之前的一些研究中,Encoder-Deocoder的结构(原文是:sequence transduction neural network architectures)已经被用到了机器翻译,机器问答,句子压缩等任务中,并且注意力机制 (Bahdanau et al., 2015) [8] 也经常被用到其中来定位解码过程中的焦点区域。
该论文定义了一个由层级式的encoder和加了注意力机制的extractor组成的单文档摘要抽取器。文章做了一点创新的是,不同以往的注意力机制,他们直接将注意力拿来做句子和单词的提取(在前人的方法里,注意力机制大多会和原先的encoder内容做点积并求softmax