Neural Summarization by Extracting Sentences and Words

论文提出了一种基于神经网络的数据驱动方法,用于从大量文档中提取句子和单词进行摘要,无需语言注释。利用层次式Encoder和注意力机制的Extractor,解决了传统摘要技术依赖人工特征的问题。实验表明,该模型在抽取句子和单词方面表现优秀。
摘要由CSDN通过智能技术生成

Neural Summarization by Extracting Sentences and Words (2016)

原文地址:https://arxiv.org/pdf/1603.07252.pdf
抽取式自动摘要系列第一篇,选择了一些我觉得挺有用的文献放在了下面,直接查找阅读

Abstract:

提出了一种基于神经网络和连续句子特征的数据驱动方法, 可以从大量的文档中提出句子和单词,在没有任何语言注释的情况下依然取得的不错的成绩。

Introduction

之前的摘要技术大多是人类设计的特征来识别句子,如:句子的位置和长度 [1] ,标题中的单词,专有名词的存在,内容特征,如单词频率(Nenkova 等人,2006) [2] ,以及事件特征,如动作名词(Filatova 和 Hatzivassiloglou,2004) [3]。 在如何选择句子上,过去也有很多传统的方法,如: binary classifiers (Kupiec 等人 , 1995)[4],隐藏马尔可夫模型(Conroy 和 O’ Leary , 2001)[5] ,基于图的算法(Erkan 和 Radev , 2004;Mihalcea , 2005)[6] 还有 integer linear programming (Woodsend 和 Lapata , 2010)[7]。
在之前的一些研究中,Encoder-Deocoder的结构(原文是:sequence transduction neural network architectures)已经被用到了机器翻译,机器问答,句子压缩等任务中,并且注意力机制 (Bahdanau et al., 2015) [8] 也经常被用到其中来定位解码过程中的焦点区域。
该论文定义了一个由层级式的encoder和加了注意力机制的extractor组成的单文档摘要抽取器。文章做了一点创新的是,不同以往的注意力机制,他们直接将注意力拿来做句子和单词的提取(在前人的方法里,注意力机制大多会和原先的encoder内容做点积并求softmax

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值