Global Encoding for Abstractive Summarization 生成式文本摘要论文解读

该论文针对seq2seq模型在生成文本摘要时存在的重复和语义问题,提出了一种全局编码框架。通过卷积门控单元(Convolutional Gated Unit),结合自注意力机制,考虑全局信息,提高了摘要的语义连贯性和信息保真度。实验证明,该模型在LCSTS和Gigaword数据集上表现出优于基线模型的性能,显著减少了词的重复现象。
摘要由CSDN通过智能技术生成

Global Encoding for Abstractive Summarization

Junyang Lin, Xu Sun, Shuming Ma, Qi Su
MOE Key Lab of Computational Linguistics, School of EECS, Peking University
School of Foreign Languages, Peking University
论文代码github地址:https://github.com/lancopku/Global-Encoding

Global Encoding for Abstractive Summarization (ACL 2018) 论文代码复现——生成式 文本摘要

论文总结

  • 针对的问题:传统的序列到序列(seq2seq)模型生成的摘要经常会存在重复或者无语义的问题。
  • 解决方案:提出了基于源文本上下文的全局信息的全局编码框架,它负责控制编码器到解码器的信息流。
  • 模型的实现:它由一个卷积门控单元组成,用于执行全局编码以改进源端信息的表示。
  • 模型的评价:分别使用了中文数据集LCSTS和英文数据集English Gigaword进行训练,得到的Rouge值均比基线模型更好,性能更佳,重复的问题也减少了。
    亮点:在seq2seq的encoder和decoder之间加入了一个门控卷积单元,这个门控卷积单元包含了一个类似inception的CNN结构和self-attention机制,它很好的考虑了文章的全局信息,保证输出的摘要具有通顺的语义,并解决了前面attention机制可能导致的词语重复的问题。

1.Introduction

生成式文本摘要问题可以看作是一个从序列到序列的映射问题,因此,具有编码器和解码器结构的seq2seq模型能很好的运用在文本摘要问题中。而注意力机制则是解码器根据原文本得到的注意力权重来按照不同的优先级获取编码器中的信息,在前人的众多试验下,证明了注意力机制会优于传统的方法。

attention机制中的问题,Zhou et al.(2017)提出,带有attention的seq2seq模型得到的文本摘要与原文本并没有很明显的对应关系,而且编码器的输出会包含attention的噪声。这导致Attention-based seq2seq模型生成的摘要会出现字词重复,语义不对应,语法错误,不能反映原文本的主要内容等问题。
例如下面这个例子中,seq2seq生成的摘要中出现了两次officially,出现这种情况的原因就是attention机制,第一个officially出现后,由于officially的attention分数还是很高,所以模型选择使用两次officially,这就导致了字词重复的问题。
在这里插入图片描述

为了解决这个问题,本文提出了一个生成式摘要的全局编码模型,该模型设置了一个卷积门控单元来对源文本上下文进行全局编码。这个基于CNN实现的门会过滤每个通过参数共享实现的基于全局文本的编码器的输出,这样,每个时间步骤的表示都会根据全局上下文进行细化。本文使用了LCSTSGig

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值