文章目录
前言
A Comprehensive Survey of Abstractive Text Summarization Based on Deep Learning(2110)
0、论文摘要
随着互联网的快速发展,海量的网络文本数据呈指数级增长,这给下游任务,如文档管理、文本分类、信息检索等带来了相当大的挑战。
自动文本摘要(ATS)正在成为解决这一问题的极其重要的手段。 ATS的核心是挖掘原文的主旨,自动生成简洁易读的摘要。最近,为了更好地平衡和发展这两方面,开发了基于深度学习(DL)的抽象摘要模型。
目前,对于ATS任务,几乎所有最先进的(SOTA)模型都是基于DL架构。然而,基于深度学习的抽象文本摘要领域仍然缺乏全面的文献调查。
为了填补这一空白,本文为研究人员提供了基于深度学习的抽象摘要的全面调查。我们首先概述抽象摘要和深度学习。那么,我们总结了几种典型的抽象概括框架。之后,我们还对常用于训练、验证和测试的几个流行数据集进行了比较。我们进一步分析了几种典型的抽象摘要系统在常见数据集上的性能。最后,我们强调了抽象概括任务中的一些开放挑战,并概述了一些未来的研究趋势。我们希望这些探索将为研究人员提供对基于深度学习的抽象概括的新见解。
一、Introduction
数字时代,网页、博客、新闻、用户消息、社交网络平台等云资源积累了海量的文本数据,并且每天都在呈指数级增长。此外,各种文章、书籍、小说、法律文献、科学论文、生物医学文献和其他档案也包含丰富的文字内容。结果,信息过载变得越来越严重。用户几乎每天都必须花费大量时间浏览各种繁琐的文本并过滤掉冗余信息,这大大降低了他们的效率[1-11]。因此,如何从文本资源中快速定位所需的信息,并对其进行归纳和压缩,已成为一个迫切需要解决的根本性问题。手动摘要需要浏览所有内容然后进行摘要,成本非常高,而且在海量数据中很容易丢失。自动文本摘要(ATS)提供了解决这一问题的有效方法[12-21]。
ATS 旨在自动生成包含输入文本核心内容的简洁易读的摘要。解决如何快速、可靠、高效地获取所需信息变得越来越重要。由于输入文本的复杂性,ATS 已成为自然语言处理(NLP)领域最具挑战性的任务之一[22-34]。早在1958年,Luhn[35]就开始了ATS的研究。他们建议自动从杂志文章和技术论文中提取摘要。 1995年,Maybury[36]构建了一个系统,可以从事件数据库中选择关键信息,并将高质量摘要定义为从输入文档中提取的最本质的内容。 2002 年,Radev 等人。 [37]还将摘要定义为由多个(或一个)输入文档生成的句子组合,包含输入文档的核心内容。 .ey强调,生成的摘要的长度不超过输入的一半甚至更少。这些前面的描述抓住了ATS任务的许多基本特征,即摘要应该涵盖输入文档的核心内容并且简洁。
一般来说,根据摘要的生成方式,有两种著名的摘要系统:提取摘要[38-41]和抽象摘要(ABS)[42-53]。提取系统直接从原始文档中提取句子或短语以形成摘要,包括基于图的方法(例如LexRank [54])、基于中心性的方法(例如Centroid [55])和基于语料库的方法(例如,TsSum [56])。抽象系统需要首先理解文本的语义,然后利用自然语言生成(NLG)算法,通过释义、同义替换、句子压缩等生成更简洁的摘要。因此,与抽取式摘要相比, ABS的概念更接近手写摘要的过程[57]。然而,长期以来,由于传统方法在文本表示、理解和生成能力方面的限制,ABS发展缓慢,效果也比抽取式摘要差[58]。
近年来,随着神经网络理论和技术的不断完善,深度学习(DL)已成为最有效和最有前途的方法之一,并在许多任务上取得了SOTA效果[59-66],例如图像处理、计算机视觉(CV)、NLG、NLP 等。2015 年,Rush 等人。 [67]首先将深度学习技术转移到ABS上。 .ey 基于编码器-解码器架构构建了 ABS 模型。之后,各种改进的ABS模型被开发出来,它们都是在编码器-解码器架构下构建的深度神经网络。时至今日,研究界对基于DL的ABS的热情不减,并涌现出许多优秀的方法。而且,基于DL的ABS的结果还在不断刷新。
随着越来越多的研究人员致力于ABS研究,迫切需要一个概述来帮助他们快速、全面地了解该领域的成就和挑战。在这项工作中,我们的目标是填补这一空白。表1显示了我们在本文中努力的主要方向。为此,我们重点关注基于深度学习的 ABS 任务并回顾其开发过程。我们还总结了一些流行的基础框架和改进方法。 .en,我们分析了现有模型的性能并客观地描述了它们的优点和缺点。此外,我们使用一些流行的评估指标在大规模公共数据集上比较他们的结果。最后,我们强调了 ABS 任务中的一些开放挑战,并概述了一些未来的研究趋势。
具体来说,与一些类似的工作相比,我们进一步拓展了以下四个方面:
(1)从方法论的角度,对近年来流行的一些模型进行了分类;
(2)我们定义了一种新的模型来处理事实错误问题,并对其进行深入分析;
(3)我们总结了过去5年所有SOTA模型的ROUGE分数,直观地展示了基于深度学习的摘要技术的发展过程;
(4)并从应用角度讨论了未来可能的研究热点。
总之,我们的贡献如下:
(i) 我们对基于深度学习的 ABS 方法进行了系统概述,并详细介绍了编码器-解码器架构下的几种流行框架。
(ii)我们对基于DL的ABS进行了分类,详细阐述了每一类的框架,并分析了其优缺点。
(iii) 我们全面概述了 ABS 任务中常用的数据集和评估指标。我们还报告了不同模型在大规模数据集上的性能分析结果,这应该有助于研究人员根据自己的需求选择合适的框架和模型。
(iv)我们讨论了几个值得研究的方向,为ABS的未来研究和应用提供了一些新的视角和启示。
二.预置条件
2.1.问题表述。
ABS 是自然语言理解(NLU)和 NLG 的交叉任务。它需要首先对输入文档进行语义分析,然后采用一些 NLG 技术来生成简短的摘要句子。具体来说,给定一个或多个输入文档 D 由许多 token (w1, w2, · · · , wn) 组成,ABS 的目标是生成一个更短的描述 Y � (y1, y2, · · · , ym) 来捕获 D 的要点,并且通常 m < n /2。其中,所有token都来自于预先定义的固定词汇表V。
图1描绘了基于DL的ABS的总体架构,主要由三个步骤组成:预处理、语义理解和摘要生成。在预处理步骤中,主要使用一些语言技术来结构化输入文本,例如句子切分、分词、停用词去除等。在语义理解步骤中,构建神经网络来识别和表示深层文本。输入文本的语义。 .is步骤发生在向量空间中,最终生成下一步的融合向量。在摘要生成步骤中,生成器对上一步提供的融合向量进行适当的调整,然后将向量空间表示映射到词汇表以生成摘要词。
2.2.深度神经网络。
深度神经网络(DNN)是深度学习的基础,它使用复杂的数学方法来训练各种模型。它包含许多隐藏层,因此有时称为多层感知器(MLP)。在本节中,我们将介绍 ABS 中常用的几种 DNN,包括循环神经网络(RNN)、卷积神经网络(CNN)和图神经网络(GNN)。
2.2.1.递归神经网络。
RNN的提出是基于“人类的认知基于经验和记忆”的直观理解。在RNN中,序列内部存在顺序关系,相邻项相互依赖。网络通过结合前一个和当前时间步的输入特征来预测下一个时间步的输出。具体来说,RNN的隐藏层节点相互连接。 .e 隐藏层输入由输入层的输出和前一个隐藏层的输出组成。 RNN的结构如图2所示[68]。给定一个输入序列D�(w1,w2,···,w|D|),其中wt(t≤|D|)表示时间步t处的输入标记,RNN可以输出D的向量表示,即h � (h1, h2, . . , h|X|)。
RNN 在处理顺序数据方面非常有效。它可以挖掘数据中的时间和语义信息。因此,基于RNN的DL模型在解决NLP中的一些具有挑战性的问题方面取得了突破,例如信息提取(IE)、推荐系统、机器翻译、文本摘要和时序分析。然而,当序列太长时,RNN开始出现梯度爆炸并消失。为了缓解这个问题,Cheng 等人。 [68]构建了一种称为长短期记忆(LSTM)的新型神经网络。与RNN不同的是,LSTM通过输入门、遗忘门、输出门选择性地存储信息,很大程度上解决了长期依赖问题。 Cho 等人在 LSTM 的基础上。 [69]进一步简化了网络结构。 .ey 使用更新门来代替输入门和遗忘门,并提出了一种新颖的门循环单元(GRU)。此外,通过增加从后到前的信息流,提出了双向RNN,表示为:Bi-RNN、Bi-LSTM和Bi-GRU。
2.2.2.卷积神经网络。
CNN[70]是由许多卷积运算组成的深度前馈神经网络。 CNN中的神经元按三个维度排列,即深度、宽度和高度。不同层的神经元不再完全连接,而是小区域之间连接。 CNN 最显着的特征是等变表示、稀疏交互和参数共享,为神经网络模型提供了一种处理不同大小输入的方法。基本的CNN由三种结构组成:卷积、激活和池化。 CNN利用卷积核从数据对象中提取特征,并对提取的特征每隔一段时间使用最大池化,可以获得从简单到复杂的不同级别的特征。卷积滤波器和池化操作不仅可以识别输入矩阵的重要特征,而且可以大大简化复杂度并减少参数。其中一个卷积块由连续的 M 个卷积层和 b 个池化层组成。在CNN中,N个卷积块可以连续堆叠,最后连接K个全连接层。一般M取2~5,b取0或1,N取1~100以上,K取0~2。常用的典型CNN结构如图3所示。CNN作为CV的核心技术,在图像领域发挥着至关重要的作用。经典的CNN包括Lenet、Alexnet、GoogleNet、VGG等,近年来CNN在人脸识别、机器翻译、运动分析、NLP等方面不断拓展,并取得了不错的成绩。
2.2.3.图神经网络。
GNN [71] 是一种专门处理图数据的神经网络。 GNN 的基本思想是根据局部邻域嵌入节点。直观地说,每个节点以及与其连接的节点的特征是通过神经网络聚合的。 GNN的示意图如图4所示[71]。 .e 第 k 层中节点 v 的嵌入计算如下[71]:
其中h0 v是节点v在第0层的嵌入,hk v是节点v在第k层的嵌入,N(v)是v的邻居节点集合。目前主要有四种GNN 的类型,即图卷积网络(GCN)、图注意网络(GAN)、门控图神经网络(GGNN)和图生成网络(GGN)。
三.方法
本节我们从方法论的角度回顾和总结ABS的发展。
3.1. Seq2Seq 框架。
Seq2seq(序列到序列)框架,也称为编码器-解码器框架,被广泛认为是将文本从一种形式转换为另一种形式的最有效方法,例如语音识别、问答系统、机器翻译、这些模型采用编码器来识别、理解和解析输入序列,并使用高维密集特征向量来表征它。 .en,在解码器侧,输入项的特征向量用于逐渐生成输出项。图5所示基本的编码器-解码器框架。编码器-解码器框架是基于DL的ABS模型最基本、最核心的框架。并且,编码器和解码器是使用各种神经网络构建的。基于编码器-解码器架构[22-24]提出了大量的研究成果,使得ABS模型的性能不断提高。
3.2.具有基本注意力机制的编码器-解码器系统。
2015 年,拉什等人。 [67]首次将编码器解码器框架应用于ABS。 .ey 提出了一种带有注意力机制的新型 ABS 模型。 .e模型主要由前馈神经语言模型(FFNLM)组成,它是一个参数化神经网络。他们的系统最显着的优势是使用更强大的基于注意力的编码器(相对于 Bagof-Words 编码器)和波束搜索策略 [72](相对于贪婪解码)来生成摘要。之后,乔普拉等人。 [73]进一步提出了ABS的卷积RNN模型,它是Rush等人提出的方法的扩展。 [67]。他们模型的编码器采用卷积注意机制来确保解码器在每个解码时间步骤与相应的输入标记对齐,从而为生成过程提供调整功能。此外,他们还为解码器提供了两个可选网络:Vanilla RNN 和 LSTM。带有注意力机制的编码器-解码器框架如图6所示[73]。基于注意力的上下文向量的计算公式为(3)-(5)[73]:
其中αt i 是注意力权重,表示在生成第t个摘要标记时对输入中第i个标记的注意力。 Wa和Wb是可训练参数,st是解码器在时间t的隐藏层状态。最后,时间步t处的概率分布计算如下[73]:
洛佩列夫等人。 [74]在新闻标题生成任务中测试了两种不同的注意力机制。第一个与图5中的点机制相同,他们称之为复杂注意力。第二个是由一些用于计算注意力权重的神经元组成的点机制的轻微变化,这在进一步探索网络功能时具有特定的优势,他们称之为简单注意力。 .eir实验表明,简单的注意力机制表现更好。陈等人。 [75]利用基于干扰的 Bi-GRU 对输入文档进行建模。为了更好地对整体文档表示进行建模,他们专注于输入文本的特定区域和内容,同时也分散了他们在输入文本的不同内容之间遍历的注意力。他们的工作是覆盖机制在ABS中的早期应用。
然而,由于RNN在生成过程中难以控制,基本的编码器-解码器架构在ABS中仍然存在一些关键问题,例如生成词汇外(OOV)词、对关键词进行建模以及捕获词的层次结构到句子。为了缓解这些问题,Nallapati 等人。 [76]进一步扩展了基本的编码器-解码器模型。 .ey 构建了一个功能丰富的编码器,它使用词性 (POS) 的嵌入向量、名为实体识别 (NER) 标签以及离散化的 TF 和 IDF 值。 .en,这些值与基于单词的嵌入值连接作为编码器输入。 .e featurerich-encoder 可以捕获输入文档中的关键概念和实体。 .ey 还采用了切换生成器指针来对输入文档中的罕见/未见单词进行建模,从而缓解了生成 OOV 单词的问题。此外,他们还引入了层次注意力来联合建模关键句子和关键句子中的关键词。
此外,在处理较长的文档(通常超过 1000 个标记)时,基于神经网络的模型通常会生成重复的单词和短语,甚至不一致的短语。为了缓解这些问题,Paulus 等人。 [77]采用了intra-attention方法,可以关注输入token的特定区域,并分别持续生成输出。在每个解码步骤中,除了解码器的隐藏状态和之前生成的标记之外,他们的模型还采用了时间内注意函数来注意输入文本的特定区域。 .us,时态注意力可以防止模型在不同的解码时间步重复关注原始文档中的同一部分。为了解决基于编码器隐藏状态生成重复短语的问题,他们进一步提出利用 intradecoder 注意力将有关先前生成的令牌的更多信息合并到解码器中。在当前解码时间步长,考虑已生成的令牌可以让编码器-解码器模型做出更全面的决策,这可以有效避免生成重复的令牌,即使这些令牌是在很多步之外生成的。
3.3.分层编码器-解码器模型。
当输入是冗长的文档时,基本的单层编码器-解码器架构在对文档进行编码时无法完全捕获上下文之间的关系,从而导致长距离依赖问题。研究人员发现,长文档天然具有层次结构,即文档由多个长句子(句子级)组成,长句子由多个单词组成(句子级)。受此启发,研究人员构建了分层编码器-解码器架构。分层编码器-解码器架构可以显着减少长依赖性问题。分层编码器-解码器ABS的基本框架如图7所示。
分层神经模型在基于文档的语言模型(LM)[78]和一些文档分类[79]任务中表现出了强大的性能。 2015年,李等人。 [80]提出了一个基本的分层ABS模型,Jadhav和Rajan[81]进一步扩展了他们的模型。他们的方法生成的摘要在信息性和可读性方面明显优于类似方法。受到基于图的 NLP 模型的启发,Tan 等人。 [82]在分层编码器-解码器框架中提出了一种新颖的基于图的注意力机制。 .ey 使用单词编码器对单词进行编码,使用句子编码器对短句子进行编码,并利用句子的隐藏状态构建隐藏状态图。句子的层次注意力值是根据隐藏状态图计算的。
尽管上述分层编码器-解码器模型是基于句子-单词层次结构设计的,但它未能捕获文档的全局结构特征。 2018年,李等人。 [83]使用多句摘要和文档的结构信息来增强 ABS 模型的性能。为了挖掘信息压缩和信息覆盖特性,他们提出在摘要生成过程中对结构压缩和结构覆盖正则化进行建模。 .ey利用句子级注意力分布来计算结构压缩的分数,如下[83]:
其中 αi t 是句子级别的注意力分布。 .e 摘要的结构覆盖率计算如下[83]:
用于鼓励不同的摘要句子在生成摘要句子时集中于不同的源句子。 .eir方法取得了当时SOTA的结果。
许等人。 [84]发现提取摘要利用句子级注意力可以获得较高的胭脂分数,但不容易阅读。此外,更复杂的ABS模型可以获得词级动态注意力,从而生成更具可读性的句子。受此启发,他们利用句子级注意力来调整分配给每个 token 的注意力,减少注意力较少的句子中 token 被选择的概率。更新后的词注意力计算如下[84]:
其中 αt m 是单词级注意力,βn(m) 是句子级注意力。此外,他们还提出了一种新颖的不一致损失函数来惩罚两个不同层之间的不同注意力。
3.4.基于 CNN 的编码器-解码器模型。
与直接处理时间序列数据的RNN不同,CNN使用卷积核从数据对象中提取特征,这通常用于图像相关任务[85]。但文本用分布式向量表示后,每个token就是向量空间中的一个矩阵。 .en CNN 可用于在文本相关任务中执行卷积运算 [86]。 2016年,Facebook AI Research(FAIR)首次使用CNN在编码器-解码器架构下构建编码器,并在机器翻译任务中取得了SOTA结果[87]。
TA导致机器翻译任务[87]。 2017 年,格林等人。 [88]提出了模型ConvS2S,其编码器和解码器均使用CNN,是最具代表性的完全基于CNN的ABS模型。模型的整体架构如图8所示[88]。在他们的模型中,除了接收词嵌入之外,输入层还为每个输入标记添加一个位置向量。 .en,单词和位置嵌入被连接起来形成单词的最终嵌入,这使得基于CNN的模型能够像RNN一样感知词序,并使用卷积模块对嵌入进行卷积和非线性变换。此外,为了缓解梯度消失和爆炸的问题,他们在层之间引入了残差连接。 .eir模型在DUC-2004和Gigaword数据集上取得了与基于RNN的模型相似的结果,并且训练速度大大提高。
范等人。 [89]提出了一种可以指定摘要的长度、样式和实体以及其他高级属性的模型,该模型可以控制生成的摘要的形状并满足用户定制的需求。其模型的编码器和解码器是由 CNN 构建的。受到格林等人的启发。 [88],他们将内部注意力[87]扩展到多跳内部注意力。 .ey还在解码器端采用了自注意力机制来使用之前的解码信息。为了控制生成的摘要的长度,他们首先使用离散箱来量化摘要长度。 .en,他们用特殊的词类型扩展了输入词汇,并在训练过程中使用标记来指示真实摘要的长度。
纳拉扬等人。 [90]构建了一个极端的 ABS 系统,旨在生成一个句子标题来回答“这篇文章是关于什么的?”这一问题。 .eir模型是一个主题条件架构,编码器和解码器是两者都建立在 CNN 之上。卷积编码器将每个标记与主题嵌入相关联,以捕获它是否代表文档的显着信息,而解码器则控制每个标记的预测。具体来说,他们采用LDA主题模型[91]来获得单词和文档的主题嵌入,这是编码器和解码器的额外输入。在序列建模中,由于卷积层只能生成固定大小的上下文向量,基于CNN的ABS模型无法直接处理变长序列样本。然而,卷积层的叠加可以增加上下文表示,形成层次结构。序列中的e个元素可以在层之间并行计算,并且可以在更短的路径下解决元素之间的长距离依赖问题。因此,基于CNN的ABS模型的训练比RNN更加高效。但与RNN的链式结构相比,CNN的层次结构使得参数的调整大大增加,这使得模型在大数据集上训练时参数调整的成本急剧增加。
3.5.解决 OOV 单词和重复问题的方法。
对于ABS系统来说,OOV词和重复问题是影响模型性能的最重要因素之一,也是最常见的问题。根据对生成摘要的统计,研究人员发现几乎所有OOV词都可以从输入文档中找到,而且都是低频词。因此,研究人员提出,在生成摘要标记时,模型应该能够从输入文档中查找并复制低频词。此外,为了缓解生成重复单词或短语的问题,在生成过程中应对先前生成的令牌进行惩罚(降低分数),以避免生成重复的令牌。
古尔切雷等人。 [92]构建了一个模型,使用基于注意力的指向机制来处理稀有词和未见词(OOV 词)。 .eir 模型采用两个 softmax 层来预测下一个生成的单词:一个 softmax 层用于预测单词在源句子中的位置并将其复制为输出,另一个用于预测候选词汇表中的单词。在每个预测过程中,他们使用多层感知器(MLP)来决定使用哪个 softmax 来生成单词。同时,引入了大词汇量技巧(LVT)[93],减少了解码器侧softmax层的大小,使解码过程更加高效。他们的灵感来自于人类的一种常见心理:当人们不理解某个实体的名称时,他们往往会根据上下文和背景进行猜测。 .eir方法显着缓解了生成OOV词的问题。指针softmax的框架如图9所示[92]。
顾等人。 [94]提出了一种基于编码器-解码器框架的新ABS模型(CopyNet),将复制机制纳入解码过程。 CopyNet模型可以很好地将解码器中的常规单词生成方法与新的复制机制结合起来,该机制可以选择输入文档中的单词和短语并将其放置在生成的摘要的适当位置。特别是,他们在合成数据集和真实数据集上进行了实验,结果证实了他们的模型在缓解 OOV 单词问题方面的有效性。
此外,参见等人。 [95]提出了一种带有点生成器(PG)网络的更全面的 ABS 模型。 .e PG 使用指针从输入文档中复制单词,这有助于准确地再现信息,同时保留通过生成器生成新标记的能力。此外,为了缓解生成重复单词和短语的问题,他们提出了一种覆盖机制来跟踪已生成的内容并对其进行惩罚。与Gulcehre [93]等人的方法相比。和纳拉帕蒂等人。 [76],PG有很大不同,主要有两个方面:(1)PG的指针可以自由选择要复制的单词,而其他两种方法的指针仅在处理OOV单词或命名实体时才被激活; (2).PG的最终生成分布是指针分布和词汇分布的结合,而其他两个模型的分布是独立的。 PG模型的框架如图10所示[95]。
.e PG 显着缓解了生成 OOV 单词和重复的问题,但仍然受到以下两个问题的限制:(1).e 指针只能复制精确的单词,忽略可能的扭曲或抽象,这限制了其捕获单词的能力。潜在的潜在对齐; (2).e硬拷贝机制使得模型具有很强的拷贝倾向,这将导致大多数句子都是通过简单地拷贝源输入来生成的。基于此,沉等人。 [96]提出了一种广义指针生成器(GPG)来增强潜在的对齐。 .eir 模型允许重新编辑指针指向的单词,而不是简单的硬拷贝,并通过将指向的单词嵌入转换为具有学习的关系嵌入的目标空间来执行编辑。与PG中的硬拷贝相比,GPG可以捕获更丰富的潜在对齐,这有助于ABS模型的可控性和可解释性。
3.6.解决事实错误问题的方法。
对于ABS系统来说,首先需要了解整个输入文档,然后生成摘要。这个过程不可避免地涉及到对输入文本的剪裁、修改、重组和融合,这使得整个系统变得不可控并产生虚假信息。一些文献研究了 ABS 模型中的事实错误问题 [97-99],他们的结论是,使用 ABS 系统生成的摘要中有近 30% 与原始文件中描述的事实不匹配。因此,为了增强ABS模型的可用性,有必要使摘要与原文中的事实描述保持一致。
2017 年,曹等人。 [100]提出了一种双注意力编码器-解码器模型(FTSum)来增强其系统的事实正确性。 .ey 首先利用开放信息提取(OpenIE)工具[101]从输入中提取三元组作为输入文本的事实描述,然后使用关系编码器对事实描述进行编码。在解码过程中,他们利用事实描述和原始文本的嵌入来计算最终的注意力。新的注意力使得模型能够更多地关注原文中的事实描述,以避免生成虚假事实。 FTSum模型的总体框架如图11所示[100]。
李等人。 [102]采用多任务学习策略在 ABS 任务中引入文本蕴含[103]。具体来说,他们的模型使用基于注意力的编码器解码器框架作为基础设施,然后与蕴涵识别系统共享编码器,即使用ABS模型中的编码器和softmax层构建在NLI上训练的蕴涵关系分类器数据集。 .is使编码器不仅能够掌握源文档的本质,而且能够了解蕴涵关系。此外,在解码时,他们修改了损失函数以奖励生成的摘要的蕴涵程度,并采用奖励增强最大似然(RAML)[104]来训练模型,以便解码器也具有蕴涵意识。模型的总体框架如图12所示[102]。
朱等人。 [105]提出了一种基于 Transformer 的编码器解码器模型(FASum),编码器和解码器由 Transformer 块堆叠。 .ey 使用开源 OpenIE [101] 工具从原始输入文本中提取实体关系信息。提取的知识由一组三元组表示,其中每个三元组由主语、客体和关系组成。对于每个三元组(主体、关系、客体),他们将主体、关系和客体视为三个不同的节点,然后连接两条无向边“主体-关系”和“关系-客体”。这样,通过对所有三元组构造边,就可以得到一个无向图,这就是输入文档的知识图谱。 .en,图注意力神经网络[106]用于提取知识图上每个节点的特征,并将该特征作为节点的表示。最后,通过在解码器端构建交叉注意力层,将知识图谱的信息融入到解码过程中,控制摘要的生成。 FASum模型的总体框架如图13所示[105]。
张等人。 [107]提出了一种事实感知的强化ABS模型(FAR-ASS)。 .ey 还使用 OpenIE 和依赖解析器工具来提取输入文档的事实描述。他们精心设计了一种事实正确性评估算法,可以在综合考虑事实正确性和冗余性后计算生成摘要的事实正确性得分。在训练阶段,他们采用了基于事实正确性分数的强化学习策略来训练摘要模型。 FAR-ASS模型的总体框架如图14所示[107]。
四.数据集
在本节中,我们概述了众所周知的标准数据集,包括:文档理解会议(DUC)数据集、文本分析会议(TAC)数据集、CNN/DailyMail、Gigaword、纽约时报(NYT)、Newsroom、Large-规模中文短文本摘要(LCSTS)等
五.性能分析
本节介绍ABS的主要评估指标,包括自动评估和手动评估。我们使用这些评估指标来分析流行的 ABS 模型在常用数据集上的性能。
5.1 评估指标
5.1.1 自动评估
由于手动评估生成的摘要在整个测试集上的性能需要相当长的时间,因此提出了许多自动评估指标,例如 BLEU、METEOR 和 ROUGE。其中,ROUGE是Lin[117]提出的一种自动召回的摘要评估指标,是评估ABS模型性能最广泛使用的指标。它通过计算参考和生成的摘要之间重叠的基本单元的数量来评估摘要系统的质量。 .e ROUGE度量已被证明是摘要质量的有效衡量标准,并且与人类评估密切相关。常用的ROUGE度量主要有三种:ROUGE-1(unigram)、ROUGE-2(bigram)和ROUGE-L(Longest Common Subsequence,LCS)。 ROUGE只能评估参考文献和生成摘要之间的字符重叠,不涉及语义评估。 .e计算如下:
其中 {Reference} 表示参考摘要,Countmatch(Nn−gram) 表示参考摘要和同时生成的摘要中的 n-gram 数量,Count(Nn−gram) 表示参考摘要中的 n-gram 数量参考摘要。
5.2 流行 ABS 型号的性能比较。
在本节中,我们报告了 CNN/DailyMail 数据集和 Gigaword 数据集上流行的 ABS 模型的 ROUGE 分数。表4显示了过去五年(2017-2021)每年SOTA模型在Gigaword数据集上的结果。表 5 显示了 CNN/DailyMail 数据集上年度 SOTA 模型的结果。所有数据集的结果总体上是一致的。特别地,我们还报告了不同方法使用的词汇量,包括编码词汇量(输入)和解码词汇量(输出)。 .他们控制词汇量大小以提高训练效率。对于表 4 和表 5 中的模型,我们报告了它们采用的技术,如下所示:
(i) PG + Coverage [95]:一个指针生成器网络,可以直接从原始文本复制单词,并可以使用覆盖机制减少重复。
(ii) SEASS [119]:一种基于 RNN 的 Seq2seq 模型,它有选择地对输入中的重要信息进行编码,以增强摘要生成。
(iii) DRGD [120]:一个Seq2seq框架,它可以使用输入的结构信息生成摘要。
(iv) FTSumg [100]:一种基于 RNN 的模型,对输入中的事实描述进行编码,以增强生成的摘要的事实正确性。
(v) Transformer [121]:一个完全基于注意力的框架,也是预训练模型的基础组成部分。
(vi) Struct + 2Way + Word [122]:一种 Seq2seq 模型,可以使用结构注入的复制机制从原始文本中复制关键词和关系。
(vii)PG + EntailGen + QuestionGen [123]:基于多任务学习的神经模型,可以利用问题和蕴涵生成任务来增强摘要生成过程。
(viii) CGU [124]:一种全局编码框架,利用卷积门单元对输入的全局信息进行编码。
(ix) Reinforced-Topic-ConvS2S [85]:一种卷积 Seq2seq 模型,可以集成主题和文本信息以增强摘要生成过程。
(x) Seq2seq + E2T_cnn [125]:一个可以利用链接实体来指导解码过程的 Seq2seq 模型。 (xi) Re^3 Sum [126]:一个扩展的 Seq2seq 框架,可以利用候选模板生成摘要。
(xii) JointParsing [127]:一种新颖的 Seq2seq 模型,由顺序解码器和基于树的解码器组成,提高了生成摘要的语法正确性。
(xiii) 概念指针+ DS [128]:概念指针网络,它扩展了指针可以使用基于知识的概念化复制的单词类型。
(xiv) MASS [129]:一个Seq2seq预训练的LM,通过联合训练编码器和解码器来提高模型的特征提取能力。
(xv)UniLM [130]:一种新颖的统一预训练 LM,它采用共享变压器层并在解码过程中采用特定的自注意力掩码。输入中的句子,然后重新生成它们。
(xviii) ERNIE-GEN [133]:一种多流 Seq2seq 预训练框架,利用填充生成和噪声感知机制来增强生成过程。有两种不同尺度的模型(ERNIE-GENBASE 和 ERNIE-GENLARGE)。 (xix)ProphetNet [134]:一种新颖的 Seq2seq 预训练模型,引入了自我监督目标和 n 流自我关注机制。 (xx) BART-RXF [135]:一种预训练的 LM,通过用参数噪声替换使用的对抗性目标来减少微调期间表示的变化。
(xxi) Mask Attention Network [136]:一种改进的基于 Transformer 的框架,引入动态 Mask Attention 网络层并构建顺序分层结构。
(xxii) Transformer + Wdrop [137]:基于 Transformer 的模型,利用词丢失扰动来执行训练。 (xxiii) Transformer + Rep [137]:基于 Transformer 的模型,利用单词替换扰动来执行训练。
(xxiv) MUPPET BART Large [138]:一种预训练模型,采用预微调技术显着提高其效率和性能。 (xxv) ROUGESal + Ent RL [139]:一种Seq2seq模型,采用强化学习策略从不同角度提高生成摘要的质量。
(xxvi) RNN-ext + abs + RL + rerank [140]:一种快速抽象摘要,可以通过选择显着句子并重写它们来生成简洁的摘要。
(xxvii)Bottom-Up [141]:一种新颖的 Seq2seq 摘要,利用自下而上的注意力作为选择器来选择显着句子。
(xxviii) EditNet [143]:一种混合提取-抽象模型,利用编辑网络生成摘要。
(xxix)两阶段+强化学习[144]:一种新颖的Seq2seq预训练框架,采用两阶段解码器来生成摘要。
(xxx) BertSumExtAbs [145]:一种预训练模型,采用基于 BERT 的文档级编码器来获取输入文档的语义信息。
(xxxi) UniLMv2 [147]:一种伪屏蔽 LM,它使用预训练的 LM 使用新颖的训练程序来执行自动编码和部分自回归任务。
(xxxii) BART + R-Drop [148]:以 R-Drop 作为训练策略来规范 dropout 的 BART 模型。
(xxxiii) GLM-XXLarge [149]:一种新颖的预训练框架,可以提高神经网络处理不同下游任务的泛化性和适应性。
从表中的结果我们可以知道,基于预训练的大规模语言模型已经取得了目前SOTA的成绩。这是预料之中的,因为这些预训练模型是在大规模外部语料库(例如维基百科)上进行预训练的,以捕获自然语言更深层的语义信息。而现在,基于预训练的模型几乎占据了各种 NLP 任务的列表。然而,预训练过程需要巨大的计算资源和海量数据来支持。大多数研究人员只能使用预训练的模型进行微调以适应特定任务。
与Seq2Seq基线相比,添加指针和覆盖机制可以显着提高生成摘要的质量。此外,添加内部指导信息可以更好地控制ABS系统的生成过程,例如关键词、关键句子等,使得模型在解码时更加关注文档的重要部分,从而增强生成的信息量。摘要。此外,将外部信息引入系统还可以进一步丰富模型的语义信息,从而保证生成的摘要的可读性和事实正确性,例如常识知识图谱。特别是,三元组的引入提高了生成摘要的事实正确性和 ROUGE 分数。与基线模型相比,强化学习训练策略的使用进一步增强了摘要系统的性能。
六 总结
自20世纪50年代末自动文本摘要技术被提出以来,它逐渐从抽取式发展到抽象式。近年来,随着深度学习技术在NLP领域的成熟,基于深度神经网络的抽象摘要也取得了快速发展。自动文本摘要不仅广泛应用于财经、新闻、媒体等领域,而且在信息检索、舆情分析、内容审核等方面发挥着重要作用。
在本文中,我们全面概述了当前可用的抽象文本摘要模型。我们展示了基于神经网络的ABS系统的总体框架、模型设计的细节、训练策略,并总结了这些方法的优缺点。我们还介绍了一些在文本摘要领域广泛使用的数据集和评估指标。最后,我们报告了不同模型在大规模数据集上的性能分析结果,这应该有助于研究人员根据自己的需求选择合适的计算智能和神经科学1框架和模型。我们希望我们的工作能够为ABS的未来研究和应用提供一些新的视角和启发。随着数据量越来越广泛、数据属性越来越丰富,基于深度学习的ABS模型具有巨大的潜力。
局限
然而,现有的ABS方法存在许多局限性,这是研究界未来的挑战和研究方向。这些挑战将帮助研究人员确定需要进一步研究的领域。我们讨论未来值得研究的几个方向,如下:
(1)个性化摘要生成。目前,大多数摘要模型都是基于输入文档,没有考虑用户的主观需求。一个能够根据特定用户需求生成个性化摘要的系统在电子商务和基于文本的推荐中将非常有用。
(2)引入更丰富的外部知识。由关键字(句子)引导的模型和由事实三元组增强的模型本质上都使用文档中的知识。然而,随着知识图谱技术的发展,大量的常识性知识可以用来增强模型,进一步提高生成摘要的事实正确性。
(3)生成过程中灵活的停止标准。摘要的生成是一个迭代过程。目前几乎所有的方法都提前限制了summary的最大长度来终止这个过程。但实际上,不同的场景和领域,甚至不同的输入文档,摘要的长度也不同。例如,科学文章的摘要比新闻文章的摘要要长。如何使系统自适应地终止迭代过程是一个重要的研究方向。
(4)综合评价指标。自动或手动评估生成的摘要的质量是一项艰巨的任务。手动评估具有很强的主观性,只能在较小的测试集上进行,且不具有统计显着性。然而,目前的自动评估很难考虑语义层面。因此,一个新的综合自动评估指标是必要的,它不仅可以帮助评估摘要的质量,还可以支持ABS系统的训练过程。
(5)跨语言或低资源语言摘要。目前,流行的公共摘要数据集都是基于英语的。使用这些公开的大规模英语数据集来训练跨语言摘要模型以生成低资源语言的摘要是一项有趣且有意义的工作。 .is研究仍处于起步阶段,需要更多研究人员共同努力才能取得突破[150]。