抽象摘要—对三个抽象摘要模型(T5,BART,Pegasus)的性能进行评估:An Analysis of Abstractive Text Summarization Using Pre-train

An Analysis of Abstractive Text Summarization Using Pre-trained Models

使用预训练模型进行抽象文本摘要分析

paper: https://arxiv.org/abs/2303.12796

github:

本文做的就是一个测评,评估pegasus-cnn-dailymail,T5-base,bart-large-cnn的性能,从结论来看t5是效果最差的。

1.结论

本文的目标是:在不同的数据集上评估不同的文本摘要预训练模型。使用了三种不同的预训练模型,即 google/pegasus-cnn-dailymail、T5-base 和 facebook/bart-large-cnn。使用了三个数据集,即 CNN-dailymail、SAMSum 和 BillSum。预训练的模型有字符限制,本文使用了 BERT 窗口的概念。删除其不重要的内容来压缩冗长的文本。

CNN-dailymail 和 SAMSum 数据集上,google/pegasus-cnn-dailymail 模型和 facebook/bart-large-cnn 模型比 T5-base 模型提供了更好的结果。 BillSum 数据集上,google/pegasus-cn-dailymail 模型比 T5 基础模型和 facebook/bart-large-cnn 模型提供了更好的结果。

2.原文阅读

Abstract

如今,人们使用谷歌、雅虎和必应等搜索引擎在互联网上查找信息。由于数据量激增,如果能为用户提供搜索结果的相关摘要,而不仅仅是网页链接,就会对用户有所帮助。文本摘要已成为帮助消费者迅速掌握海量信息的重要方法。本文在不同的数据集上评估了用于文本摘要的不同预训练模型。具体来说,我们使用了三种不同的预训练模型,即 google/pegasus-cnn-dailymail、T5-base 和 facebook/bart-large-cnn。我们考虑了三个不同的数据集,即 CNN-dailymail、SAMSum 和 BillSum,以获得上述三个模型的输出结果。我们通过 ROUGH 和 BLEU 指标对预训练模型与这些不同的数据集(每个数据集包含 2000 个示例)进行了比较。

1 Introduction

介绍背景与本文工作:

对于一篇较长的文章,人类自然倾向于以摘要的形式记住其中最重要的内容。我们周围的数据量越来越大,以至于我们需要找到一种能准确、及时地提供摘要信息的解决方案。这就需要一种从大量数据中提取准确摘要的工具或方法。自动文本摘要就是一种可用于实现这一目标的技术。概括地说,总结有两种方法[1, 2]:提取法和抽象法。提取法一般是从输入的源文本中复制整句,然后将其合并成摘要,同时丢弃输入文本中不重要的句子。抽象方法可以在摘要过程中产生新词,类似于人类做这项工作的方式,即首先阅读整篇文档,理解文档内容,然后通过诱导适当的新词进行摘要。本文的主要贡献在于(1) 在 CNN-dailymail、SAMSum、BillSum数据集上评估了三种不同的预训练模型的性能,即 google/pegasus-cn-dailymail、T5-base、facebook/bart-large-cnn。我们使用这三种预训练模型取得了显著效果。使用 ROUGH和 BLEU指标对预训练模型进行了性能评估。

2 Literature Review

对于抽象概括,Nallapati 等人提出了一种基于注意编码器解码器循环神经网络的模型,用于抽象文本概括。Bahdanau 等人改进了基本编码器和解码器模型的性能。Luong 等人提出了关注机制:一种是始终关注所有源词的全局方法,另一种是每次只关注源词子集的局部方法。See 等人详细研究了使用指针生成器网络的多种抽象文本摘要模型。Sutskever 等人为序列学习提供了一种基于多层 LSTM 的端到端解决方案;在这里,编码器的输入是固定长度的文本。Lin 等人提出了一种抽象文本摘要的全局编码机制。本文使用基于 GRU 的编码器和解码器,并增加了一个注意力层。Shi 等人提出了一种 seq2seq 模型来提高性能。这提高了摘要的流畅性和人类可读性,生成了高质量的摘要并捕捉到了突出信息。Aksenov 等人提出了一种名为 BERT windowing 的新方法。这种方法有助于以分块方式处理长文本(其长度超过 BERT 窗口)。这些技术大多在网络结构、参数推断和解码/生成性质这三个类别中的一个类别上存在差异。

3 Datasets

文本摘要可应用于各种数据集。本文使用了三个不同的数据集:CNN-dailymail、SAMSum和 BillSum。

CNN-dailymail数据集是一个英文数据集,包含CNN和《每日邮报》作者发表的30多万条独特新闻。本研究使用的是 3.0.0 版本,该版本可用于训练抽象总结和提取总结。新闻报道和重点句子构成了数据集对。在答题设置中,文章被用作上下文,而实体被逐个隐藏在高亮句子中,从而产生了 "掐头去尾 "式的问题,即模型能正确识别上下文中的哪个实体被隐藏在了高亮句子中。在摘要设置中,高亮句子被串联起来以生成文章摘要。将模型生成的摘要与书面摘要进行比较,以找出特定文章的 ROUGE分数和 BLEU分数。

SAMSum 数据集包括约 16k 条带有摘要的类似信使的聊天记录。会说英语的 Linguests 创建并记录了这些对话。统计结果显示了真实生活问题的百分比。该数据包含 16369 条对话,平均分为四组。数据字段包括对话或对话字符串文本、人工撰写的对话或对话摘要以及每个实例的唯一 ID。其中,训练集有 14732 个实例,验证集有 818 个实例,测试集有 819 个实例。这些摘要都做了注释,要求它们:1)简短;2)提取关键信息;3)包含对话者的姓名;4)以第三人称撰写。每段对话或交谈中只有一个摘要参考。波兰三星研发机构出于非商业研究目的制作并发布了本数据集。

BillSum 数据集汇总了美国国会和加利福尼亚州的州法案。它具有以下属性:1)text:法案文本;2)synopsis/summary:立法概要/摘要;3)title:法案标题;4)text len 是文本中的字符数;5)sum len 是摘要中的字符数。文本字符串、摘要字符串和标题字符串组成了数据字段。立法议案具有复杂的句子结构和性质。因此,对于文本摘要而言,这是一个具有挑战性、重要且有用的数据集。

为了比较三种不同预训练模型的结果,我们从上述每个数据集中选择了一组 2000 个测试示例。

4 Pre-trained models

Zhang 等人[19]在PEGASUS中介绍了 Pegasus 模型:“用提取的空白句进行抽象总结的预训练”。Pegasus 预训练任务的设计与摘要类似:从输入文档中删除/屏蔽关键句,然后将剩余的短语组合成一个输出序列,类似于提取式摘要。根据 ROUGE 和 BLEU 指标的评估,Pegasus 在所有 12 个下游数据集中都取得了良好的摘要性能。

Raffel 等人[20]在"用统一文本到文本transformer探索迁移学习的极限"中介绍了T5-base模型。T5-base模型是一个编码器-解码器模型,已在无监督和有监督工作负载的多任务组合上进行了预训练,每个任务都已转换为文本到文本。T5-base 通过为每个任务的输入添加不同的前缀,可以很好地处理各种工作。T5 使用相对标量嵌入。编码器输入填充可在左侧和右侧进行。T5 有不同的大小,这里我们只使用了 T5-base。

Lewis 等人[21]提出了BART(双向和自动回归transformer)模型:“用于自然语言生成、翻译和理解的序列到序列预训练”。BART 是一个编码器-编码器(seq2seq)模型,具有类似于双向(BERT)编码器和自回归(GPT)解码器。它是以序列到序列模型的形式实现的,在损坏的文本上有一个双向编码器和一个从左到右的自回归解码器[21]。预训练工作需要随机重新排列原始短语的序列,并使用一种新的内填充方法,用单个掩码标记替换文本跨度。在对文本制作进行微调后,BART 在摘要和理解任务中尤为成功。

4.1.Pre-trained model comparison

在本小节中,我们将比较几种预训练摘要器。我们选择了 google/pegasus-cn-dailymail、T5-base 和 facebook/bart-large-cnn 模型,这是在浏览了 hugging face 网站上的抽象文本摘要模型之后进行的。我们没有寻找在同一组数据上训练的模型,而是选择了在不同文本语料库上训练的模型。我们有兴趣分析这些模型在共同的测试文档集上的表现。

为了有效地比较这些模型,我们将它们全部初始化并放入一个 Python 字典中,以供后续使用。每个数据集都给了这些模型相同的文章。预训练好的模型有字符限制,每个模型在一个序列中都有一些预定义的可接受标记数,比如只有 512 个标记。在尝试为数据集中的每篇文章生成摘要时,如果不遵守限制,就会产生错误。为了解决这个问题,我们使用了 BERT 窗口的概念。文献中一些基于 BERT 的预训练模型会通过删除其认为最重要的句子之外的所有内容来压缩冗长的文本。我们也采用了同样的方法来缩减输入内容的大小;在缩减文章后,我们使用预训练模型创建了一个抽象摘要。

5 Evaluation

在预训练模型总结完所有文章后,将使用 ROUGE 和 BLEU 指标对总结进行评估。在将生成的摘要与用于评估的参考摘要进行比较时,ROUGE 会确定每个模型的精确度、召回率和 f-measure。这里使用了 TP-真阳性、FP-假阳性、FN-假阴性的命名规则。

我们还使用了另一种称为 BLEU 的指标来评估模型的性能。BLEU(双语评估)是一种评估模型生成的文本类型的方法。BLEU 是一种确保与人类质量选择挂钩的度量方法,它仍然是当今最著名的自动和最低成本估算方法之一。它给出一个介于 0 和 1 之间的值,表示预测摘要与参考摘要的接近程度。

利用这些指标,我们可以评估每个模型对数据的总结程度。尽管我们的计算机缺乏 GPU 支持,但我们还是使用 3 个不同的数据集测试了这 3 个预先训练好的模型。我们成功地对所有 3 个模型进行了比较和评估。

在这里插入图片描述

CNN 每日邮件数据集的观测结果如表 1 所示。图 4 显示了它们的输出图示。SAMSum 数据集的观测结果如表 2 所示。图 5 显示了它们的输出图形。BillSum 数据集的观测结果如表 3 所示。图 6 显示了它们的输出图形。(请注意,在图 4、图 5 和图 6 中,X 轴包含 ROUGE1f(ROUGE-1 的 f-measure)、ROUGE2f、ROUGHLf、ROUGH1r(ROUGE-1 的召回率)、ROUGH2r、ROUGHLr、ROUGE1p(ROUGE-1 的精度)、ROUGE2p、ROUGELp 和 BLEU 标签,竖条的颜色代码如下: 蓝色:google/pegasus-cnn-dailymail,橙色:T5-base,绿色:facebook/pegasus-cnn-dailymail: T5-base,绿色:FACEBOOK/BART-LARGE-CNN)。

在这里插入图片描述

在这里插入图片描述

5.1.Sample Output

在这里插入图片描述

图 1 展示了 3 个预训练模型在 CNN-每日邮件数据集上的效果。图 2 展示了 3 个预训练模型在 SAM- Sum 数据集上的效果。图 3 展示了 3 个预训练模型在 Bill-Sum 数据集上的效果。google/pegasus-cnn-dailymail 模型和 facebook/bart-large-cnn 模型在 CNN-dailymail 数据集和 SAMSum 数据集上生成了更好的摘要,而 google/pegasus-cnn-dailymail 模型在 BillSum 数据集上生成了更好的摘要。

在这里插入图片描述

6 Conclusion

在本文中,我们使用不同的数据集观察了不同预训练模型的输出结果。在使用 CNN-dailymail 数据集和 SAMSum 数据集时,根据 ROUGE-1、ROUGE-2 和 ROUGE-L 性能指标的 f 分数,google/pegasus-cnn-dailymail 模型和 facebook/bart-large-cnn 模型比 T5-base 模型提供了更好的结果。在使用 BillSum 数据集时,根据 ROUGE-1、ROUGE-2 和 ROUGE-L 性能指标的 f 值,google/pegasus-cn-dailymail 模型比 T5 基础模型和 facebook/bart-large-cnn 模型提供了更好的结果。今后,我们的目标是在给定的数据集上对预训练模型进行微调,并检验其性能是否有所提高。我们还计划将这些模型应用于学术领域的文档,作为我们在中工作的扩展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值