NLP论文阅读记录-ACL 2023 | Improving the Robustness of Summarization Systems with Dual Augmentation


前言

在这里插入图片描述

利用双增强提高摘要系统的鲁棒性
github:https://github.com/iriscxy/robustness
paper:https://arxiv.org/abs/2306.01090

一、论文摘要

强大的摘要系统应该能够捕获文档的要点,而不管输入中的特定单词选择或噪音如何。在这项工作中,我们首先探讨摘要模型对扰动(包括词级同义词替换和噪声)的鲁棒性。为了创建语义一致的替代品,我们提出了 SummAttacker,这是一种基于语言模型生成对抗性样本的有效方法。实验结果表明,最先进的摘要模型在对抗性和噪声测试集上的性能显着下降。接下来,我们分析摘要系统的漏洞,并探索通过数据增强来提高鲁棒性。具体来说,我们发现的第一个脆弱因素是对输入中不常见单词的理解不佳。相应地,我们向编码器提供由 SummAttacker 在输入空间中创建的更多样化的案例。另一个因素是在潜在空间中,受攻击的输入给隐藏状态带来更多变化。因此,我们构造对抗性解码器输入并在隐藏空间中设计流形软混合操作以引入更多多样性。 Gigaword 和 CNN/DM 数据集上的实验结果表明,我们的方法在强基线上取得了显着改进,并且在噪声、受攻击和干净的数据集上表现出更高的鲁棒性。

二、论文动机

2.1目标问题

人类拥有强大的摘要处理系统,可以轻松理解不同的表达方式和不同的措辞,并克服错别字、拼写错误和字母完全遗漏的情况。

研表究明,汉字序顺并不定一影阅响读。

对于人类来说,当看完这句话后,才发现这里的字全都是乱的,但是并不影响人们的阅读。这是因为人类粗略扫描后便按记忆顺序自动排序,并且研究表示人眼看文字,不是一个字一个字逐个扫描的,而是成区域的扫视。然而,研究表明,输入的微小变化可能会导致性能显著下降并愚弄最先进的神经网络。
在这里插入图片描述
经过微调的 BART 模型,会因为输入中的微小变化包括拼写错误和同义词替换,生成质量较差的摘要。比如在这里 同义词替换甚至改变了拉票的主题。

巴拉克·奥巴马总统恳求选民支持他的政府(→政党)的经济政策,尽管他承认这些政策在中期选举前不到两个月还没有带来复苏。
奥巴马表示选民应该支持他的经济政策
奥巴马敦促选民支持共和党经济政策

摘要系统的这种弱点可能会在实践中导致严重的后果。
因此该论文的目标问题是,摘要的稳健性可能会在实践中导致严重后果,尽管摘要的稳健性很重要,但对其的探讨却较少。

2.2相关工作

作者讨论了鲁棒抽象概括、对抗性示例生成和数据增强的相关工作。

稳健的抽象概括。
理想情况下,即使输入中存在微小扰动,强大的文本生成系统也应始终具有高性能。人们在文本生成领域做出了相当大的努力,用对抗性源示例和目标输入捍卫了翻译模型。
然而摘要任务的鲁棒性却很少被探索,研究者表示摘要模型通常分别过度拟合位置和布局偏差。

对抗性例子生成。
经典的文本攻击通常采用启发式规则来修改单词的字符或用同义词替换单词。这些启发式替换策略使得在巨大的可能替换空间中找到最佳解决方案变得具有挑战性,同时保持语义一致性和语言流畅性。最近,李等人提出使用以 BERT 为代表的预训练掩码语言模型来生成文本分类任务的对抗样本。
在本文中,作者专注于攻击摘要模型,这是一项更具挑战性的任务,因为该模型压缩输入,并且源中不重要部分的扰动可能会被忽略。

数据增强。
数据增强旨在生成更多的训练示例,而无需进行额外的手动标记工作,这可以提高目标模型的稳健性或性能。传统方法通过添加、删除和/或替换输入句子中的字符或单词来引入离散噪声。最近,已经提出了连续增强方法。程等人从以观察到的训练句子对为中心的平滑插值嵌入空间生成对抗性句子,并显示了其在基准和噪声翻译数据集上的有效性。谢等人提出了一种目标侧增强方法,该方法使用解码器输出概率分布作为软指标。陈等人。 (2023) 考虑代表性和生成质量,有选择地增强训练数据集。在这项工作中,作者提出了一种利用离散和虚拟增强案例的双重增强方法。

三.本文工作

作者首先评估现有最先进的摘要系统针对单词级扰动(包括噪声和对抗性攻击)的鲁棒性。噪音由自然人为错误组成,例如拼写错误和拼写错误。为了创建对抗性攻击测试集,提出了一个名为 SummAttacker 的模型。
SummAttacker 的核心算法是在给定文档中为目标模型查找易受攻击的单词,然后应用语言模型找到梯度相反方向相邻的替换单词,以最大化扰动。作者在具有不同属性的基准数据集(即 Gigaword 和 CNN/DailyMail)上验证了 SummAttacker 的有效性。实验结果表明,仅攻击 Gigaword 中的 1 个单词(1% token)和 CNN/DailyMail 中的 5% token,现有摘要模型的性能明显较低。
接下来我们进行漏洞分析并提出两种相应的解决方案来提高鲁棒性。
我们的第一个猜想是,用不常见和不常用的单词替换常见单词可能会导致更糟糕的摘要,而模型可能无法很好地理解这些单词。因此,我们采用 SummAttacker 的输出作为编码器的输入,以提高离散输入空间的多样性。
第二个影响因素是受攻击的输入在潜在空间中引入了更多的变化。相应地,我们的目标是在训练过程中使模型暴露于更多样化的隐藏状态。具体来说,我们通过将解码器输出概率与目标令牌嵌入相乘来构建软伪令牌。然后,这些软伪令牌和原始令牌在随机选择的解码器层上进行流形软混合,以扩大训练分布。更深隐藏层中利用的插值有助于捕获更高级别的信息,提高语义多样性,并提供额外的训练信号(Zeiler 和 Fergus,2014)。
实验表明,我们对编码器和解码器的双重增强提高了摘要模型在噪声和受攻击的测试数据集上的鲁棒性。
我们的主要贡献如下:
• 我们凭经验评估了近期摘要模型针对噪声和同义词替换等扰动的稳健性。
• 为了提高摘要模型的鲁棒性,我们提出了一种双重数据增强方法,该方法在输入和潜在语义空间中引入多样性。
• 实验结果表明,我们的增强方法在基准数据集和受攻击的测试数据集上比最先进的基线带来了实质性的改进。

3.1 摘要攻击器

形式上,给定一个带有参数 θ \theta θ 的经过训练的摘要模型,攻击模型的目的是稍微扰动输入 x x x,使得扰动的 x ^ \hat{x} x^的摘要输出偏离目标摘要 y y y
在这里插入图片描述

由于其容量和受欢迎程度,我们采用 BART(Lewis et al., 2020)作为骨干摘要模型,如图 1 所示。
在这里插入图片描述
主要攻击流程如下:

受攻击的词选择器

在这里插入图片描述
针对该式,d 是隐藏维度。在所有解码步骤中获得最高注意力分数的 token 是对摘要模型最重要和最有影响力的 token。如果单词 wi 包含或等于最重要的标记,我们就选择它进行攻击。为了避免更改事实信息,我们限制 wi 不能是人名和地点。
既是选择注意力分数较高的单词进行攻击,并且该单词不能是人名和地点。

使用 LM 和梯度进行攻击

接下来,我们的目标是找到一个语义上与 wi 相似但与摘要模型相反的替换词。语言模型能够生成语义准确、流畅且语法正确的句子。我们利用这个特性来寻找目标词wi的替换词w′i。
首先将标记化序列输入 BART 模型,以获得对受攻击单词 wi 的预测。如图1所示,对于具有单个标记的wi,我们使用STP(单标记预测)操作来简单地获得与wi语义相似的前K个预测。对于具有多个标记的 wi,我们有 MTP(多标记预测),它列出了预测中的 c × K 种可能组合,其中 c 是单词中的标记编号。然后我们对所有组合的困惑度进行排序,得到前 K 个候选组合,记为 VK。我们使用 NLTK 和同义词词典过滤掉停用词和反义词。
遵循基于梯度的攻击模型的思想,我们找到最具对抗性的单词 w′ i ,它偏离 wi 并朝着与预测梯度一致的变化:
在这里插入图片描述

3.2 双重增强

通过所提出的攻击模型,我们首先分析攻击的影响,然后提出我们的 DASum 来抵消负面影响。

漏洞分析

我们首先研究受攻击输入中的单词扰动,这些扰动会导致更糟糕的摘要。我们的推测是,用不常见和不常用的单词替换常见单词可能会导致更糟糕的摘要,而模型可能无法很好地理解这些单词。通过对50个较差概括案例的分析,我们的猜想得到了验证:替换词的出现频率平均比原词低4倍。特别是对于那些更糟糕的摘要,包括输入中不存在的意外单词,我们发现生成的摘要中的意外单词与输入中的替换单词的共现率通常很高。以表1中第三个意外工作gop为例,词对{party, gop}的同现比{government, gop}高6倍。这些分析结果表明,模型的脆弱性与词频分布和训练文档的多样性高度相关。
接下来,我们研究潜在空间中攻击的影响。众所周知,在文本生成过程中,预测的前一个单词的变化将影响其后单词的预测,因为后续预测将关注先前生成的单词(Lamb et al., 2016)。在受到攻击的情况下,这种错误累积问题可能会更加严重,因为扰动会在解码器空间中带来更多变化。为了验证我们的假设,我们评估了原始测试集和相应的受攻击测试集中 20 个案例的 BART 模型隐藏状态的变化。图 2 的顶部可视化了第一个和最后一个 BART 解码器层中的隐藏状态。可以看出,随着信息从解码器中的低层流向高层,潜在空间中的隐藏状态表现出更大的多样性,因为成对隐藏状态之间的距离变大。我们还计算了配对状态的欧几里得距离 E,该距离从 1.8 增加到 2.5。为了提高针对攻击的摘要鲁棒性,可以通过潜在空间的增强来训练解码器以适应多样性。
在这里插入图片描述

增强设计

在这里插入图片描述

基于上述分析,我们首先提出将SummAttacker获得的语料库作为编码器的增强输入,以提高训练文档中单词的多样性(如图3(a)中带实线的黄色方块所示)。为了减轻扰动对解码过程的影响,在解码器的潜在空间中提出了一种连续数据增强方法,其中为每个训练实例构建多个虚拟表示,以使解码器暴露于同一输入文档的潜在表示的不同变体(如图中带虚线的黄色方块所示)图3(a))。

输入空间增强

编码器侧的输入空间增强很简单,因为 SummAttacker 的输出可以直接用作编码器输入。
具体来说,我们使用 SummAttacker 自动生成原始文档的增强输入文档,表示为 ˆ x。
然后,我们使用原始数据集和增强数据集训练摘要模型,其中训练目标分别表示为 Lo = log P (y|x) 和 Le = log P (y|ˆ x)。我们还在两个输入中随机添加噪声词。
我们在图 3(b) 中展示了这个过程,其中我们两次绘制相同的编码器来表示对原始输入和增强输入的训练。

潜在语义空间增强

基于解码过程中的漏洞分析,我们的动机是通过将解码器暴露于潜在表示的不同变体来减轻对抗性攻击的影响。这些变体是通过对抗性输入和应用于解码器中随机选择的层的流形软混合技术来建立的。

我们首先通过集成所有可能生成的单词的嵌入来定义与原始输入 yt 不同的虚拟对抗性解码器输入 ^ yt 。令 lt 为解码器在 softmax 之前的预测 logits,其中 t ∈ {1, 2, …, m},lt[v] 为 v token 的 logit,m 为 y 的 token 长度。
我们将伪解码器输入计算为:
在这里插入图片描述
其中 V 是词汇量,W 是大小为 |V| 的词嵌入矩阵× d, T 是 softmax 温度。
接下来,我们通过插值 hk 和 ^ hk 来构造解码器中的虚拟对抗隐藏状态,它们是随机选择的第 k 层输入 y 和 ^ y 的隐藏状态:
在这里插入图片描述
其中 λ 是 0 和 1 之间的混合比率。混合层 k ∈ [0, L],其中 L 是解码器层数。
在解码过程中,^ yt 作为 yt 的变体,并集成了每个步骤中可能生成的单词的嵌入。隐藏状态 ̃ hk 的变体的行为类似于受攻击的输入文本的隐藏状态。潜在空间增强目标为 Ld = log P (y|x, ˆ y)。如图3所示,潜在语义空间增强预测是解码器的一种附加训练任务,其变体样本由带虚线的黄色方块表示。请注意,我们提出的流形软混合与 Xie 等人中的目标侧增强不同。 (2022),它将伪解码器输入与词嵌入层中的真实输入混合,并且仅引入低级标记变化。
最后,根据最近的研究(Chen 等人,2020),最大化从单个数据生成的各种增强数据的一致性可能会提高模型性能。在这里,我们最小化增强型之间的双向 KullbackLeibler (KL) 散度数据和真实数据,稳定训练:
在这里插入图片描述
我们最终的损失函数定义为 Lo + Le + Ld + Lc。

四 实验效果

4.1数据集

我们在两个公共数据集 Gigaword (Napoles et al., 2012) 和 CNN/DM (Hermann et al., 2015) 上进行了实验,这两个数据集已在之前的摘要工作中广泛使用。 Gigaword 中的输入文档平均包含 70 个单词,而 CNN/DM 平均包含 700 个单词。因此,我们可以检查我们的方法在不同分布的数据集上的有效性。

4.2 对比模型

BART(Lewis 等人,2020)是一种最先进的抽象摘要模型,使用去噪自动编码目标进行了预训练。 ProphetNet(Qi et al., 2020)是一种预训练模型,引入了自监督的 n-gram 预测任务和 n-stream 自注意力机制。
R3F(Aghajanyan 等人,2021)是一种鲁棒的文本生成方法,它用参数噪声替换对抗性目标,从而在可能的情况下阻止微调期间表示的变化,而不会损害性能。
SSTIA(Xie 等人,2022)通过在嵌入层中混合增强的解码器输入来增强目标端的数据集。

4.3实施细节

我们在 NVIDIA A100 GPU 上的 Huggingface 中实现了实验,并开始基于预训练模型 facebook/bart-large 进行微调。
具体来说,编码器中有 12 个编码层,数据集语义语法相似度 Gigaword Original 4.4 4.7 Adversarial 4.1 4.5 0.96 CNN/DM Original 4.4 4.6 Adversarial 4.0 4.2 0.94 表 2:对来自 SummAttacker 的对抗样本的人工和自动评估作为原始样品进行参考。
解码器。激活函数设置为 GeLU,参数从 N (0, 0.02) 初始化。我们使用 Adam 优化器,其中 ε 为 1e-8,β 为 (0.9, 0.98)。我们使用值为 0.1 的标签平滑,该值与 Vaswani 等人的值相同。 (2017)。
然后根据参数研究将攻击候选数K设置为10。学习率设置为3e-5。
CNN/DM 的热身设置为 500 步,Gigaword 的热身设置为 5000 步。批量大小设置为 128,梯度累积步长为 2。 (2022),等式 3 中的温度对于 CNN/DM 设置为 0.1,对于 Gigaword 设置为 1,并且等式 4 中的混合比 λ 设置为 0.7。基于攻击性能和语义一致性的考虑,我们将Gigaword的攻击预算设置为1%,CNN/DM的攻击预算设置为5%。我们使用原始数据集加上 SummAttacker 生成的增强案例作为我们的训练数据集,其中我们还随机添加 30% 的自然人为错误以提高对噪声的理解。训练过程大约需要8个小时,CNN/DM和Gigaword需要4个小时。

4.4评估指标

我们首先使用标准 ROUGE F1 评估模型(Lin,2004)。 ROUGE-1、ROUGE-2和ROUGE-L分别指一元组、二元组和最长公共子序列的匹配。我们使用 BERTScore(Zhang et al., 2020)来计算摘要之间的相似度。继 Chen 等人之后,我们使用事实一致性指标 QuestEval(Scialom 等人,2021)进一步评估我们的方法。 (2022)。它衡量摘要在多大程度上提供了足够的信息来回答对其文档提出的问题。 QuestEval 不仅考虑生成的摘要中的事实信息,还考虑源文本中的信息,然后给出加权 F1 分数。

4.5 实验结果

SummAttacker Evaluation

在报告我们提出的双重增强策略所提高的摘要性能之前,我们首先设置人工和自动指标来评估生成的对抗性增强案例的质量。对于人类评估,我们要求注释者对生成的对抗序列和原始序列的语义和语法正确性进行评分,按照 Jin 等人的评分从 1 到 5 分。 (2020)和李等人。 (2020)。我们随机选择 100 个原始样本和对抗样本供人类评委使用。每项任务均由三名博士完成。学生。对于自动度量,请遵循 Li 等人的方法。 (2020),我们使用 Universal Sentence Encoder (Cer et al., 2018) 来测量对抗性文档和原始文档之间的语义相似性。
如表 2 所示,对抗样本的语义和语法得分与原始样本的语义和语法得分相当接近。 Gigaword 数据集上的分数通常高于 CNN/DM。这对应于CNN/DM数据集上被攻击词的数量较大的设置。语义和语法的 kappa 统计值分别为 0.54 和 0.48,表明注释者之间的一致性中等。对于自动评估,高语义相似度表明原始文档和受攻击文档之间的一致性。我们还研究了 SummAttacker 中候选数 K 的影响。在图 4 中,当输入文档受到具有较大 K 的 SummAttacker 扰动时,所有模型的表现都会变差,因为可以在较大的 K 中找到更好的替换词 w’i。搜索空间。从生成对抗样本的角度来看,不值得使用大的 K,因为时间和内存复杂度也会随着 K 的增加而增加。因此,我们在设置中使用 K=10。

Robustness Evaluation

接下来,我们报告当输入文档受到自然人为错误(噪声)和同义词替换(基于 SummAttacker)干扰时摘要模型的评估结果。

噪声数据集的鲁棒性。

人类在打字或拼写单词时会犯错误,但他们有能力全面阅读以理解文档,而不会被此类噪音打断。因此,我们首先检查最近的摘要模型针对自然人为错误的鲁棒性。由于我们无法访问具有自然噪声的摘要测试集,因此我们使用可能的词汇替换查找表(Belinkov 和 Bisk,2018),它收集自然发生的错误(拼写错误、拼写错误等)。如果 Gigaword 测试集中存在某个单词,我们会用错误替换不同百分比的单词。我们在图 5 中展示了经典基线 BART、基于增强的模型 SSTIA 和我们的模型的性能。当对包含不同百分比噪声的文本进行评估时,这两个基线模型的所有指标均显着下降。与基线相比,我们的 DASum 模型更加稳健,并且在所有四个指标中下降最少。我们还在表 4 的第一行中给出了一个例子。人类非常擅长理解这种混乱的文本,而现有的摘要模型仍然容易受到轻微的扰动,然后由于缺乏信息而无法捕获输入文档的要点。鲁棒性增强训练。
在这里插入图片描述

受对抗性攻击干扰的数据集的鲁棒性。

接下来,我们在受到对抗性攻击干扰的测试数据集上检查摘要模型的稳健性。对于 Gigaword 数据集,我们将攻击预算 ε 设置为仅 1 个单词(1% 标记),对于 CNN/DM,我们将 ε 设置为输入文档的 5% 标记。
受攻击数据集和干净数据集的性能比较如图 6 所示。可以看出,尽管扰动只发生在少数几个
换句话说,与干净测试集上的性能相比,所有四个基线的性能均显着下降。具体来说,最新 SSTIA 模型的 ROUGE-1 分数在 Gigaword 上下降了 4.01,R3F 模型在 CNN/DM 数据集上的平均 ROUGE 分数下降了 7.33。这凸显了现有摘要模型的漏洞,也证明了我们攻击模型的有效性。尽管如此,在所有指标中,与其他基线相比,我们模型的下降百分比是最少的。具体来说,我们的模型下降最少,在 Gigaword 数据集上,ROUGE-2 和 BERTScore 指标分别仅下降 2.22 和 0.28。我们在表 3 中显示了受攻击集的详细性能。我们的模型在大多数指标上都优于两个数据集的基线。此外,我们还观察到短文档的摘要模型比长文档的摘要模型更容易受到攻击。一个潜在的原因是,当输入较短时,摘要模型更加依赖于每个输入单词。当输入较长时,每个单词的重要性都会降低,因为模型可以求助于其他来源来生成摘要。
在这里插入图片描述

消融研究

我们首先研究输入空间增强的影响。如表3所示,在没有Le损失的情况下,性能下降最多。我们还对增强后的输入进行多样性分析,对应于§4中的漏洞讨论。与原始常见词相比,生僻词的比例增加了30%,这直接验证了我们的假设,即在训练数据集中引入变化可以提高摘要模型的鲁棒性。接下来,我们研究潜在空间增强的效果。具体来说,去除 Ld 后,提取摘要的 ROUGE-1 分数下降了 0.79。这表明该模型受益于训练过程中更具多样性的隐藏状态。此外,我们在图 2 中比较了 DASum 和 BART 的解码器隐藏状态。 DASum 中成对的原始隐藏状态和受攻击隐藏状态的偏差得到有效减小(最后一层中 E 从 2.5 下降到 1.9)。第三,DASum w/o Lc 的性能表明,双重一致性也有助于提高鲁棒性。我们还注意到,就图 5 中的不同攻击设置而言,DASum 始终比其他两个基线更稳健。
在这里插入图片描述


五 总结

在本文中,我们研究了摘要任务中的鲁棒性问题,该问题以前尚未得到充分研究。我们首先提出了 SummAttacker,它稍微扰乱了基准测试数据集中的输入文档,并导致最近的摘要模型的性能显着下降。相应地,我们提出了一种用于提高鲁棒性的双数据增强方法,该方法生成具有相同含义但具有不同表达格式的离散和虚拟训练案例。实验结果表明,我们的模型优于强大的基线。

局限性

我们讨论框架的局限性如下:
(1)在本文中,我们通过关注输入文档中的单词级扰动,在摘要系统的鲁棒性方面迈出了第一步。然而,在实践中,摘要模型的鲁棒性体现在许多其他方面。例如,针对句子级或文档级扰动的摘要性能也是一种鲁棒性。
(2)尽管与其他基于增强的模型相比,DASum 极大地提高了生成质量,但在增强数据集构建过程中需要更多的计算资源。对于具有长文本的大规模数据集(例如 BigPatent (Sharma et al., 2019)),值得考虑 Transformer 架构的时间复杂度。

  • 34
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值