NLP论文阅读记录-EMNLP 2023 | 06 A Hierarchical Encoding-Decoding Scheme for Abstractive Multi-document Sum

本文链接：https://blog.csdn.net/yuyuyu_xxx/article/details/134972607

前言

在这里插入图片描述

一种抽象多文档摘要的分层编解码方案（2305）

[code](https://github. com/DAMO-NLP-SG/HierEncDec.)
paper

0、论文摘要

预训练语言模型（PLM）在抽象单文档摘要（SDS）方面取得了杰出的成就。然而，这种好处可能无法完全扩展到多文档摘要（MDS），其中跨文档信息的处理更加复杂。以前的工作要么设计新的 MDS 架构，要么直接将 PLM 与串联的源文档一起应用为重新制定的 SDS 任务。虽然前者没有利用之前的预训练工作，并且可能无法在不同领域之间很好地推广，但后者可能无法充分关注 MDS 任务特有的复杂的跨文档关系。相反，我们在编码器和解码器上强制实施层次结构，以更好地利用 PLM 来促进 MDS 任务的多文档交互。在来自各个领域的 10 个 MDS 基准测试中，我们的方法优于以前的最佳模型或具有竞争力，包括那些具有额外 MDS 预训练或更多参数的模型。它的性能比相应的 PLM 主干网络高出 3 ROUGEL，并受到人类的青睐。1

一、Introduction

1.1目标问题

多文档摘要（MDS）首先由 Barzilay 等人提出。（1999），被框架为使用一组相关文档生成单个摘要的任务，并且已被广泛研究（Xiao 等人，2022；Song 等人，2022；Tu 等人，2022；Liu 等人） .，2021；Li 等人，2020；Liu 和 Lapata，2019a；Fabbri 等人，2019）。 MDS 本质上比单文档摘要 (SDS) 复杂得多。具体来说，与 SDS 需要在一篇文章中提取关键信息不同，MDS 不仅需要处理来自多个来源的矛盾，还需要处理文档中存在重复和大量琐碎信息（Zhou et al., 2021; Cui and Hu, 2021; Liu and Lapata, 2019a; Lebanoff et al., 2018; Li et al., 2017a, 2018; Yasunaga et al., 2017；Ganesan 等人，2010）。
虽然MDS可以通过将多个文档连接成伪单个文档来表面上转换为SDS（Fabbri et al., 2019; Liu et al., 2018; Lebanoff et al., 2018），但不规则且复杂的多文档信息仍然存在。

1.2相关的尝试

因此，由于其与连续文本段的大多数连贯的 PLM 预训练数据存在巨大差异，它继续构成挑战（Baumel 等人，2018）。另一方面，许多作品设计了专门的 MDS 架构（Xiao 等人，2022；Liu 等人，2021；Liu 和 Lapata，2019a；Fabbri 等人，2019）。然而，它们需要 100K 训练数据规模的大型监督 MDS 数据集（Liu et al., 2021；Liu and Lapata, 2019a；Liu et al., 2018；Fabbri et al., 2019），并且可能无法推广到未知领域。它们也没有利用在相干数据上进行预训练的大型 PLM 的功能（Lewis 等人，2020；Raffel 等人，2020；Zhang 等人，2020）。

1.3本文贡献

鉴于 MDS 数据稀缺且获取成本高昂（Lebanoff 等人，2018），我们提出了一种简单的分层编码解码方案，可以在约 2K 到 45K 训练样本的较小规模 MDS 数据集上有效地微调 PLM。
我们的目标是更好地适应 PLM 在预训练期间获得的知识（由于数据移位较小，这对 SDS 更有用），以便在编码器和解码器中进行 MDS 微调。
在编码器中，我们在同一文档中保留原始的注意力机制，同时将“”重新用作高级交互的文档级表示。这种方法确保可以使用预训练知识很好地表示文档内标记，同时文档仍将在更高级别上相互交互。
在解码器的交叉注意力层中，我们施加注意力权重上的文档级重要性缩放，这允许每个文档以不同但更适当的方式影响输出标记。因此，我们的方法仍然可以利用 PLM 的通用语言建模功能，同时在微调期间学习处理复杂的跨文档信息。
我们在各种 MDS 数据集（Shen et al., 2022b; Lu et al., 2020; Ghalandari et al., 2020; Fabbri et al., 2019; Wang and Ling, 2016）上进行了广泛领域的实验，即、新闻、科学文献、电影评论家、同行评论和特定的维基百科主题。我们的实验结果表明，我们的分层方案优于强大的最先进模型（包括具有额外 MDS 预训练或更大模型大小的模型）。它还将所有 10 个数据集上的 PLM 主干网持续改进了高达 3 ROUGE-L，并且在手动检查的数据集上，受到人类的青睐。
此外，我们的详细注意力、内容分析和消融表明，我们的方法确保了文档内标记的更连贯的编码器表示，并在解码过程中获得了不同文档的更广泛的交叉注意力覆盖。
通过这种方式，我们的方法充分利用预训练知识进行编码，同时鼓励解码过程以更合适的权重考虑所有文档，而不是过度关注少数文档而忽略其余文档。

二.相关的工作

2.1MDS 模型

之前的工作为 MDS 任务设计了特定的神经抽象摘要架构（Liu et al., 2021；Liu and Lapata, 2019a；Liu et al., 2018；Fabbri et al., 2019）。然而，现有的 PLM 很难适应这些特定的设计。因此，这些模型必须使用相对较大的 MDS 数据集（数十万个示例）从头开始训练。这同样适用于基于图形的网络（Chen 等人，2021；Li 等人，2020；Parveen 和 Strube，2014；Christensen 等人，2013），它们明确促进文档与图形设计的交互。因此，所有这些模型可能在其训练的特定领域中运行良好，但可能无法很好地推广到其他领域的较小 MDS 数据集。最近的工作尝试使用现有的 PLM 进行额外的 MDS 预训练（Xiao 等人，2022 年；Puduppully 和 Steedman，2022 年）。尽管如此，MDS 预训练语料库（例如 NewSHead (Gu et al., 2020)）的规模比预训练语料库小得多，使用规模小得多的 MDS 语料库重新训练 PLM 可能会导致灾难性遗忘（French, 1999）预先训练的知识。

2.2MDS 的 PLM

PLM（Lewis 等人，2020；Raffel 等人，2020；Zhang 等人，2020）已在 SDS 方面实现了最先进的性能。一些作品通过连接多个文档直接将这些 PLM 用于 MDS（Guo 等人，2022；Xiao 等人，2022；Shen 等人，2022a,b），包括关注较长上下文窗口的作品（Zaheer 等人）等人，2020；Beltagy 等人，2020）。然而，将多个文档的内容连接在一起会阻止 PLM 区分或以不同方式处理内容。通过本质上将 MDS 输入视为单个文档来处理，PLM 可能无法很好地处理跨文档信息。
另一种方法是通过多个阶段进行总结（Song et al., 2022; Tu et al., 2022; Ernst et al., 2022; Hokamp et al., 2020a; Li et al., 2020; Lebanoff et al., 2018；Li et al., 2017b,c；Bing et al., 2015），首先从多个文档中提取或总结显着内容，然后传递到 PLM 进行最终抽象阶段。
然而，PLM 的输入现在由多组不连贯的句子或短语组成，这些句子或短语是从多个来源拼接在一起的，与 PLM 的原始预训练语料库相比，出现了显着的分布变化。
我们的方法与之前的著名作品（Xiao et al., 2022; Beltagy et al., 2020）不同，我们新颖地使用文档开始标记作为文档级表示，以及进一步在我们的分层解码方案中利用这些令牌来实现跨文档交互。

三.本文方法

为了更好地利用 PLM 强大的语言建模功能，我们提出了一种编码解码方案，以更好地为 MDS 设置配备 PLM。
我们的设计满足以下要求：
（1）利用预训练过程中获得的 PLM 的语言建模能力；
(2)有利于模型在MDS数据集微调过程中更好地处理跨文档信息。
对于第一个要求，我们为编码器和解码器保留同一文档中的令牌交互。
对于第二个要求，我们使用 PLM 的“~~”标记在编码器中进行文档的分层表示，然后进一步使用这些标记在解码器中进行分层注意力缩放。~~

3.1 分层编码方案

3.1.1利用 PLM 知识

为了更好地利用预训练期间获得的源标记表示的知识，我们对编码器进行了以下修改：限制文档内完全注意力和位置重新启动。

有限的文档内充分关注

在这里插入图片描述

由于 PLM 的自注意力仅在预训练期间应用于来自相同一致源的标记（Lewis 等人，2020），因此它可能无法很好地处理跨文档标记表示。因此，为了符合预训练过程，我们将每个标记的自注意力仅限于同一文档中的同级标记（图 1 左上）。这样，令牌只能看到自己文档中的单词，从而避免了信息泄露或受到其他文档中脱离上下文或矛盾信息的影响。一些作品（Shen 等人，2022b；Fabbri 等人，2019）直接对所有文档中的标记应用充分注意力（图 2a）或使用局部注意力窗口（例如 LED（Beltagy 等人，2020）和PRIMERA（Xiao 等人，2022））（图 2b），其中每个令牌仅关注周围令牌的一个小窗口。在这两种方法中，令牌都允许受到其他文档中的令牌的影响，从而可能导致不正确的表示。

位置重启

我们重新启动每个文档的位置编码（图 1 底部），以便向我们修改后的编码器发出信号，表明后续单词来自下一个文档，而不是前一个文档的连续段落。因此，每个文档的编码过程将符合 PLM 预训练的单文档编码过程。

3.1.2处理跨文档信息

仅利用 PLM 知识只能实现每个文档的独立处理。为了使模型在微调阶段能够更好地学习跨文档信息，我们利用全局令牌进行文档级信息封装。

文档开始 (SOD) 表示

以前的方法要么使用单个“”标记通过自注意力（例如 LED）保留完整输入序列的全局信息，要么出于相同目的在文档之间引入多个特殊“”标记（例如，PRIMERA）。相反，我们采用不同的策略，利用“”标记从各个文档中捕获信息。具体来说，我们将“”标记放置在每个文档的开头，作为 SOD 标记。然而，我们并没有让 SOD 令牌关注文档中的所有令牌并充当全局令牌，而是将它们的注意力限制在它们所代表的相应文档令牌上。这是因为“”通常位于 PLM 预训练输入序列的开头，并且通常也用于封装 Transformer 架构中的文本序列。因此，PLM 已经获得了使用“~~”标记捕获文档信息的能力。通过这种方式，我们利用“~~”标记作为高级文档表示，以进一步促进编码器和解码器中的跨文档交互（第 4.2 节）。~~~~

文档级注意力

与 LED 或 PRIMERA 能够充分关注全局令牌（如图 2b 中的橙色块所示）不同，我们只允许 SOD 令牌关注相同文档令牌和其他文档中的 SOD 令牌，如“分层自我”中的橙色块所示图 1 中的“注意”图。这允许每个 SOD 令牌对同一文档中的信息进行编码，同时仅与其他 SOD 令牌交换跨文档信息。

3.2分层解码方案

我们进一步设计了一个分层解码器，以利用 SOD 令牌中的文档封装，同时利用现有的预训练知识进行解码。正如第 3 节中所讨论的，PLM 的解码器首先对先前生成的令牌进行自注意力，然后与源令牌进行交叉注意力。我们不修改独立于源令牌的自注意力机制。相反，我们利用 SOD 编码器输出标记中的文档级信息，通过相应地将交叉注意力注意力权重缩放到来自各个文档的源标记。
我们在图 1 中说明了交叉注意力机制（“分层交叉注意力”图）。形式上，给定 N 个文档，我们将解码器中对每个文档的交叉注意力分数表示为 an = (an,0, …, an,kn)，其中 kn 是第 n 个文档中的标记数量。与等式（2）类似，我们计算每个文档中标记的交叉注意力权重：

在这里插入图片描述

接下来，我们依靠 SOD 标记来决定每个文档的相对重要性，然后相应地调整交叉注意力权重。为此，我们首先获得每个文档的归一化缩放因子：
在这里插入图片描述
其中 an,0 ∈ an 是第 n 个文档中 SOD 标记的注意力分数。我们得出每个文档中标记的标准化注意力权重：

通过这种方式，我们的 MDS 解码器可以更好地掌握每个文档的相对重要性程度，同时在解码过程中保留同一文档内的相对交叉注意力权重。

四实验效果

4.1数据集

我们在广泛的 MDS 数据集上进行了实验，如下所示：Multinews (Fabbri et al., 2019)、WCEP (Ghalandari et al., 2020)、Multi-Xscience（Lu et al., 2020）、烂番茄（Wang and Ling, 2016）以及最近发布的 MReD 数据集（Shen et al., 2022b）。这些数据集来自广泛的领域，即新闻、事件、科学文献、电影评论和同行评论。表 1 提供了每个数据集的统计数据（参见附录 A 中的下载链接）。由于MDS数据集的稀缺性，我们进一步编译了不同领域的多个数据集。在 MReD 同行评审数据集中（Shen 等人，2022b），同一研究论文的多个评论被用作输入，而元评论被用作摘要。我们通过包含相应的反驳来扩展该数据集，并将其称为“MReD+”。此外，我们还从维基百科文章的四个领域（即“电影”、“交通运输平均值”、“软件”和“城镇”）编译了 MDS 数据集。这些数据集使用维基百科主要部分文本作为摘要，并将各个部分作为多文档输入。

4.2 对比模型

BART 我们对预训练的“bartlarge”（Lewis 等人，2020）进行了微调，它对所有源令牌使用充分的注意力（图 2a）。 LED LED（Beltagy 等人，2020）是长文本摘要的竞争基准。它直接从“bart-large”初始化，但使用全局局部注意力来更好地处理长上下文输入。具体来说，每个本地令牌都具有滑动窗口注意力，并且还关注全局令牌，而全局令牌则关注所有源令牌。由于全局标记和局部标记有单独的 V 、 Q 和 K （参见等式（1）和等式（3）），因此该模型包含稍微多的参数。
LongT5 LongT5 (Guo et al., 2022) 采用摘要预训练策略 (Zhang et al., 2020) 和 T5 (Raffel et al., 2020) 进行长上下文摘要。它使用瞬态全局注意力，与 LED 的不同之处在于，全局令牌是通过对 k 个非重叠连续块中的令牌嵌入求和来获得的，该连续块划分了整个输入源。由于资源限制，我们只能在我们的机器上微调基础模型。因此，我们还使用较小模型尺寸的“bart-base”主干来提供我们的方法结果。 PRIMERA PRIMERA（Xiao 等人，2022）在 LED 模型之上对 NewSHead 数据集使用额外的 MDS 预训练。它在文档之间引入了一个特殊的“”标记，其功能与 LED 中的全局标记相同。它还使用移动上下文窗口，该窗口仍然可以捕获两个连续文档中的标记（参见图 2b）。 HED（我们的）我们在“bart-large”之上应用我们的分层编码解码方案（HED）以获得“BART+HED”。由于HED没有引入新的参数，因此“BART+HED”与BART基线严格可比。此外，我们将 HED 与“bart-large-cnn”检查点一起应用，形成“BART-cnn+HED”模型。 “bart-large-cnn”检查点涉及在“bart-large”检查点上使用新闻领域（即 CNN/DM）中的 SDS 数据集进行额外的预训练。虽然我们自己不进行额外的预训练，但我们仍然可以将“BART-cnn+HED”与“BART+HED”进行比较，以评估在预训练阶段使用 SDS 数据集传输到 MDS 下游任务的知识。此外，这可以与 PRIMERA 和 LED 之间的比较并列，后者揭示了在 MDS 任务的新闻数据集（即 NewSHead）上进行额外 MDS 预训练所带来的好处。

4.3实施细节

我们使用所有数据集上的交叉熵损失对上面讨论的所有评估模型进行微调。遵循 PRIMERA（Xiao 等人，2022），我们分别使用 4096 和 1024 的源截断和目标截断。在所有评估的模型中，LongT5 和 LED 可以轻松接受 4096 个令牌的源输入。 BART 最多只能接受 1024 个令牌，因此我们重复复制 BART 的位置嵌入 4 次，类似于 Beltagy 等人从 BART 衍生 LED 的方式。（2020）。继 PRIMERA 之后，对于 Multinews、WCEP 和 MultiXscience，我们截断每个源文档的末尾4。对于其余的数据集，我们遵循 Shen 等人的方法。 (2022b) 并截断合并文档的末尾。有关我们对不同数据集的截断选择的更多解释，请参见附录 C。我们使用学习率为 5e − 5 的 Adam 优化器，并且没有任何预热或权重衰减。
所有模型均在单个 A100 80G GPU 上进行训练，在同一数据集上进行相同数量的训练步骤，如表 1 所示。每个数据集的训练步骤数根据“bartlarge”基线上的开发集损失确定。我们根据 ROUGE (Lin, 2004) 指标评估所有模型输出，并提供 ROUGE-1、ROUGE-2 和 ROUGE-L 的 F1 值。我们还对选定的基准进行人工评估。此外，我们还编译了其他论文直接报告的结果（Guo et al., 2022; Song et al., 2022; Liu et al., 2022; Tu et al., 2022; Shen et al., 2022b; Pasunuru et al., 2022）。，2021）在附录 D 的表 6 至表 10 中，以更好地概述不同数据集上的当前性能。
然而，由于报告模型的设置差异很大，结果不具有严格可比性。

4.4评估指标

4.5 实验结果

4.5.1主要结果

在这里插入图片描述

我们在表 2 中显示了所有 10 个数据集的 ROUGE-1 和 ROUGE-L 结果（参见附录表 11 中的 ROUGE-2 分数）。表 2 的上半部分显示了相对较小模型的性能。值得注意的是，我们的“BART+HED”方法在几乎所有基准测试中都超越了 LongT5，尽管模型大小约为 LongT5 的一半。转到表 2 的下半部分，我们的“BART+HED”模型始终表现出相对于相应“BART”主干网的改进，证明了我们提出的方法的有效性。
此外，“BART-cnn+HED”总体上优于“BART+HED”。这表明我们提出的方法可以有效促进知识迁移，甚至是通过 SDS 新闻数据集预训练获得的知识。另一方面，PRIMERA 在 LED 之上使用新闻数据集进行额外的 MDS 预训练，但出现了一些明显的性能下降，特别是在 MReD、MRed+ 和 Software 的数据集上。如前所述，MDS 预训练语料库特征与 PLM 原始预训练期间使用的语料库特征明显不同。因此，仅在一个新闻数据集（即 NewShead）上对 PRIMERA 进行额外的 MDS 预训练可能会导致其他领域的灾难性遗忘。结果，该模型丢失了在之前的预训练阶段获得的一些知识，并且在与新闻领域显着偏离的领域中表现尤其糟糕。
尽管如此，我们的方法并不能保证额外的 SDS 预训练带来的改进，烂番茄中 ROUGE-L 的下降就证明了这一点。该数据集非常小，包含大约 2K 个训练样本。它的独特之处在于每个样本平均由 100 个文档组成（参见表 1“#Docs”）。在这种情况下，额外的 SDS 预训练可能会对模型处理大量文档输入的能力产生负面影响，尤其是在 MDS 微调数据非常有限的情况下。
另一个有趣的观察结果是 LED 的表现相对较强，特别是在 WCEP 和 Multinews 数据集上。根据沃尔汉德勒等人的说法。 (2022)，WCEP 和 Multinews 的黄金摘要表明多文本合并的程度相对有限，这表明来自单个文档的信息足以进行摘要。因此，尽管 LED 缺乏处理跨文档信息的固有架构，但由于其处理长上下文输入的优化能力，它仍然可以表现良好。

4.5.2 人工评价

我们对不同领域的 Multinews 和 MReD 数据集进行人工评估。具体来说，我们从每个数据集中随机抽取 50 个测试样本，由人工智能研究领域的 5 名志愿者中的 2 名随机评估者独立评估。每个评估者都会以双盲方式获得“BART”和“BART+HED”的输出，并要求对较好的总结打 1 分，对较差的总结打 0 分，如果平局则给两个 0.5 分。评价标准为（1）流畅性——摘要的整体流程和语法； (2)相关性——从输入文档中选择重要内容； (3) 抽象性——摘要由重新表述的内容组成并避免大量复制输入内容的程度； (4) 显着性——摘要中包含的显着信息量； (5) 覆盖范围——为摘要提供足够信息所需的最少输入文件数量。后者的新标准是我们新提出的，以更好地评估 MDS 任务（更多详细信息请参阅附录 E）。结果如表 3 所示。对于两个评估基准，“BART+HED”总体优于“BART”。在写作方面风格上，“BART+HED”对于两个数据集都有明显更好的抽象性。这表明“BART+HED”使用自己的单词进行总结，而不是从源中逐字复制长短语和句子，这要归功于鼓励明确的跨文档信息处理的层次结构。虽然更高层次的抽象可能会导致流畅度下降，但“BART+HED”在 Multinews 数据集上的流畅度仍然与“BART”有竞争力，甚至在 MReD 数据集上超过“BART”。这表明尽管我们进行了修改，“BART+HED”仍然保留了“BART”足够的语言建模能力。就内容而言，我们的方法在两个数据集上也实现了比“BART”更高水平的相关性。这表明我们的模型更擅长在解码过程中比较输入文档（后面的 6.3 节也支持）并提取最重要的摘要信息。此外，由于 MReD 来自同行评审领域，因此作为元评审的摘要是高度浓缩的（Shen 等人，2022b），并且由于来自不同意见的审稿人的输入文件经常发生冲突，因此构成了更大的挑战。在此数据集中，“BART+HED”在显着性和覆盖率方面均表现出色，且利润率更高，这表明我们的方法对于此类复杂的 MDS 任务特别有效。在这里插入图片描述

4.5.3注意力分析

为了更好地理解生成过程，我们对编码器和解码器的每个数据集的 200 个测试样本进行注意力权重分析。

编码器分析

在这里插入图片描述

图 3a 显示了编码器中“BART+HED”的每个源标记对其所属文档（也称为自文档）的相对（在“BART”基线上标准化）注意力。毫不奇怪，“BART+HED”的自文档标记注意力明显高于所有数据集的基线。这一观察结果证实，每个标记表示更多地受到其自身文档的连贯上下文的影响，同时忽略了其他文档中潜在的误导性或不相关的信息。

解码器分析

在解码过程中，我们提出跨文档标准差（CDS）指标（参见附录G）来测量每个预测标记对不同文档的标准化交叉注意力权重的标准差。我们在图 3b 中绘制了“BART+HED”模型相对于“BART”模型的相对 CDS。较高的 CDS 表示当前解码步骤仅集中关注少数文档，而较小的 CDS 表示注意力更均匀地分布在不同文档上。在图 3b 中，很明显我们的模型在所有数据集中的 CDS 值明显较小。这表明在解码过程中，我们的模型更均匀地关注各个文档，而不是专注于特定文档，这有助于它生成考虑更多文档的更全面的摘要。

4.5.4内容分析

为了进一步验证我们的方法是否确实产生更显着的摘要，我们对所有数据集生成的摘要进行基于蕴含的内容分析。受到拉班等人的启发。（2022），我们将摘要中的每个句子视为一个信息单元，然后计算平均数每句话包含的源文件 (NED) 数量（参见附录 H）。 NED 越高，摘要就越显着，因为它包含更多文档所包含的信息。如表 4 所示，在大多数数据集上，“BART+HED”具有统计上更高的 NED，这表明我们的方法可能会生成更显着的摘要。一个特例是 Multi-Xscience (M-XSc)，它使用论文的相关工作部分作为目标摘要，并使用引用论文的摘要作为输入文档。经过检查，我们发现“BART+HED”生成的摘要更加抽象和简洁（与第6.2节中其他数据集的人类评估结果一致），导致所用蕴涵模型的得分低于阈值；另一方面，“BART”的一代代被广泛复制，因此很容易被归类为积极的蕴涵。当使用较小的阈值时（附录 H），我们的方法总体上仍然优于“BART”主干，并且两个模型在 Multi-Xscience 数据集上的 NED 差异降低到了微不足道的水平（p > 0.05）。

在这里插入图片描述

4.5.5 消融实验

为了研究我们提出的每个组件的有效性，我们仅使用我们提出的组件的一个子集，即 SOD“” 标记、编码器分层注意力 (HAE)、解码器分层，呈现从 BART 基线的平均性能增益注意（HAD）和位置重新启动（PR）。请注意，HAE 和 HAD 依赖于“”，而 HAD 又依赖于 HAE（第 4 节），因此如果没有其依赖组件，它们就不能一起使用。我们在表 5 中显示了 10 个数据集的平均结果（完整结果参见附录 F）。与基线 BART（第 0 行）相比，只需添加额外的“”标记（第 1 行）即可带来巨大的性能提升。接下来，通过在第 2 行中添加 HAE，我们获得了一些小的改进。第 3 行和第 4 行显示了在第 2 行顶部添加 HAD 或 PR 所带来的收益。有趣的是，单独添加 HAD 或 PR 影响不大，但将它们组合起来会产生显着的收益（第 5 行）。这表明位置重新启动对于 HAD 比 HAE 更重要，因为它有助于 HAD 区分不同的文档，而我们的 HAE 编码器已经将每个源标记的注意力限制在同一文档上，因此受到的影响较小。

五总结

在本文中，我们研究抽象多文档摘要（MDS）任务。我们提出了一种分层编码-解码方案，该方案允许在特定 MDS 任务数据集上对 PLM 进行有效微调，而无需任何新参数。我们提出的方案在编码器和解码器中新颖地使用全局令牌进行文档级交互。它可以利用 PLM 跨多个领域的泛化能力。对 10 个 MDS 数据集的评估结果表明，我们的方法始终优于之前的最佳模型和 PLM 主干。

局限性

理论上，我们的编码-解码方案可以将 MDS 汇总的空间复杂度从 O((Pn=N n=1 nk)2) 降低到 O((M ax(n0, n1, …, nk)2)。前者是所有文档总输入长度的平方，而后者只是最长文档的平方，这是因为由于我们受限的文档内全注意力机制，不再计算大量的自注意力。然而，我们的工作中并没有实现这样的优化，因为实际的实现更加复杂，因此我们的工作也面临着长文档摘要的计算资源的共同挑战，我们将如何提高计算效率的研究留给未来的工作。
由于长文档摘要的计算效率低下，我们专注于较小规模的 MDS 数据集进行 PLM 微调。我们没有对 WikiSum（Liu 等人，2018）、Arxiv 和 PubMed（Cohan 等人，2018）以及 GovReport（Huang 等人，2021）等更大的数据集进行实验，因为它们的规模要大得多并且需要更多的计算资源。尽管如此，我们相信我们的编码-解码方案在广泛的 MDS 领域中表现出了一致的改进趋势。