论文：MPNet: Masked and Permuted Pre-training for Language Understanding翻译笔记（MPNet: 遮盖和排列预训练用于语言理解）-CSDN博客

本文链接：https://blog.csdn.net/weixin_56242678/article/details/137060244

在这里插入图片描述

论文标题：MPNet: 遮盖和排列预训练用于语言理解

论文链接：https://arxiv.org/abs/2004.09297
arXiv:2004.09297v2 [cs.CL] 2 Nov 2020

摘要

BERT采用了遮盖语言模型（MLM）进行预训练，是迄今为止最成功的预训练模型之一。由于BERT忽略了预测标记之间的依赖关系，XLNet引入了排列语言模型（PLM）进行预训练以解决此问题。然而，XLNet并没有充分利用句子的完整位置信息，因此在预训练和微调之间存在位置差异。在这篇论文中，我们提出了一种新的预训练方法MPNet，它继承了BERT和XLNet的优点，并避免了它们的局限性。MPNet通过利用预测标记之间的依赖关系来提高模型性能，方法是使用 permuted language modeling（与BERT中的MLM不同），并输入辅助位置信息以便让模型看到整个句子，从而减少位置差异（与XLNet中的PLM不同）。我们在大规模数据集（超过160GB的文本语料库）上预训练MPNet，并在各种下游任务（如GLUE、SQuAD等）上进行微调。实验结果显示，MPNet在很大程度上超过了MLM和PLM，并且在这些任务上比以前的最先进的预训练方法（例如BERT、XLNet、RoBERTa）取得了更好的结果，所有这些都在相同的模型设置下进行。代码和预训练模型可以在以下网址找到：https://github.com/microsoft/MPNet。

1 介绍

预训练语言模型[1-8]在近年来极大地提高了NLP任务的准确性。其中最成功的模型之一是BERT[2]，它主要采用遮盖语言建模（MLM）进行预训练。MLM有效地利用了被遮盖的标记的双向上下文信息，但忽略了这些被遮盖（即将被预测）标记之间的依赖关系[5]。

为了改进BERT，XLNet[5]引入了排列语言建模（PLM）进行预训练，以捕捉预测标记之间的依赖关系。然而，PLM有其自身的限制：在自回归预训练过程中，每个标记只能看到其前面的标记，但不知道整个句子（例如，乱序句子中未来标记的位置信息）中的位置信息，这导致了预训练和微调之间的差异。请注意，在预测一个被遮盖的标记时，BERT可以获取句子中所有标记的位置信息。

在这篇论文中，我们发现MLM（Masked Language Model）和PLM（Permutation Language Model）可以在一个统一的观点下，即将序列中的标记分为非预测部分和预测部分。在这个统一观点下，我们提出了一种新的预训练方法——掩码和排列语言建模（简称MPNet），它解决了MLM和PLM中的问题，同时继承了它们的优点：1) 通过使用乱序语言建模，它考虑了预测标记之间的依赖关系，从而避免了BERT的问题；2) 它将所有标记的位置信息作为输入，使模型能够看到所有标记的位置信息，从而减轻了XLNet的位置差异。

我们按照[5, 7]中的做法，在大规模文本语料库（超过160GB的数据）上对MPNet进行预训练，并在各种下游基准任务上进行微调，包括GLUE、SQuAD、RACE和IMDB。实验结果显示，MPNet在预测性能上大大超过了MLM和PLM，这表明1）建模预测标记之间的依赖关系的有效性（MPNet与MLM的对比），以及2）完整句子位置信息的重要性（MPNet与PLM的对比）。此外，MPNet在相同模型设置下比以往知名的BERT、XLNet和RoBERTa模型在GLUE开发集上分别提高了4.8、3.4和1.5个点，表明MPNet在语言理解方面具有巨大的潜力。

2 MPNet

2.1 背景

预训练方法的关键[1, 2, 4, 5, 10]是为模型训练设计自监督任务/目标，以利用大量的语言语料库进行语言理解和生成。对于语言理解，BERT[2]中的掩码语言建模（MLM）和XLNet[5]中的乱序语言建模（PLM）是两个代表性的目标。在本节中，我们将简要回顾MLM和PLM，并讨论它们的优点和缺点。

BERT中的多级联销售 BERT[2]是自然语言理解中最成功的预训练模型之一。它采用Transformer[11]作为特征提取器，并引入了遮盖语言模型（MLM）和下一句预测作为训练目标，以学习双向表示。具体来说，对于给定的句子x=(x₁,x₂,…,x_n)，MLM随机遮盖15%的标记，并将它们替换为一个特殊符号[M]。将K表示为遮盖位置的集合，x_K表示为被遮盖的代币集合，x\K表示为遮盖后的句子。如图1(a)左侧所示的例子，K = {2, 4}，x_K= {x₂, x₄}，x\K = (x₁, [M], x₃, [M], x₅)。MLM通过最大化以下目标函数对模型θ进行预训练：
在这里插入图片描述
XLNet中的PLM（永久语言模型）被提出，以保留自回归建模的优势，同时允许模型捕捉双向上下文。对于给定长度为n的句子x=(x₁,x₂,…,x_n)，有n!种可能的排列方式。记Z_n为集合{1,2,…,n}的n的排列。对于一个排列z属于Z_n，记z_t为z中的第t个元素，z<t为z中的前t-1个元素。如图1(b)右侧的示例所示，z=(1,3,5,2,4)，如果t=4，那么z_t=2，x_zt=x₂，z_t={1,3,5}。PLM通过最大化以下目标函数来预训练模型θ：
在这里插入图片描述
在这个描述中，c代表没有预测到的标记数量，x_z≤c。在实际应用中，我们只选择一部分最后的标记x_z＞c（通常是c=85%乘以n）来进行预测，而剩下的标记则作为条件来降低优化的难度[5]。

MLM和PLM的优缺点 我们从两个角度比较MLM和PLM：预测（输出）令牌的依赖性和预训练与微调之间输入句子的一致性。

输出依赖性：如方程1所示，MLM假设被遮盖的标记彼此独立，并分别预测它们，这不足以模拟自然语言中的复杂上下文依赖关系[5]。相比之下，PLM以任意顺序使用乘法规则对预测标记进行因式分解，如方程2所示，它避免了MLM中的独立性假设，并能更好地模拟预测标记之间的依赖关系。
输入一致性：在下游任务的微调过程中，模型可以看到整个输入句子。为了保证预训练和微调之间的一致性，模型应该在预训练期间尽可能多地获取到整个句子的信息。在MLM中，尽管一些代币被遮盖，但它们的位置信息（即位置