论文:MPNet: Masked and Permuted Pre-training for Language Understanding翻译笔记(MPNet: 遮盖和排列预训练用于语言理解)


在这里插入图片描述

论文标题:MPNet: 遮盖和排列预训练用于语言理解

论文链接:https://arxiv.org/abs/2004.09297
arXiv:2004.09297v2 [cs.CL] 2 Nov 2020

摘要

BERT采用了遮盖语言模型(MLM)进行预训练,是迄今为止最成功的预训练模型之一。由于BERT忽略了预测标记之间的依赖关系,XLNet引入了排列语言模型(PLM)进行预训练以解决此问题。然而,XLNet并没有充分利用句子的完整位置信息,因此在预训练和微调之间存在位置差异。在这篇论文中,我们提出了一种新的预训练方法MPNet,它继承了BERT和XLNet的优点,并避免了它们的局限性。MPNet通过利用预测标记之间的依赖关系来提高模型性能,方法是使用 permuted language modeling(与BERT中的MLM不同),并输入辅助位置信息以便让模型看到整个句子,从而减少位置差异(与XLNet中的PLM不同)。我们在大规模数据集(超过160GB的文本语料库)上预训练MPNet,并在各种下游任务(如GLUE、SQuAD等)上进行微调。实验结果显示,MPNet在很大程度上超过了MLM和PLM,并且在这些任务上比以前的最先进的预训练方法(例如BERT、XLNet、RoBERTa)取得了更好的结果,所有这些都在相同的模型设置下进行。代码和预训练模型可以在以下网址找到:https://github.com/microsoft/MPNet

1 介绍

预训练语言模型[1-8]在近年来极大地提高了NLP任务的准确性。其中最成功的模型之一是BERT[2],它主要采用遮盖语言建模(MLM)进行预训练。MLM有效地利用了被遮盖的标记的双向上下文信息,但忽略了这些被遮盖(即将被预测)标记之间的依赖关系[5]。

为了改进BERT,XLNet[5]引入了排列语言建模(PLM)进行预训练,以捕捉预测标记之间的依赖关系。然而,PLM有其自身的限制:在自回归预训练过程中,每个标记只能看到其前面的标记,但不知道整个句子(例如,乱序句子中未来标记的位置信息)中的位置信息,这导致了预训练和微调之间的差异。请注意,在预测一个被遮盖的标记时,BERT可以获取句子中所有标记的位置信息。

在这篇论文中,我们发现MLM(Masked Language Model)和PLM(Permutation Language Model)可以在一个统一的观点下,即将序列中的标记分为非预测部分和预测部分。在这个统一观点下,我们提出了一种新的预训练方法——掩码和排列语言建模(简称MPNet),它解决了MLM和PLM中的问题,同时继承了它们的优点:1) 通过使用乱序语言建模,它考虑了预测标记之间的依赖关系,从而避免了BERT的问题;2) 它将所有标记的位置信息作为输入,使模型能够看到所有标记的位置信息,从而减轻了XLNet的位置差异。

我们按照[5, 7]中的做法,在大规模文本语料库(超过160GB的数据)上对MPNet进行预训练,并在各种下游基准任务上进行微调,包括GLUE、SQuAD、RACE和IMDB。实验结果显示,MPNet在预测性能上大大超过了MLM和PLM,这表明1)建模预测标记之间的依赖关系的有效性(MPNet与MLM的对比),以及2)完整句子位置信息的重要性(MPNet与PLM的对比)。此外,MPNet在相同模型设置下比以往知名的BERT、XLNet和RoBERTa模型在GLUE开发集上分别提高了4.8、3.4和1.5个点,表明MPNet在语言理解方面具有巨大的潜力。

2 MPNet

2.1 背景

预训练方法的关键[1, 2, 4, 5, 10]是为模型训练设计自监督任务/目标,以利用大量的语言语料库进行语言理解和生成。对于语言理解,BERT[2]中的掩码语言建模(MLM)和XLNet[5]中的乱序语言建模(PLM)是两个代表性的目标。在本节中,我们将简要回顾MLM和PLM,并讨论它们的优点和缺点。

BERT中的多级联销售 BERT[2]是自然语言理解中最成功的预训练模型之一。它采用Transformer[11]作为特征提取器,并引入了遮盖语言模型(MLM)和下一句预测作为训练目标,以学习双向表示。具体来说,对于给定的句子x=(x1,x2,…,xn),MLM随机遮盖15%的标记,并将它们替换为一个特殊符号[M]。将K表示为遮盖位置的集合,xK表示为被遮盖的代币集合,x\K表示为遮盖后的句子。如图1(a)左侧所示的例子,K = {2, 4},xK= {x2, x4},x\K = (x1, [M], x3, [M], x5)。MLM通过最大化以下目标函数对模型θ进行预训练:
在这里插入图片描述
XLNet中的PLM(永久语言模型)被提出,以保留自回归建模的优势,同时允许模型捕捉双向上下文。对于给定长度为n的句子x=(x1,x2,…,xn),有n!种可能的排列方式。记Zn为集合{1,2,…,n}的n的排列。对于一个排列z属于Zn,记zt为z中的第t个元素,z<t为z中的前t-1个元素。如图1(b)右侧的示例所示,z=(1,3,5,2,4),如果t=4,那么zt=2,xzt=x2,zt={1,3,5}。PLM通过最大化以下目标函数来预训练模型θ:
在这里插入图片描述
在这个描述中,c代表没有预测到的标记数量,xz≤c。在实际应用中,我们只选择一部分最后的标记xz>c(通常是c=85%乘以n)来进行预测,而剩下的标记则作为条件来降低优化的难度[5]。

MLM和PLM的优缺点 我们从两个角度比较MLM和PLM:预测(输出)令牌的依赖性和预训练与微调之间输入句子的一致性。

  • 输出依赖性:如方程1所示,MLM假设被遮盖的标记彼此独立,并分别预测它们,这不足以模拟自然语言中的复杂上下文依赖关系[5]。相比之下,PLM以任意顺序使用乘法规则对预测标记进行因式分解,如方程2所示,它避免了MLM中的独立性假设,并能更好地模拟预测标记之间的依赖关系。
  • 输入一致性:在下游任务的微调过程中,模型可以看到整个输入句子。为了保证预训练和微调之间的一致性,模型应该在预训练期间尽可能多地获取到整个句子的信息。在MLM中,尽管一些代币被遮盖,但它们的位置信息(即位置
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值