【论文解读】MacBERT: 中文自然语言预训练模型-CSDN博客

本文介绍了MacBERT，这是一种针对中文的预训练语言模型，通过改进BERT的MLM任务，使用全词mask和相似单词替换策略，减轻预训练与微调阶段的差异。实验表明，MacBERT在多项中文NLP任务上取得了显著的性能提升，特别是在机器阅读理解任务上。

摘要由CSDN通过智能技术生成

点击上方“视学算法”，选择加"星标"或“置顶”

重磅干货，第一时间送达

以下文章来自知乎

作者：Johnson7788

地址：https://zhuanlan.zhihu.com/p/333202482

编辑：数据推

作者: Yiming Cui, Wanxiang Che,

源文：Revisiting Pre-trained Models for Chinese Natural Language Processing

代码：https://github.com/ymcui/MacBERT（暂未公布源码）和 https://github.com/ymcui/Chinese-ELECTRA

源文连接：https://arxiv.org/pdf/2004.13922.pdf

简单介绍一些概念:
全词Mask, Whole Word Masking (wwm), 见文中图1 :
原始文本: 使用语言模型来预测下一个词的probability。
全词Mask输入: 使用语言 [MASK] [MASK] 来 [MASK] [MASK] 下一个词的 [MASK] [MASK] [MASK] 。
BERT的随机mask方法如下:
原始Mask输入: 使用语言 [MASK] 型来 [MASK] 测下一个词的 pro [MASK] ##lity 。
MacBERT:
MLM as correction, 使用校正做为Mask的语言模型, 通过用相似的单词mask，减轻了预训练和微调阶段两者之间的差距
测试MacBERT和BERT的结果: 测试了MSRA 中文命名实体识别:
BERT的结果f1 score 是 0.9459358687546606
MacBERT的结果：eval_f1 = 0.9520426287744227

一、简介
二、相关工作
三、中文预训练语言模型
---- 3.1 BERT-wwm和RoBERTa-wwm
四、实验设置
---- 4.1 预训练语言模型的设置
---- 4.2 用于微调任务的设置
五、结果
---- 5.1 机器阅读理解
---- 5.2 单句分类
---- 5.3 句子对分类
六、讨论
---- 6.1 MacBERT的有效性
---- 6.2 关于MLM任务的调查
七、结论

一、简介

双向编码器transformer(BERT)的表示已在各种NLP任务中显示了惊人的改进，并提出了一系列的变体以进一步提高预训练语言模型的性能。在本文中，我们的目标是重新审视中文预训练语言模型，以检验其在非英语语言中的有效性，并向社区发布中文预训练语言模型系列。我们还提出了一个简单但有效的模型，称为MacBERT，该模型在多个方面对RoBERTa进行了改进，尤其是采用MLM作为校正(Mac)的masked策略。我们对8个中文NLP任务进行了广泛的实验，以重新审视现有的预训练语言模型以及提议的MacBERT。实验结果表明，MacBERT可以在许多NLP任务上达到最先进的性能，并且我们还会通过一些发现来简化细节，以帮助将来的研究。

transformer(BERT)的双向编码器表示法(Devlin等人，2019)变得非常流行，并已证明在最近的自然语言处理研究中是有效的，该研究利用了大规模的无标签训练数据，并生成了丰富的上下文表示形式。当我们遍历几种流行的机器阅读理解基准时，例如SQuAD(Rajpurkar等人，2018)，CoQA(Reddy等人，2019)，QuAC(Choi等人，2018)，NaturalQuestions(Kwiatkowski等人，2019) )，RACE(Lai等，2017)，我们可以看到大多数表现最好的模型都是基于BERT及其变体(Dai等，2019; Zhang等，2019; Ran等， 2019)，表明预训练的语言模型已成为自然语言处理领域中的新基本组件。

从BERT开始，社区在优化预训练语言模型方面取得了巨大而快速的进步，例如ERNIE(Sun等人，2019a)，XLNet(Yang等人，2019)，RoBERTa(Liu等人，2019) ，SpanBERT(Joshi等人，2019)，ALBERT(Lan等人，2019)，ELECTRA(Clark等人，2020)等。但是，对基于transformer的(Vaswani等人，2017)预训练语言模型并不像我们以前训练单词嵌入或其他传统神经网络那样简单。通常，要让特征强大的BERT大型模型，并且带有3.3亿个参数的24层transformer收敛，需要高内存的计算设备，例如TPU，这非常昂贵。另一方面，尽管各种预训练的语言模型已经发布，其中大多数是基于英语的，并且很少在其他语言上构建强大的预训练语言模型。

本文旨在建立中文预训练的语言模型系列，并将其发布给公众，以促进研究界的发展，因为中文和英语是世界上使用最多的语言之一。我们将重新审视现有的流行的预训练语言模型，并将其调整为中文，以查看这些模型在英语以外的其他语言中是否能很好地推广。此外，我们还提出了一种称为MacBERT的新的预训练语言模型，该模型将原来的MLM任务替换为MLM作为较正(Mac)任务，并减轻了预训练和微调阶段的差异。在八个流行的中文NLP数据集上进行了广泛的实验，从sentence-level到文档级，例如机器阅读理解，文本分类等。结果表明，与其他训练语言模型相比，提议的MacBERT可以在大多数任务中获得显着收益，以及详细的消融研究以更好地检查改进组件。本文的贡献如下：

•进行了广泛的实证研究，以通过仔细分析重新审视中文预训练语言模型在各种任务上的表现。

•我们提出了一种新的称为MacBERT的预训练语言模型，该模型通过用相似的单词mask，减轻了预训练和微调阶段两者之间的差距，这已被证明对下游任务是有效的。

•为了进一步加快对中文NLP的研究，我们向社区创建并发布了中文预训练语言模型系列。

二、相关工作

在本节中，我们将回顾最近自然语言处理领域中代表性的预训练语言模型的技术。表1列出了这些模型以及提议的MacBERT的整体比较。在以下小节中，我们将详细介绍它们的关键组成部分。

表1：预训练语言模型的比较。(AE：自编码，AR：自回归，T：token，S：Segment，P：位置，W：单词，E：实体，Ph：短语，WWM：全字mask，NM：N-gram mask， NSP：下一个句子预测，SOP：句子顺序预测，MLM：Masked LM，PLM：排列LM，Mac：MLM作为校正)

2.1 BERT

BERT(来自transformer的双向编码器表示)(Devlin等人，2019年)在自然语言处理研究中被证明是成功的。BERT通过所有Transformer层左右上下文共同调节，来预训练深度双向表示。BERT主要包括两个预训练任务：mask语言模型(MLM)和下一句预测(NSP)。

•MLM：从输入中随机masked某些tokens，目的是仅根据其上下文预测原始单词。

•NSP：预测句子B是否为A的下一个句子。

后来，他们进一步提出了一种称为全字mask(wwm)的技术，用于优化MLM任务中的原始mask。在这种设置下，不会随机选择要mask的WordPiece token(Wu等，2016)，而是总是同时mask与全词相对应的所有token。这将明确迫使模型在MLM预训练任务中恢复全词，而不仅仅是恢复WordPiece token(Cui等人，2019a)，这更具挑战性。由于全词masking仅影响预训练过程的masking策略，因此不会给下游任务带来额外的负担。而且，由于训练预训练的语言模型在计算上是昂贵的，因此它们还发布了所有预训练的模型以及源代码，这激发了社区对预训练的语言模型的研究产生极大兴趣。

2.2 ERNIE

ERNIE(通过知识整合增强表示)(Sun等人，2019a)旨在优化BERT的masking过程，其中包括实体级masking和短语级masking。与在输入中选择随机单词不同，实体级mask将mask通常由多个单词组成的命名实体。短语级mask是mask连续的单词，类似于N-gram mask策略(Devlin et al。等人，2019；Joshi等人，2019)。

2.3 XLNet

Yang等人(2019年)认为，现有的基于自编码的预训练语言模型(例如BERT)会遭受预训练和微调阶段的差异，因为masking符号[MASK]永远不会出现在微调阶段。为了缓解这个问题，他们提出了XLNet，它基于Transformer-XL(Dai等人，2019)。XLNet主要通过两种方式进行修改。首先是所有排列上的输入因式分解的最大化期望似然，在此将它们称为排列语言模型(PLM)。其次是将自编码语言模型更改为自回归模型，这与传统的统计语言模型相似。

2.4 RoBERTa

RoBERTa(鲁棒性更好的BERT预训练方法)(Liu等人，2019)采用原始BERT架构，但进行更精确的修改以显示BERT的特征，这一点被低估了。他们对BERT的各个组成部分进行了仔细的比较，包括masking策略，训练步骤等。经过全面评估，他们得出了使BERT更加强大的几个有用结论，主要包括1)训练时间更长，批次更大，序列更长, 数据更多；2)删除下一个句子的预测，并使用动态masking。

2.5 ALBERT

ALBERT(一个Lite BERT)(Lan等人，2019)主要解决了更高的内存消耗和BERT训练速度慢的问题。ALBERT引入了两种参数减少技术。首先是嵌入分解，它将嵌入矩阵分解为两个小的矩阵。其次是跨层参数共享，跨ALBERT的每一层共享transformer权重，这将显着减少参数。此外，他们还提出了句序预测(SOP)任务来代替传统的NSP预训练任务。

2.6 ELECTRA

ELECTRA(有效地学习一种编码器，可以对token替换进行准确分类)(Clark等人，2020年)采用了一种类似于GAN的新生成器－判别器框架(Goodfellow等人，2014年)。生成器通常是一个小的MLM，可以学习预测被mask token的原始单词。判别器被训练以鉴别输入token是否被生成器替换。注意，为了获得有效的训练，判别器只需要预测一个二分类标签来表示“replacement”，这不同于MLM可以预测准确的被masked词的方式。在微调阶段，仅使用判别器。

三、中文预训练语言模型

虽然我们相信以前的工作中的大多数结论在英语条件下都是正确的，但我们想知道这些技术在其他语言中是否还能很好地推广。在本节中，我们将说明现有的预训练语言模型如何适用于中文。此外，我们还提出了一种名为MacBERT的新模型，该模型利用了以前模型的优点以及新设计的组件。请注意，由于这些模型都是源自BERT的，而没有更改输入的性质，因此在微调阶段不需要进行任何修改以适应这些模型，这样非常容易相互替换。

3.1 BERT-wwm和RoBERTa-wwm

在原始BERT中，使用WordPiece tokenizer(Wu等人，2016)将文本拆分为WordPiece token，其中一些单词将拆分为几个小片段。全词mask(wwm)减轻了一部分的缺点，这对于模型更容易预测。在中文状态下，WordPiece token程序不再将单词拆分为小片段，因为汉字不是由类似字母的符号组成的。我们使用传统的中文分词(CWS)工具将文本拆分为多个单词。这样，我们可以采用中文的全词mask来masked单词，而不是单个汉字。为了实现，我们严格遵循原始的全词mask代码，未更改其他组件,例如单词masking的百分比等。我们使用LTP(Che等人，2010)对中文分词，以识别单词边界。
请注意，全词masking仅影响预训练阶段中masking token的选择。BERT的输入仍使用WordPiece tokenizer来分割文本，这与原始BERT相同。

同样，在不采用NSP任务的RoBERTa上，也可以应用全词mask。图1描述了全词mask的样本。

图1：不同masking策略的样本

3.2 MacBERT

在本文中，我们利用以前的模型，并提出了一个简单的修改，该修改导致对微调任务的显着改进，我们将该模型称为MacBERT(MLM用作校正BERT)。MacBERT与BERT共享相同的预训练任务，但有一些修改。对于MLM任务，我们执行以下修改。

•我们使用全词masked以及Ngram masked策略来选择候选token来masked，单词级别的unigram到4-gram的比例为40％，30％，20％，10％。

•我们提议不要使用[MASK]token进行mask，因为在token微调阶段从未出现过[MASK]，我们提议使用类似的单词进行masking。通过使用基于word2vec(Mikolov et al。，2013)相似度计算的同义词工具包(Wang and Hu，2017)获得相似的单词。如果选择一个N-gram进行masked，我们将分别找到相似的单词。在极少数情况下，当没有相似的单词时，我们会降级以使用随机单词替换。

•我们对15％比例的输入单词进行masking，其中80％替换为相似的单词，10％将替换为随机单词，其余10％则保留原始单词。

对于类似NSP的任务，我们执行ALBERT (Lan等人，2019)引入的句子顺序预测(SOP)任务，其中通过切换两个连续句子的原始顺序来创建负样本。我们将在第6.1节中消融这些修改，以更好地证明每个组件的贡献。

四、实验设置

4.1 预训练语言模型的设置

我们下载了Wikipedia dump(截至2019年3月25日)，并根据Devlin等人的提议使用WikiExtractor.py进行了预处理。(2019)，提取了1,307个文件。我们同时使用了简体中文和繁体中文。清除原始文本(例如删除html tagger)并分离文档后，我们获得大约0.4B的单词。由于中文Wikipedia数据相对较小，因此除了中文Wikipedia之外，我们还使用扩展的训练数据来训练这些预训练的语言模型(模型名称为ext)。收集的扩展数据包含百科全书，新闻和问答网站，有5.4B个字，比中文维基百科大十倍。请注意，我们始终对MacBERT使用扩展数据，并省略ext mark。为了识别中文单词的边界，我们使用LTP(Che et al.,2010)进行中文单词分割。我们使用官方创建的预训练data.py将原始输入文本转换为预训练样本。

为了更好地从现有的预训练语言模型中获取知识，我们没有从头开始训练我们的基础级模型，而是从官方的中文BERT基础上继承了其单词表和权重。但是，对于大型模型，我们必须从头开始进行训练，但仍使用基本模型提供的相同单词表。

表2：用于不同微调任务的数据统计和超参数设置。

对于BERT系列的训练，我们采用Devlin等人(2019年)提议的最大长度为128个token的训练方案到512。但是，根据经验，我们发现这将导致对长序列任务(如阅读理解)的适应性不足。在这种情况下，对于RoBERTa和MacBERT，所以我们在整个预训练过程中直接使用最大长度为512，这在Liu等人(2019)中采用了。对于小于1024的批次，我们采用原始的ADAM(Kingma and Ba，2014)和BERT中的权重衰减优化器进行优化，并使用LAMB优化器(You et al。，2019)获得更大的可扩展性。根据模型的大小，可以在单个Google Cloud TPU5 v3-8(相当于一个TPU)或TPU Pod v3-32(等于4个TPU)上进行预训练，我们训练了2M步骤，批次大小为512，初始学习率为1e-4。

训练详细信息如表3所示。为清楚起见，我们未列出“ext”模型，其他参数与未经扩展数据训练的参数相同。

表3：中文预训练语言模型的训练详细信息。

4.2 用于微调任务的设置

为了彻底测试这些经过预训练的语言模型，我们对各种自然语言处理任务进行了广泛的实验，涵盖了从sentence-level别到文档级别的各种文本长度。任务详细信息如表2所示。具体来说，我们选择以下八个流行的中文数据集。

•机器阅读理解(MRC)：CMRC 2018(Cui等，2019b)，DRCD(Shao等，2018)，CJRC(Duan等，2019)。

•单句分类(SSC)：ChnSentiCorp(Tan and Zhang，2008)，THUCNews(Li and Sun，2007)。

•句子对分类(SPC)：XNLI(Conneau et al。，2018)，LCQMC (Liu et al。，2018)，BQ Corpus(Chen et al。，2018)。

为了进行公平的比较，对于每个数据集，我们保留相同的超参数(例如最大长度，预热步骤等)，并且对每个人物任务将初始学习率从1e-5调整为5e-5。请注意，初始学习速率是在原始中文BERT上调整的，可以通过单独调整学习速率来获得另一个收益。为了确保结果的可靠性，我们进行了十次相同的实验。通过选择最佳的平均开发集性能来确定最佳的初始学习率。我们报告最大和平均分数，以评估峰值和平均性能。

对于所有模型，除了ELECTRA，我们为每个任务使用相同的初始学习率设置，如表2所示。对于ELECTRA模型，对于基本级别模型，我们使用通用初始学习率1e-4，对于Clark等人(2020)提议的大型模型使用5e-5。

由于预训练数据在各种现有的中文预训练语言模型之间存在很大差异，例如ERNIE(Sun等人，2019a)，ERNIE 2.0(Sun等人，2019b)，NEZHA(Wei等人，2019) )，我们仅将BERT(Devlin等人，2019)，BERT-wwm，BERT-wwm-ext，RoBERTawwm-ext，RoBERTa-wwm-ext-large，ELECTRA和我们的MacBERT进行比较，以确保在不同类别之间进行相对公平的比较模型，其中所有模型都是由我们自己训练的，除了Devlin等人(2019)的原始中文BERT。我们在TensorFlow框架(Abadi等人，2016)下进行了实验，并对Devlin等人(2019)提供的微调脚本进行了少许修改，以更好地适应中文。

五、结果

5.1 机器阅读理解

机器阅读理解(MRC)是代表性的文档级建模任务，需要根据给定的段落回答问题。我们主要在三个数据集上测试这些模型：CMRC 2018，DRCD和CJRC。

表4：CMRC 2018的结果(简体中文)。括号中显示了10次独立运行的平均得分。总体最佳以黑体字表示(基本级别和大型级别分别标记)。

•CMRC 2018：跨度提取机器阅读理解数据集，类似于SQuAD(Rajpurkar等人，2016)，通过跨度提取给定问题。

•DRCD：这也是跨度提取MRC数据集，但使用繁体中文。

•CJRC：类似于CoQA(Reddy等人，2019年)，它具有是/否问题，无答案问题，和跨度提取问题。数据来自中国法律判决文件。请注意，我们仅使用small-train-data.json进行训练。

表5：DRCD的结果(繁体中文)。

表6：CJRC的结果。

结果显示在表4、5、6中。如BERT-wwm和BERT-wwm-ext之间的比较所示，使用其他预训练数据将导致进一步的改善。这就是为什么我们对RoBERTa，ELECTRA和MacBERT使用扩展数据的原因。此外，提出的MacBERT对所有阅读理解数据集都产生了重大改进。值得一提的是，我们的MacBERT-large可以在CMRC 2018挑战赛上实现60％的最新F1，这需要更深入的文本理解。

另外，应该指出的是，尽管DRCD是传统的中文数据集，但是使用其他大规模简化的中文进行训练也会产生很大的积极效果。由于简体和繁体中文共享许多相同的字符，使用特征强大的预训练语言模型仅包含少量繁体中文数据也可以带来改进，而无需将繁体汉字转换为简体汉字。

关于CJRC，其中的文字以有关中国法律的专业方式撰写，BERTwwm显示了对BERT的适度改进，但没有明显的提高，这表明非通用域上的微调任务需要进一步的域适应。但是，通过增加常规训练数据将带来改善，这表明，如果没有足够的领域数据，我们也可以使用大规模常规数据作为补救措施。

5.2 单句分类

对于单句分类任务，我们选择ChnSentiCorp和THUCNews数据集。我们使用ChnSentiCorp数据集来评估情感分类，其中将文本分为正面或负面标签。THUCNews是一个包含不同类型新闻的数据集，其中文本通常很长。在本文中，我们使用的版本包含10个域(均匀分布)中的5万条新闻(包括体育，财政，技术等)。结果显示，由于这些数据集已经达到很高的水平，因此我们的MacBERT可以对基线准确性进行适度的改进。

表7：单句分类任务的结果：ChnSentiCorp和THUCNews。

5.3 句子对分类

对于句子对分类任务，我们使用XNLI数据(中文部分)，大规模中文问题匹配语料库(LCQMC)和BQ语料库，这需要输入两个序列并预测它们之间的关系。我们可以看到MacBERT的性能优于其他模型，但改进程度适中，平均得分略有提高，但峰值性能不如RoBERTa-wwm-ext-large。我们怀疑这些任务比阅读理解任务，对输入的细微差别不敏感。由于句子对的分类只需要生成整个输入的统一表示即可，因此会产生适度的改进。

表8：句子对分类任务的结果：XNLI，LCQMC和BQ语料库。

六、讨论

虽然我们的模型在各种中文任务上均取得了显着改进，但我们仍想知道改进的重要组成部分来自何处。为此，我们对MacBERT进行了详细的消融以证明其有效性，并且我们还比较了现有的英语预训练语言模型的主张，以查看它们的修改是否仍然适用于另一种语言。

6.1 MacBERT的有效性

我们进行了消融检查MacBERT中每个组件的贡献，并在所有微调任务中对其进行了彻底评估。结果显示在表9中。总体平均得分是通过平均每个任务的测试得分获得的(EM和F1指标在总体平均之前进行平均)。从总体上看，删除MacBERT中的任何组件都将导致平均性能下降，这表明所有修改都有助于总体改进。具体来说，最有效的修改是N-gram masking和相似的单词替换，这是对masking的语言模型任务的修改。当我们比较N-gram masking和相似的单词替换时，我们可以看到明显的优缺点，其中N-gram masking在文本分类任务中似乎更有效，而阅读理解任务的性能似乎从相似的单词中受益更多。通过将这两个任务结合起来，可以互相补偿，并且在两种类型上都有更好的表现。

表9：MacBERT-large在不同的微调任务上的消融。

NSP任务的重要性不如MLM任务重要，这表明设计更好的MLM任务以充分释放文本建模能力更为重要。此外，我们比较了下一个句子预测(Devlin等，2019)和句子顺序预测(Lan等，2019)任务，以更好地判断哪个更强大。结果表明，句子顺序预测任务确实比原始NSP表现出更好的性能，尽管它并不那么突出，SOP任务需要识别两个句子的正确顺序，而不是使用随机句子，这对于机器来说更容易。与文本分类任务相比，删除SOP任务将导致阅读理解任务的明显下降，这表明有必要设计类似于NSP的任务来学习两个segments之间的关系(例如，阅读理解任务中的段落和问题)。

6.2 关于MLM任务的调查

如前一节所述，主要的预训练任务是masking语言模型及其变体。mask语言模型任务依赖于两个方面：1)选择要mask的token，以及2)替换所选token。在上一节中，我们演示了选择mask token的有效性，例如全词mask或N-gram mask等。现在，我们将研究替换所选token将如何影响预训练的语言模型。为了调查此问题，我们绘制了不同预训练步骤的CMRC 2018和DRCD性能。具体来说，我们遵循输入序列原始15％的mask比例，其中10％的mask token保持不变。根据剩余的90％mask token，我们分为四类。

•MacBERT：将80％token替换为它们的相似词，并将10％token替换为随机词。

•随机替换：将90％token替换为随机词。

•部分 mask：原始的BERT实现，其中80％的token替换为[MASK] token，而10％的token替换为随机单词。

•所有mask：90％的token替换为[MASK] token。

我们只标出了从1M到2M的步长，以显示比最初的1M步长更稳定的结果。结果如图2所示。预训练模型主要使用[MASK]进行masking(即部分mask和全部mask)，从而导致性能较差，这表明预训练与微调是一个影响整体性能的实际问题。其中，我们还注意到，如果我们不保留10％的原始token(即身份投影)，也会出现持续下降，这表明使用[MASK] token不那么健壮，并且容易受到缺少用于负样本训练的身份预测的影响。

图2：在CMRC 2018和DRCD上不同的MLM任务的结果。

令我们惊讶的是，一个快速修复方法是完全放弃[MASK]token，并将所有90％的已mask token替换为随机字，与使用[MASK]相关的mask策略相比，产生了一致的改进。这也强化了这样的主张，即依赖[MASK] token的原始mask方法(不会出现在微调任务中)会导致差异和更差的性能。为了解决这一问题，在本文中，我们提议使用相似的单词作为masked目的，而不是从单词表表中随机选择一个单词，因为随机单词不会在上下文中适应并且可能破坏语言模型学习的自然性，因为传统的N-gram语言模型是基于自然句子而不是受操纵的有影响力的句子。但是，如果我们使用相似的单词进行masked，则句子的流畅性要比使用随机单词好得多，并且整个任务会转换为语法校正任务，这更加自然，而且不会在预训练和微调阶段出现差异。从图表中可以看出，MacBERT在这四个变体中表现出最佳的性能，这证明了我们的假设。

七、结论

在本文中，我们将重新审视中文的预训练语言模型，以查看这些最新模型中的技术是否能很好地在除英语以外的其他语言中广泛推广。我们创建了一系列中文预训练语言模型，并提出了一种名为MacBERT的新模型，该模型将masked语言模型(MLM)任务作为一种语言校正方式进行了修改，并减轻了预训练和微调阶段的差异。我们对各种中文NLP数据集进行了研究，结果表明，提议的MacBERT可以在大多数任务中获得显着收益，详细的消融研究表明，应该更多地关注MLM任务，而不是NSP任务及其变体，因为我们发现类似NSP的任务并没有显示出彼此的压倒性的优势。随着中文预训练语言模型系列的发布，我们希望它将进一步加速中文研究社区中的自然语言处理。

将来，我们希望研究一种代替启发式的有效的方法来确定masked比例,进一步提高预训练语言模型的性能。