《PERT: Pre-Training Bert With Pemuted Language Model》论文笔记

最新推荐文章于 2022-09-27 22:45:34 发布

凯子要面包

最新推荐文章于 2022-09-27 22:45:34 发布

阅读量766

点赞数 1

分类专栏： NLP 文章标签： NLP

本文链接：https://blog.csdn.net/weixin_44815943/article/details/124103864

版权

NLP 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

简介

作者提出，预训练模型大致可以分为两大类，自编码（AutoEncoder）与自回归（AutoRegressive），自编码的典型代表是BERT，自回归的典型代表是GPT。Bert预训练阶段采用 MLM + NSP 预训练任务，在NLU中取得了非常好的成绩。为了提升预训练模型的能力，作者试图探索不同的预训练方法，即提出本文的“乱序语言模型”（Permuted Language Model）。

实际上还有一大类预训练模型，这类模型试图结合“自编码 + 自回归”两者的优势，代表有XLNet， UniLMs， UniLMv2， Bart 等。

乱序语言模型的目标是试图预测“乱序部分的在原始序列中的位置”，这样设计的动机在于，人类阅读序列字符串时，部分乱序不影响对整体语义的理解。这里的乱序语言模型与XLNet中提出的 Permutation Language Model 思想很相似，但实现上有所差异，本文中的乱序语言模型，乱序的目标是部分选中的序列片段，而不是XLNet中的整个序列；其次预测目标也不同，本文中预测是的乱序片段的原始序列位置，而XLNet预测的是token_id。
在这里插入图片描述
直观上来看，如果模型能够正确预测乱序片段在原始序列中的位置，说明模型对字词有较正确的理解，因此是能学习到有意义的“词向量表征”地，并且这种预训练任务应该是有助于带边界属性的任务上，比如 MRC， NER。但可能不利于分类任务，因为分类任务注重对整体语义的理解，而乱序语言模型更注重序列之间的短期依赖关系。后面论文实验也证实了这种想法。

PERT

Pert 的模型结构与 Bert 完全一样，区别在于预训练阶段的输入，与预训练阶段的预测目标。Pert 的输入是乱序的序列，并且不包含 [MASK]；另外 pert 预测乱序片段在原始序列中的位置。结构如下：
在这里插入图片描述

Permuted Language Model

与MLM类似，首先选取15%的tokens作为目标，在“Whole Word Mask” 与 “N-gram Mask” 的策略下，这15%的token由1-gram 至 4-gram 组成。第二步，对选取得目标集合，90%的情况下，随机打乱其原始顺序， 10%的情况下保持不变。目标就是预测出乱序部分的原始序列位置。虽然没有引入[MASK]标记，但依然存在“预训练与Fine-Tune阶段上输入语序的不一致”。

部分实验结果

在这里插入图片描述

global是指Pert预测的输出结果时token_id，而不是原始序列中的位置，实验结果表明“输出token_id”在PLM中的效果不及位置预测。

在这里插入图片描述
partial prediction 与 full prediction 分别是指，模型仅对“MASK”的位置、对输入序列的所有位置进行位置预测，结果表明，与ELECTRA中的 RTD任务不同，在PLM中，部分预测效果更佳。

凯子要面包

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
《PERT: Pre-Training Bert With Pemuted Language Model》论文笔记

简介作者提出，预训练模型大致可以分为两大类，自编码（AutoEncoder）与自回归（AutoRegressive），自编码的典型代表是BERT，自回归的典型代表是GPT。Bert预训练阶段采用 MLM + NSP 预训练任务，在NLU中取得了非常好的成绩。为了提升预训练模型的能力，作者试图探索不同的预训练方法，即提出本文的“乱序语言模型”（Permuted Language Model）。实际上还有一大类预训练模型，这类模型试图结合“自编码 + 自回归”两者的优势，代表有XLNet， UniLMs
复制链接

扫一扫

专栏目录