《PERT: Pre-Training Bert With Pemuted Language Model》论文笔记

简介

作者提出,预训练模型大致可以分为两大类,自编码(AutoEncoder) 与自回归(AutoRegressive),自编码的典型代表是BERT, 自回归的典型代表是GPT。Bert预训练阶段采用 MLM + NSP 预训练任务,在NLU中取得了非常好的成绩。为了提升预训练模型的能力,作者试图探索不同的预训练方法,即提出本文的“乱序语言模型”(Permuted Language Model)。

实际上还有一大类预训练模型,这类模型试图结合“自编码 + 自回归”两者的优势,代表有XLNet, UniLMs, UniLMv2, Bart 等。

乱序语言模型的目标是试图预测“乱序部分的在原始序列中的位置”,这样设计的动机在于,人类阅读序列字符串时,部分乱序不影响对整体语义的理解。这里的乱序语言模型与XLNet中提出的 Permutation Language Model 思想很相似, 但实现上有所差异,本文中的乱序语言模型,乱序的目标是部分选中的序列片段,而不是XLNet中的整个序列;其次预测目标也不同, 本文中预测是的乱序片段的原始序列位置,而XLNet预测的是token_id。
在这里插入图片描述
直观上来看,如果模型能够正确预测乱序片段在原始序列中的位置,说明模型对字词有较正确的理解,因此是能学习到有意义的“词向量表征”地,并且这种预训练任务应该是有助于带边界属性的任务上,比如 MRC, NER。但可能不利于分类任务,因为分类任务注重对整体语义的理解,而乱序语言模型更注重序列之间的短期依赖关系。后面论文实验也证实了这种想法。
 

PERT

Pert 的模型结构与 Bert 完全一样,区别在于预训练阶段的输入, 与预训练阶段的预测目标。Pert 的输入是乱序的序列,并且不包含 [MASK];另外 pert 预测乱序片段在原始序列中的位置。结构如下:
在这里插入图片描述

Permuted Language Model

与MLM类似,首先选取15%的tokens作为目标,在“Whole Word Mask” 与 “N-gram Mask” 的策略下, 这15%的token由1-gram 至 4-gram 组成。第二步,对选取得目标集合,90%的情况下,随机打乱其原始顺序, 10%的情况下保持不变。目标就是预测出乱序部分的原始序列位置。虽然没有引入[MASK]标记, 但依然存在“预训练与Fine-Tune阶段上输入语序的不一致”。
 

部分实验结果

在这里插入图片描述
在这里插入图片描述
global是指Pert预测的输出结果时token_id,而不是原始序列中的位置,实验结果表明“输出token_id”在PLM中的效果不及位置预测。

在这里插入图片描述
partial prediction 与 full prediction 分别是指,模型仅对“MASK”的位置、对输入序列的所有位置进行位置预测,结果表明,与ELECTRA中的 RTD任务不同,在PLM中,部分预测效果更佳。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值