【文献阅读】Pre-Training With Whole Word Masking for Chinese BERT

Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for chinese bert[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3504-3514.Abstract在本文中,我们旨在首先介绍中文 BERT 的全词掩蔽(wwm)策略,以及一系列中文预训练语言模型。然后我们还提出了一个简单但有效的模型,称为 MacB
摘要由CSDN通过智能技术生成

Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for chinese bert[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3504-3514.

Abstract

在本文中,我们旨在首先介绍中文 BERT 的全词掩蔽(wwm)策略,以及一系列中文预训练语言模型。然后我们还提出了一个简单但有效的模型,称为 MacBERT,它在几个方面对 RoBERTa 进行了改进。

特别是,我们提出了一种新的掩蔽策略,称为 MLM(masked language model) as correction (Mac)。

Introduction

MacBERT 主要旨在减轻原始 BERT 中预训练和微调阶段的差异。

主要贡献:

  1. 我们创建了中文预训练语言模型系列并将其发布到我们的社区
  2. 我们提出了一种新的预训练语言模型,称为 MacBERT,它通过用相似词掩盖词来缩小预训练和微调阶段之间的差距,这已被证明在各种下游任务中是有效的。
  3. 我们还创建了一系列称为 RBT 的小型模型,以展示小型模型与常规预训练语言模型相比的性能,这有助于在实际应用中使用它们。

Related Work

Bert

BERT 主要由两个预训练任务组成:掩蔽语言模型 (MLM) 和下一句预测 (NSP)。

  • MLM:从输入中随机屏蔽一些标记,目标是仅根据其上下文预测原始单词。
  • NSP:预测句子 B 是否是句子 A 的下一个句子。

进一步提出了一种称为全词掩码(wwm)的技术,在这个设置中,我们不是随机选择 WordPiece [18] (单词中的几个字母)标记来屏蔽,而是一次屏蔽与整个单词对应的所有标记。 这明确地强制模型在 MLM 预训练任务中恢复整个单词,而不是仅仅恢复 WordPiece 标记 [1],这更具挑战性

ERNIE

优化 BERT 的屏蔽过程,包括实体级屏蔽和短语级屏蔽。

XLNet

现有的基于自编码的预训练语言模型,如BERT,由于掩蔽令牌[MASK]从未在微调阶段出现,因此存在预训练阶段和微调阶段的差异。

为了缓解这一问题,提出了基于Transformer-XL[8]的XLNet,主要有两种修改:

  1. 第一个是最大化输入分解顺序的所有排列的预期似然性,他们称之为排列语言模型。 为了实现这一目标,他们提出了一种新颖的双流自注意力机制。
  2. 另一种是将自编码语言模型改为自回归模型,类似于传统的统计语言模型。

RoBERTa

他们得出了几个有用的结论,使 BERT 更强大,主要包括

  1. 训练时间更长,批量更大 和更多数据的更长序列;
  2. 去除下一句预测任务并在传销任务中使用动态掩码。

ALBERT

主要解决了 BERT 内存消耗高、训练速度慢的问题。 ALBERT 介绍了两种参数缩减技术。

  1. 第一个是分解嵌入参数化,它将嵌入矩阵分解为两个小矩阵。
  2. 第二个是跨层参数共享,Transformer 权重在 ALBERT 的每一层之间共享,显着降低了整体参数。
  3. 此外,他们还提出了句子顺序预测 (SOP) 任务来取代传统的 NSP 预训练任务并产生更好的性能。

ELECTRA

采用了一种类似于生成对抗网络(GAN)[20] 的新生成器鉴别器框架。

  1. 生成器通常是一个小型 MLM,它学习预测掩码标记的原始单词。
  2. 鉴别器被训练来区分输入标记是否被生成器替换&#
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值