读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)

第一遍

标题以及作者(2021 11.25)

在这里插入图片描述

摘要

  1. 本文基于BERT,在RoBERTa上进行一系列改进,提出了用于中文的预训练模型MacBERT。
  2. 提出了一种新的掩码策略,MLM as correction

结论

  1. 本文将MLM任务改为纠错任务,降低了预训练和微调之间的差异。
  2. 探索一种有效的方法来确定遮蔽比率。

1. 介绍

本文贡献点:

  1. 本文研发并公布了一系列中文预训练模型,用作比较模型性能。
  2. 本文提出了一种新的预训练模型MacBERT,通过掩盖词语的近义词任务,降低了预训练和微调之间的差异。
  3. 本文还研发了一系列小的模型RBT,有利于在现实生活中使用到它们

2. 相关工作

  1. BERT
    1. BERT主要的两个训练任务,MLM和NSP
  2. ERNIE(Enhanced Representation through kNowledge IntEgration
    1. 通过优化掩盖过程(实体级别掩盖[命名实体]、短语级别掩盖[类似于N-gram掩盖策略])
  3. XLNet(为了避免BERT的MLM在训练和微调阶段的不一致问题)
    1. Permutation Language Model
    2. 将自编码修改为自回归
  4. RoBERT(Robustly Optimized BERT Pretraining Approach)
    1. 使用更大的batch、更长的序列
    2. 去除NSP任务
  5. ALBERT(A Lite BERT,主要为了降低BERT内存消耗和训练速度慢的问题)
    1. 将嵌入层矩阵分解为两个小矩阵
    2. 跨层参数共享,在不同层中参数共享
    3. 提出了SOP任务(sentence-order prediction)去替代NSP任务
  6. ELECTRA(Efficiently Learning an Encoder that Classifiers Token Replacements Accurately)
    1. 采用生成器-鉴别器的结构,类似于GAN
    2. 使用一个小的MLM去预测被掩盖住的词,使用一个鉴别器来分辨输入的token是否被生成器替换(Replaced Token Detection,RTD),二分类问题。
    3. 在微调阶段,舍弃生成器,仅用鉴别器进行微调。

第二遍

3. 中文预训练模型

  1. BERT-wwm & RoBERTa-wwm
    1. 中文没法使用子词分割,因此使用词级别的分割和CWS(Chinese Word Segmentation),本文使用LTP工具
  2. ELECTRA
  3. RBT Series
    1. 更小的BERT-like模型,例如:RBT3(3层RoBERTa-base)、RBT4、RBT6、RBTL3(3层RoBERTa-large)

4. MacBERT

  1. 模型结构

    在这里插入图片描述

  2. MLM as correction

    1. 本文采用wwm(N-gram)遮蔽策略, 从一个词到4个词对应的掩盖概率为40%-10%;未来还将尝试新的遮蔽策略PMI-masking
    2. 本文采用词的近义词(通过使用Synonyms工具)进行遮蔽,在极少数情况下,没有近义词时使用随机的词替换。
    3. 本文对输入15%的词进行遮蔽,对于遮蔽的词80%的概率被替换为近义词、10%的概率被替换为随机词、10%的概率保留为原始词。
  3. Sentence Order Prediction(SOP)

    1. 正样本:由两个连续的文本组成;负样本:通过交换原始文本顺序得到
  4. Neural Architecture

    1. 获取文本上下文表示
      X = [  CLS  ] A 1 … A n [  SEP  ] B 1 … B m [  SEP  ] H ( 0 ) = Embedding ⁡ ( X ) H ( i ) =  Transformer  ( H ( i − 1 ) ) , i ∈ {

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值