第一遍
标题以及作者(2021 11.25)
摘要
- 本文基于BERT,在RoBERTa上进行一系列改进,提出了用于中文的预训练模型MacBERT。
- 提出了一种新的掩码策略,MLM as correction
结论
- 本文将MLM任务改为纠错任务,降低了预训练和微调之间的差异。
- 探索一种有效的方法来确定遮蔽比率。
1. 介绍
本文贡献点:
- 本文研发并公布了一系列中文预训练模型,用作比较模型性能。
- 本文提出了一种新的预训练模型MacBERT,通过掩盖词语的近义词任务,降低了预训练和微调之间的差异。
- 本文还研发了一系列小的模型RBT,有利于在现实生活中使用到它们
2. 相关工作
- BERT
- BERT主要的两个训练任务,MLM和NSP
- ERNIE(Enhanced Representation through kNowledge IntEgration)
- 通过优化掩盖过程(实体级别掩盖[命名实体]、短语级别掩盖[类似于N-gram掩盖策略])
- XLNet(为了避免BERT的MLM在训练和微调阶段的不一致问题)
- Permutation Language Model
- 将自编码修改为自回归
- RoBERT(Robustly Optimized BERT Pretraining Approach)
- 使用更大的batch、更长的序列
- 去除NSP任务
- ALBERT(A Lite BERT,主要为了降低BERT内存消耗和训练速度慢的问题)
- 将嵌入层矩阵分解为两个小矩阵
- 跨层参数共享,在不同层中参数共享
- 提出了SOP任务(sentence-order prediction)去替代NSP任务
- ELECTRA(Efficiently Learning an Encoder that Classifiers Token Replacements Accurately)
- 采用生成器-鉴别器的结构,类似于GAN
- 使用一个小的MLM去预测被掩盖住的词,使用一个鉴别器来分辨输入的token是否被生成器替换(Replaced Token Detection,RTD),二分类问题。
- 在微调阶段,舍弃生成器,仅用鉴别器进行微调。
第二遍
3. 中文预训练模型
- BERT-wwm & RoBERTa-wwm
- 中文没法使用子词分割,因此使用词级别的分割和CWS(Chinese Word Segmentation),本文使用LTP工具
- ELECTRA
- RBT Series
- 更小的BERT-like模型,例如:RBT3(3层RoBERTa-base)、RBT4、RBT6、RBTL3(3层RoBERTa-large)
4. MacBERT
-
模型结构
-
MLM as correction
- 本文采用wwm(N-gram)遮蔽策略, 从一个词到4个词对应的掩盖概率为40%-10%;未来还将尝试新的遮蔽策略PMI-masking
- 本文采用词的近义词(通过使用Synonyms工具)进行遮蔽,在极少数情况下,没有近义词时使用随机的词替换。
- 本文对输入15%的词进行遮蔽,对于遮蔽的词80%的概率被替换为近义词、10%的概率被替换为随机词、10%的概率保留为原始词。
-
Sentence Order Prediction(SOP)
- 正样本:由两个连续的文本组成;负样本:通过交换原始文本顺序得到
-
Neural Architecture
-
获取文本上下文表示
X = [ CLS ] A 1 … A n [ SEP ] B 1 … B m [ SEP ] H ( 0 ) = Embedding ( X ) H ( i ) = Transformer ( H ( i − 1 ) ) , i ∈ {
-