减少层数
三层BERT:哈工大WWM_RBT3
Whole Word Masking (wwm)是BERT的一个掩码改进版本。原先的掩码是随机将token掩盖(80%替换为[MASK],10%替换别的词,10%不处理),但是一个词根据wordpiece可能拆分成多个token,掩码可能不会将这个词全部隐藏。因此,推出了全掩码,即将命中token的整个单词掩藏,这会强迫模型预测整个词,这更有挑战性。
哈工大WWM正式在此基础上提出对中文的掩码。中文不存在wordpiece的问题,所以google默认操作是根据字进行划分token,哈工大的操作是利用LTP的分词技术,将中文分词,所以掩码随机命中某个字后,会将这个字所属的词掩盖,实现WMM。
具体的实现流程如下:hfl/BERT_wmm
相关论文:MacBERT
(这里提出了一个MacBERT,将掩码改为相似词,同时NSP改为SOP)
BERT_wmm
蒸馏
tinyBERT
DistillBERT
动态压缩
DynaBERT: Dynamic BERT with Adaptive Width and Depth
操作方法:
- 宽度自适应
- 深度蒸馏