BERT压缩

减少层数

三层BERT:哈工大WWM_RBT3

Whole Word Masking (wwm)是BERT的一个掩码改进版本。原先的掩码是随机将token掩盖(80%替换为[MASK],10%替换别的词,10%不处理),但是一个词根据wordpiece可能拆分成多个token,掩码可能不会将这个词全部隐藏。因此,推出了全掩码,即将命中token的整个单词掩藏,这会强迫模型预测整个词,这更有挑战性。
哈工大WWM正式在此基础上提出对中文的掩码。中文不存在wordpiece的问题,所以google默认操作是根据字进行划分token,哈工大的操作是利用LTP的分词技术,将中文分词,所以掩码随机命中某个字后,会将这个字所属的词掩盖,实现WMM。
具体的实现流程如下:hfl/BERT_wmm
相关论文:MacBERT
(这里提出了一个MacBERT,将掩码改为相似词,同时NSP改为SOP)
BERT_wmm

蒸馏

tinyBERT

DistillBERT

动态压缩

DynaBERT: Dynamic BERT with Adaptive Width and Depth
操作方法:

  1. 宽度自适应
  2. 深度蒸馏
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值