DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter（2019-10-2）

不负韶华ღ

已于 2022-10-17 20:49:24 修改

阅读量327

点赞数

分类专栏：深度学习（NLP）文章标签： bert 深度学习机器学习

于 2022-10-08 18:02:41 首次发布

本文链接：https://blog.csdn.net/weixin_49346755/article/details/127210402

版权

深度学习（NLP）专栏收录该内容

44 篇文章

订阅专栏

模型介绍

NLP预训练模型随着近几年的发展，参数量越来越大，受限于算力，在实际落地上线带来了困难，针对最近最为流行的BERT预训练模型，提出了DistilBERT，在保留97%的性能的前提下，模型大小下降40%，inference运算速度快了60%。

为了利用大模型在预训练过程中学习到的归纳偏差，引入了结合语言建模、蒸馏和余弦距离损失的三重损失。

模型改进

Knowledge Distilling(知识蒸馏)

一种压缩模型的技术。用一个小模型（Student）去学习大模型（Teacher）的输出。

在监督学习中，一个分类模型通常是最大化正确标签的概率来进行训练的。因此，一个标准的训练目标包括最小化模型的预测分布和训练标签的one-hot经验分布之间的交叉熵。一个模型如果表现的好，那么在正确的类别上就会有很高的概率，在其他的类别上就会有近似于0的概率。但是其中一些近似于0的类别要比其他的大，而且也会反映出模型的概括能力和在测试集上的表现。

在训练学生（Student）来模拟老师（Teacher）的输出分布时，使用的是soft target（hard label指one-hot 编码这种输出，每个输出只属于一个类；soft label输出是每个类的概率）的交叉熵（cross entropy）损失函数 $L_{ce}=\sum_it_i*log(s_i)$ ， $t_i$ 为Teacher的logits， $s_i$ 为Student的logits。并且softmax函数被替换成softmax-temperature函数 $p_i=\frac {exp (z_i / T)} {\sum{_j exp (z_j/T)}}$ 。T控制着输出分布的平滑度，当T变大，类别之间的差距变小；当T变小，类别直接的差距变大。 $z_i$ 为模型在类别i的score。

在这里插入图片描述
在训练过程中Student和Teacher使用相同的T（T>1），在推断的时候，设置T为1，恢复标准的softmax。

在分类任务上使用了损失函数 $L_{ce}$ 和监督训练损失函数（supervised trainning loss）的线性组合。本文中的监督学习任务是masked language modeling loss $L_{mlm}$ 。然后在这个基础上加入了cosine embedding loss $L_{cos}$ ，也就是student和teacher隐藏状态向量的cos计算。