知识蒸馏基础

An_37

已于 2022-07-23 13:29:52 修改

阅读量246

点赞数

文章标签：机器学习人工智能算法

于 2022-07-23 13:28:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43932784/article/details/125946670

版权

知识蒸馏 - 模型压缩方法之一（伪压缩、广义压缩）

知识蒸馏模型图

模型包括两部分
Net_T (Teacher Model) ：复杂而强大，完整地学习Ground Truth。不进行部署上线

Ground Truth 指的是训练集对监督学习技术的分类的准确性。可以把它理解为真值、真实的有效值或者是标准的答案。标注值

Net_S (Student Model) : 简单而弱小，同时学习Net_T的logit和Ground Truth。是最终应用模型

logit：是模型输出的对于各个类别的概率预测值

损失函数

$\alpha L_{soft} + \beta L_{hard} \\$

$\alpha$ 和 $\beta$ 是超参数
$\left\{ \begin{aligned} L_{soft} &=& -\sum_j^N {p_j^T log(q_j^T)} \\ L_{hard} &=& -\sum_j^N {c_j log(q_j^1)} \end{aligned} \right.$

softmax-T
$q_i^T = \frac {exp(z_i/T)}{\sum_j^N{exp(z_j/T)}}$

这里的T就是Temperature，是一个在softmax操作之前需要统一除以的小参数。有如下属性：

如果 T=1,则就是softmax，根据logit输出各个类别的概率
如果T接近于0，则概率最大值接近于1，其他值接近于0，近似于onehot编码
T越大，输出的结果的分布就越平缓，相当于平滑的作用。起到保留相思信息的作用。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
知识蒸馏基础

知识蒸馏
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

An_37 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。