蒸馏法第二节——蒸馏法&分类任务

最新推荐文章于 2024-05-16 11:38:49 发布

Eva_Hua

最新推荐文章于 2024-05-16 11:38:49 发布

阅读量745

点赞数

分类专栏： Deep Learning Image Processing

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/whatwho_518/article/details/95582472

版权

Deep Learning 同时被 2 个专栏收录

19 篇文章 4 订阅

订阅专栏

Image Processing

12 篇文章 1 订阅

订阅专栏

【1】A. Romero, N. Ballas, S. E. Kahou, A. Chassang, C. Gatta,and Y. Bengio. Fitnets: Hints for thin deep nets. arXiv preprint arXiv:1412.6550, 2014 ——分类任务

创新点：不仅仅考虑了教师模型的输出层，还同时考虑神经网络的中间隐层，并且在中间层中加入了一个回归层用来匹配教师网络和学生网络的输出维度不一致的情形——>只用到了若干个隐层的结果

第一步预训练：取学生网络从开始到中间的若干层权重去拟合教师网络若干层。

具体流程如上图，公式如下。fitnet是一个学生网络，希望的是输入x过教师网络的权重Whint和输入过fitnet网络随机初始化权重Wguided之后再过Wr的误差最小化。通过该操作学习到了教师网络的中间层。红色框去学习绿色框中参数。

第二步：在上面公式训练的基础上，训练整个fitnet网络的参数来最小化下面的目标函数，灰色框去学习灰色框。

【2】J. Yim, D. Joo, J. Bae, and J. Kim. A gift from knowledge distillation: Fast optimization, network minimization and transfer learning. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), volume 2, 2017. ——分类任务

创新点：考虑神经网络的多个隐层

step1：对教师网络使用数据进行训练。该数据可以和未来学生网络学习的数据相同或者不同。

第一步最小化学生网络和教师网，通过最小化FSP矩阵构造的损失函数。

第二步该学生网络使用正常有标签的损失函数进行继续训练。

网络整体架构如下所示：

第一步预训练：

学习学生网络和教师网络的FSP矩阵权重，下图中两个F分别表示网络中选择的两层Feature Map

网络的FSP损失构造如下：其中两个G分别为教师和学生网络，通过优化下面的目标函数得到网络更新的权重w

第二步：使用第一步得到的权重作为预训练模型权重，在原始的任务目标上继续微调训练。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
蒸馏法第二节——蒸馏法&分类任务

【1】A. Romero, N. Ballas, S. E. Kahou, A. Chassang, C. Gatta,and Y. Bengio. Fitnets: Hints for thin deep nets. arXiv preprint arXiv:1412.6550, 2014 ——分类任务创新点：不仅仅考虑了教师模型的输出层，还同时考虑神经网络的中间隐层，并且在中间层中加入了一...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Eva_Hua 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。