知识蒸馏与应用

十有久诚

已于 2024-01-18 17:59:38 修改

阅读量385

点赞数 15

分类专栏：深度学习文章标签：知识蒸馏人工智能神经网络

于 2023-12-10 19:57:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50917576/article/details/134913364

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

何为蒸馏

想解决的问题

现在谁家不整个大模型，条件好了吃喝都不差钱了，大模型一般都效果好

但是应用可能麻烦点，费资源，可能下游任务设备一般般，那咋整？

那你就用小一点的模型呗，比如resnet152用不了那咱们就用resnet18也行

但是现在咱们两边都想要，既要用小的18层的也要让它效果尽可能进阶152的

模型参数越大越好？

模型参数量越大，效果一定越好吗？

不一定，越来越平稳的曲线，有上限；而且参数越大越难收敛。

模型的参数量相同，训练策略不同，得到的结果也可能完全不同

那么我们就得想想能不能利用点不同的训练策略让咱们模型既小又好。

蒸馏需要啥呢

回顾下半监督问题（以物体检测为例）

T模型生成一些伪标签，然后把这些标签交给S模型来进行学习

基本思想

大概就是这个图的意思，老师把会的东西通过一种表现形式交给学生

那么蒸馏要学什么呢？

不仅学习结果，还要关注分布

soft target有啥用

左边的2更像3，右边的2更像7，这时候得让模型知道像谁，但是是谁

Temperature的作用

温度的选择还是要根据实际情况来

应用领域

在物体检测领域应用

teacher与students的Backbone上要尽可能一致，分类和回归预测结果也要类似

类似半监督任务，Teacher输出伪标签，让Student来进行学习

关注

15
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
1
评论
知识蒸馏与应用

现在谁家不整个大模型，条件好了吃喝都不差钱了，大模型一般都效果好但是应用可能麻烦点，费资源，可能下游任务设备一般般，那咋整？那你就用小一点的模型呗，比如resnet152用不了那咱们就用resnet18也行但是现在咱们要耍无赖，既要用小的18层的也要让它效果尽可能进阶152的
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

十有久诚 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。