蒸馏论文八（分类蒸馏论文八篇）

一只蓝鲸鱼

于 2021-09-02 17:46:28 发布

阅读量1.8k

点赞数 4

分类专栏：蒸馏计算机视觉文章标签：深度学习 pytorch 神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44579633/article/details/120062179

版权

计算机视觉同时被 2 个专栏收录

56 篇文章

订阅专栏

14 篇文章

订阅专栏

本文介绍了分类蒸馏的八篇论文

自蒸馏

Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation

Self Distillation文中提出的自蒸馏方法，相比于传统蒸馏方法来说，无需提前训练教师网络，而是在学生网络训练的过程中进行自蒸馏，不仅可以训练出更高精度的小网络，而且花费的时间更少。

在这里插入图片描述
文中使用的自蒸馏方法如下：

在这里插入图片描述
如图所示，一个ResNet根据其深度分为四个部分，在每一部分之后设置额外的bottleneck和全连接层，构成多个分类器。每一个分类器在途中描述的三种监督下训练。

MSD: MULTI-SELF-DISTILLATION LEARNING VIA MULTI-CLASSIFIERS WITHIN DEEP NEURAL NET- WORKS

MSD与Self Distillation思路类似，损失函数也包含三个相同的部分。区别主要在于使用了多分类器。

在这里插入图片描述

多教师蒸馏

FEED: Feature-level Ensemble for Knowledge Distillation

FEED提出了两种蒸馏多教师蒸馏方法，并行蒸馏和顺序蒸馏。

并行蒸馏的流程图如下图所示。其中，NTL是非线性转换层的简称，每个教师网络分配一个NTL，蒸馏过程中，学生网络和NTL网络同时进行培训。
在这里插入图片描述
顺序蒸馏的流程图如下图所示。经过训练的学生网络被用作下一阶段的教师网络，并重复这个过程。

在这里插入图片描述

Adaptive Multi-Teacher Multi-level Knowledge Distillation

AMTML-KD是一种融合多教师蒸馏的方法，使用到的损失函数包含

FitNet的损失函数
Similarity中的损失函数
KL损失函数

相互蒸馏

Deep Mutual Learning

如图所示，每个网络都用一个监督学习损失和KL损失进行训练，以匹配其他网络的概率估计。
在这里插入图片描述

剪枝蒸馏

Training convolutional neural networks with cheap convolutions and online distillation

文中提出利用cheap conv的压缩网络进行在线蒸馏，进一步提高其性能：

用cheap conv代替标准卷积，形成一个学生网络。
通过将多个学生网络的输出特征连接起来并添加新的分类器，在线构建一个强教师网络。
在培训过程中进行相互学习，提高师生之间的表现。

在这里插入图片描述
文中对使用的几种空间卷积进行了说明：(a)标准卷积，(b)组卷积，( c)深度卷积

在这里插入图片描述

Cascaded channel pruning using hierarchical self-distillation

文中提出了一种通道修剪的分层自蒸馏策略。每个模型都用共享的卷积权值联合训练，但有独立的二进制掩码、批处理标准化层和分类层。约束较小的模型提供知识蒸馏和重要性评分梯度。
在这里插入图片描述

Cascaded channel pruning using hierarchical self-distillation

该方法使用到了知识蒸馏、网络集成和网络剪枝：

根据一些标准（1范数、泰勒近似等）对滤波器/权重进行修剪。
对具有较大学习速率的剪枝网络进行再训练，使传统的监督损失函数最小化。
达到期望的剪枝率后，使用知识蒸馏将知识从迭代剪枝集合转移到最终模型。

在这里插入图片描述

一只蓝鲸鱼

博客等级

码龄6年

103
原创

513
点赞

2030
收藏

2万+
粉丝

关注

私信

热门文章

分类专栏

最新评论

PV-RCNN代码解读——demo.py & test.py
weixin_51941475: 您好，我想问一下。我运行demo.py时显示我没有预训练文件pv_rcnn_8369，这是需要自己下载吗？
PV-RCNN代码解读——demo.py & test.py
Wendy_七页禾: 请问demo的运行结果是两个场景的检测结果的意思，还是右图是左图经过模型处理后的检测结果，与左图进行对比的意思？
PV-RCNN代码解读——demo.py & test.py
三维小新: 你好请问直到这些参数代表什么了吗
检测数据库detectron2代码解析（二）BACKBONE
小珑gg22mm: model = META_ARCH_REGISTRY.get(meta_arch)(cfg) 运行后就会调用所有模型，这个就是个黑盒，看不到哪里里合并了那么多模型。 meta_arch = cfg.MODEL.META_ARCHITECTURE #输出：GeneralizedRCNN model = META_ARCH_REGISTRY.get(meta_arch)(cfg) # 类似于：detectron2.modeling.meta_arch.rcnn.GeneralizedRCNN(cfg) print(model) #这里就显示了所有模型，太奇怪了，也没看到在哪里调用，只知道运行到上面的： detectron2.modeling.meta_arch.rcnn.GeneralizedRCNN 文件中，而已,太懵逼了
网络参数重组论文二（ACNet，RepMLP）
sfcv159: 想问一下博主，ACNet怎么即插即用呀，求教

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一只蓝鲸鱼 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。