知识蒸馏（总结篇）

最新推荐文章于 2024-08-29 17:39:27 发布

向辰

最新推荐文章于 2024-08-29 17:39:27 发布

阅读量1.4w

点赞数 35

分类专栏：模型压缩文章标签：神经网络人工智能深度学习大数据机器学习

本文链接：https://blog.csdn.net/wj113149/article/details/116142902

版权

模型压缩专栏收录该内容

1 篇文章 1 订阅

订阅专栏

知识蒸馏（Knowledge Distillation）综述

0. 导向

关于轻量化网络，目前来说，大致可分成两大块：基于网络架构本身的设计和对模型进行压缩，我自觉网络架构本身设计难于上青天，这块都是Google大佬，facebook大佬等走在最前沿，比如使用NAS的方法去自动寻找对应任务的网络架构，嗯，听起来很玄学。整个轻量型网络目前来说有下面主要工作，直接上图
在这里插入图片描述
　　科学理论只有联系实际才能转化成产品，我们往往更看重知识转化为经济效益。轻量化网络就是将我们模型能够在现有的有限硬件条件下实现落地。好的，举个栗子：
假如你用深度学习模型在服务器上达到了很好的预测效果，实际上是很多网络（Resnet，Vgg等）需要的计算量和计算资源很大，这对硬件的要求很高，你可能需要这样的
在这里插入图片描述
　　然而，你可能只有这样的

　　在应用服务上，我们很容易见到这些智能产品，要直接把模型算法部署到这些小的设备上是困难的

在这里插入图片描述
　　于是，我们希望从一个大的模型上得到知识转移给小的模型，而小模型能达到跟大模型相当的效果，因此知识蒸馏就诞生了。

1.下面将对知识蒸馏做全面的综述性介绍

1.1 概念

就好像一个有几十年经验的老师（水平高，知识全面，学的快等特点）（相当于大模型），有个刚入学的学生（知识储备能力小，经验不丰富）（相当于小模型）。
　　但是呢，这个老师知识存储可能过多，存在冗余现象，暂且可以理解为学生为了效率不需要学任务之外的多余的知识，当然老师的老师的水平高低会不会决定学生水平的上限。
　　下面解释一下知识蒸馏的蒸馏体现在哪里
在这里插入图片描述
其中对于每一条数据，原模型产生的logits为 $v_i$ ,新模型logits为 $z_i$ ,对 $v_i$ 和 $z_i$ 进行下面广义的softmax操作
$q_i={\frac{exp(z_i/T)}{\sum_jexp(z_j/T)}};v_i={\frac{exp(v_i/T)}{\sum_jexp(v_j/T)}}$
$T$ 是一个温度参数，先把 $T$ 调大（相当于升温），这时softmax产生的分布足够软（好比化学蒸馏过程中，混合液体的分子变得活跃起来），测试阶段的时候再把 $T$ 调低至1，从而将原有的知识提取出来.
若存在不理解的地方，详细可参考博文.也可参考李宏毅视频

1.2 研究内容

知识种类：knowledge categories
训练方法：training schemes
教师-学生框架：teacher-student architecture
蒸馏算法：distillation algorithms
性能对比（蒸馏前后）：performance comparison
应用：applications

蒸馏的成功依赖于：
数据几何：data geometry
蒸馏目标的优化偏差：optimization bias of distillation objective
学生分类器的强单调性：strong monotonicity of student classifer
可扩展的方向：
标签平滑：label smoothing
评估老师的准确性: assessing the accuracy of the teacher
获取最佳输出层几何的先验:obtaining a prior for the optimal output layer geometry
衍生的新的方向
teacher-student learning
mutual learning
assistant teaching
lifelong learning
self-learning
knowledge transfer:如 dataset distillation，可以减少训练的负荷
adversarial attacks
data augmentation
data privacy and security
dataset compressing

2.知识的种类和蒸馏的种类

知识种类	提出时间
vanilla knowledge	Hinton在2015
中间层的activation，neurons ，feature	2015
activation，neurons，样本对之间的关系	2017
教师模型之间的参数（层之间的联系）	2019

2.1 基于响应的知识

教师网络最后一层的输出，直接模仿教师最后的预测，该方法简单高效
在这里插入图片描述
损失函数： $L_{Res}(z_t,z_s) = \mathcal{L}_R(z_t,z_s)$ 其中 $\mathcal{L}_R(.)$ 代表logits之间的交叉熵
对于分类任务，基于响应的知识最流行的是soft targets，表示为：
$p(z_i,T)=\dfrac{exp（z_i/T）}{\sum_jexp(z_j/T)}$
于是，在下面蒸馏模型中
Distillation Loss：
$L_{ResD}(p(z_i,T),p(z_s,T)) = \mathcal{L}_R(p(z_i,T),p(z_s,T))$
student Loss:
$\mathcal{L}_{CE}(y,p(z_s,T=1))$

缺点：依赖最后一层的输出，不能处理教师模型中间层的监督，soft logits是分类概率，基于响应的知识只限于监督学习。

2.2 基于feature的知识

损失函数：
$L_{FeaD}(f_t(x),f_s(x)) = \mathcal{L}_F(\Phi_t(f_t(x),\Phi_s(f_s(x)))$
$\Phi_t$ 表示如果教师和学生模型的feature map的shape不一样时，把shape变成一样
$\mathcal{L}_F$ :相似性函数，用于匹配教师和学生模型的feature map
问题：（1）怎么选择合适的hint层；（2）由于hint层和guided层的尺寸不一样，需要研究怎么去研究匹配两者之间的特征表征。
在这里插入图片描述

2.3 基于relation的知识

基于relation的知识：在不同层或者数据样本的关系。
FSP 矩阵（Gram 矩阵）：通过两个层之间的特征图做内积，总结特征图之间的关系，使用特征图之间的联系作为知识。(2017)
奇异值分解（SVD）KD用来提取键值信息
多教师网络的知识用每个教师模型的logits和feature作为节点做了两个图，通过logits和表征图作为KD的知识
Multi-head graph-based KD
损失函数：
$L_{RelD}(F_t,F_s) = \mathcal{L}_{R^2}(\Phi_t(t_i,t_j),\Phi_s(s_i,s_j))$
在这里插入图片描述

3.蒸馏的方法（训练的方法）

根据学生是不是和教师网络同时更新可以分三种
在这里插入图片描述

离线蒸馏
vanilla 蒸馏，两个步骤：
（1）蒸馏前，在大数据集上预先训练好教师模型
（2）蒸馏时，教师模型以logits或者中间features的形式提取知识，然后指导学生模型进行训练
方法：离线蒸馏方法通常采用单向知识转移和两阶段训练程序。然而，复杂的大容量教师模型训练时间很长是无法避免的，而离线蒸馏的学生模型训练通常在教师模型的指导下是高效的。而且，大老师和小学生之间的能力差距一直存在，学生往往很大程度上依赖于老师。
在线蒸馏
在大容量高性能的教师模型不存在的时候，使用在线蒸馏可以提高学生网络性能
方法在线蒸馏是一种具有高效并行计算的单阶段端到端训练方案。然而，现有的在线方法(例如，相互学习)通常不能解决在线设置中的高容量教师，使得进一步探索在线设置中教师和学生模型之间的关系成为有趣的话题。
自蒸馏
在自蒸馏中，教师和学生模型使用相同的网络
方法
从更深层蒸馏到更浅层
把自己层的注意力图作为蒸馏目标蒸馏到更低层
把前epoch得到的网络当作监督的训练过程转移到后面层，后面层模仿前一层
标签平滑正则化

3.师生框架

在这里插入图片描述
深度神经网络的复杂性主要来自深度和宽度两个维度。通常需要将知识从更深更宽的神经网络转移到更浅更薄的神经网络。

学生网络的选择：

（1）教师网络的简化版本，具有更少的层和每层更少的通道
（2）保留网络结构的教师网络的量化版本
（3）具有高效基本操作的小型网络
（4）具有全局优化过网络结构的小型网络
（5）和教师一样的网络
需要克服的困难
大网络和小网络之间的容量差别使得知识转移有困难
结构差异

方法

引入一名教师助理，以缩小教师模式和学生模式之间的训练差距。残差学习进一步缩小了这种差距，
网络量化结合到知识蒸馏
多层的知识转移到一层中
block-wise知识转移，同时保存原有感受野
教师模型是学生模型的集合，学生模型共享相同的结构
深度可分离卷积
自适应的方法适应性的师生学习架构是必要的。最近，知识提炼中的神经架构搜索的思想，即在教师模型的指导下对学生结构和知识转移的联合搜索，将是未来研究的有趣主题。