A Gift from Knowledge Distillation: Fast Optimization, Network Minimization and Transfer Learning(2017 CVPR)
Fast Optimization, Network Minimization and Transfer Learning(2017 CVPR))
Abstract
As the DNN maps from the input space to the output space through many layers sequentially, we define the distilled knowledge to be transferred in terms of flow between layers, which is calculated by computing the inner product between features fromtwolayers.
由于DNN通过多个层依次从输入空间映射到输出空间,我们定义了要在层间流动的提取知识,这是通过计算两层特征之间的内积来计算的。
提出的将提取的知识作为两层之间的流动进行转移的方法表现出三种重要现象:
(1) 学习提取知识的学生DNN优化速度比原始模型快得多;
(2) 学生DNN优于原始DNN;
(3)学生DNN可以从在不同任务中训练的教师DNN那里学习提炼出的知识,并且学生DNN优于从零开始训练的原始DNN。
1. Introduction
考虑到真正的教师教给学生如何解决问题的流程,我们将高级提炼知识定义为解决问题的流程。因为DNN使用许多层顺序地从输入空间映射到输出空间,所以解决问题的流程可以定义为两个层的特征之间的关系。Gatys等人[6]使用Gramian矩阵表示输入图像的纹理信息。由于Gramian矩阵是通过计算特征向量的内积生成的,因此它可以包含特征之间的方向性,这可以看作是纹理信息**。利用由两层特征之间的内积组成的Gramian矩阵来解决问题的方法**。[6]中的Gramian矩阵与我们的Gramian矩阵之间的关键区别在于,我们跨层计算Gramian矩阵,而[6]中的Gramian矩阵计算层内特征之间的内积。从两层提取的特征图用于生成求解流程(FSP)矩阵。对学生DNN进行培训,使其FSP矩阵与教师DNN的FSP矩阵相似。
1. 蒸馏的知识:是解决问题的流程,简单来说蒸馏层与层之间的映射关系。
2. 这种关系用FSP矩阵来表示。
贡献
1.我们提出了一种新的知识提取技术。
2.这种方法对于快速优化非常有用。
3.使用所提出的提取知识来寻找初始权重可以提高小型网络的性能。
4.即使学生DNN在不同于教师DNN的任务中接受培训,建议的提炼知识也会提高学生DNN的绩效。

图1.提出的迁移学习方法的概念图。FSP矩阵表示从教师DNN中提取的知识,由两层特征生成。通过计算表示方向的内积来生成FSP矩阵,两层之间的流动可以用FSP矩阵表示。
2. Related Work
3. Method
3.1. Proposed Distilled Knowledge
3.2. Mathematical Expression of the Distilled Knowledge

x,W 网络的输入和网络参数
F 特征图 feature map F1 mx(hxw)F2 (hxw) xn
矩阵相乘 mxn ,
G FSP 矩阵 层与层之间的关系矩阵
3.3. Loss for the FSP Matrix

看图显而易见get这个点

4. Experiments
因此如果两层特征的大小不同,我们使用最大池层来生成相同的空间大小。
该研究提出了一种新的知识蒸馏技术,通过计算两层特征之间的内积来捕获DNN中解决问题的流程。这种方法加速了学生DNN的优化,提高了网络性能,并允许跨任务知识转移。损失函数关注于FSP矩阵的相似性,用于表示层间关系。实验表明,即使在不同任务中,学生模型也能从教师模型中学习并表现出色。

----论文笔记&spm=1001.2101.3001.5002&articleId=120182244&d=1&t=3&u=dcc6a9afa9b64368862b3457b645cf31)
795

被折叠的 条评论
为什么被折叠?



