【CVPR_2022】Rethinking Knowledge Distillation via Cross-Entropy

最新推荐文章于 2024-09-11 18:34:56 发布

大胖吃不饱

最新推荐文章于 2024-09-11 18:34:56 发布

阅读量173

点赞数

分类专栏：知识蒸馏文章标签：深度学习神经网络 python 人工智能

本文链接：https://blog.csdn.net/weixin_45385299/article/details/131826930

版权

知识蒸馏专栏收录该内容

5 篇文章 0 订阅

订阅专栏

论文链接：https://arxiv.org/abs/2208.10139

代码链接：https://github.com/yzd-v/cls_KD

创新点

论文发现 $KD$ 蒸馏损失可以看作是 $CE$ 损失和一个额外损失的组合，且额外损失具有与 $CE$ 损失相同的形式。额外损失引入了非目标类的知识。额外损失中迫使学生的相对概率逼近教师网络的绝对概率，由于两者的概率和不同，因此难以进行优化。

论文结合软目标损失和分布式损失提出 $（ N KD ）$ ，使用教师网络的目标预测输出作为软目标，引导学生网络学习目标类知识，提出分布式损失，解决了两者概率和不同难以优化的问题，引导学生网络学习非目标的知识。

论文提出在无预训练教师网络时，使用学生网络平滑后的预测输出作为软目标进行训练。

问题

以往的工作并没有考虑 $KD$ 损失和 $CE$ 损失之间的关系。

方法

在这里插入图片描述

公式化

$t$ ：目标类、 $C$ ：类别数、 ${V_i}$ ： $o n e - h o t$ 标签第i类的标签值、 ${S_i}$ ：学生网络第 $i$ 类的预测输出、 ${T_i}$ ：教师网络第 $i$ 类的预测输出、 $\lambda$ ：温度。

        交叉熵损失 $（ CE ）$ 表示为：
                 ${L_{ori}} = - \sum\limits_i^C {{V_i}} \log ({S_i}) = - {V_t}\log ({S_t}) = - log({S_t})$

        因为标签是 $o n e - h o t$ 形式，仅有目标类取值为 $1$ ，其余为 $0$ ，因此 $CE$ 损失可以简化为学生网络目标类的损失。

         $KD$ 损失可以表示为：
$\begin{array}{c} {L_{kd}} = - \sum\limits_i^C {T_i^\lambda \log (S_i^\lambda )} \\ = - \sum\limits_i^C {T_i^\lambda \log (S_t^\lambda \times \frac{{S_i^\lambda }}{{S_t^\lambda }})} \\ = - \sum\limits_i^C {T_i^\lambda \log (S_t^\lambda ) - \sum\limits_i^C {T_i^\lambda \log (\frac{{S_i^\lambda }}{{S_t^\lambda }})} } \end{array}$

        因为 $\sum\nolimits_i^C {T_i^\lambda } = \sum\nolimits_i^C {S_i^\lambda } = 1$ 和 $T_t^\lambda = \log (S_t^\lambda /S_t^\lambda ) = 0$ ，所以 ${L_{kd}}$ 可以简化为：
         ${L_{kd}} = - \log (S_t^\lambda ) - \sum\limits_{i \ne t}^C {_i^\lambda T\log (\frac{{S_i^\lambda }}{{S_t^\lambda }})}$

         $\log (S_t^\lambda )$ 与 ${L_{ori}}$ 具有相同的形式，在训练过程中给学生网络提供了重复的知识。额外的损失 $\sum\nolimits_{i \ne t}^C {T_i^\lambda \log (S_i^\lambda /S_t^\lambda )}$ 具有与交叉熵 $\sum {p(x)\log (q(x))}$ 相同的形式，且为学生网络提供了非目标类的知识。由于交叉熵损失的目的是迫使 ${q(x)}$ 与 ${p(x)}$ 相同。因此，两者的预测分布的概率和必须相等。

         $T_i^\lambda$ 是绝对概率和 $\sum\nolimits_{i \ne t}^C {T_i^\lambda = 1 - T_t^\lambda }$ 。而 $S_i^\lambda /S_t^\lambda$ 是相对概率，而 $\sum\nolimits_{i \ne t}^C {S_i^\lambda /S_t^\lambda = (1 - S_t^\lambda )/S_t^\lambda }$ 。所以 ${S_i^\lambda /S_t^\lambda }$ 很难与 ${T_i}$ 相似。

        分布式损失（学习非目标类知识）：
         ${L_{distributed}} = - \sum\limits_{i \ne t}^C {\hat T_i^\lambda \log (\hat S_i^\lambda )}$
         $\hat T_i^\lambda = \frac{{T_i^\lambda }}{{1 - T_t^\lambda }}$          $\hat S_i^\lambda = \frac{{S_i^\lambda }}{{1 - S_t^\lambda }}$

        在这种情况下，我们可以看到 $\sum\nolimits_{i \ne t}^C {\hat T_i^\lambda = \sum\nolimits_{i \ne t}^C {\hat S_i^\lambda = 1} }$ ，使学生更容易学习教师的非目标知识。

        软目标损失（学习目标类知识）：
         ${L_{soft}} = - {T_t}\log ({S_t})$

        总的 $N KD$ 损失结合原损失 ${L_{ori}}$ 、分布损失 ${L_{distributed}}$ 和软损失 ${L_{soft}}$ ：
         ${L_{NKD}} = - \log ({S_t}) - {T_t}\log ({S_t}) - \alpha \times {\lambda ^2} \times \sum\limits_{i \ne t}^C {\hat T_i^\lambda \log (\hat S_i^\lambda )}$
        其中， $α$ 是一个用来平衡损失的超参数。

         $(f t - N KD)$ 损失（当没有预训练的教师网络时，学生网络进行自蒸馏。学生网络不仅学习交叉熵提供的目标类知识，同时学习自身预测输出经过软化后的目标类知识）：
         ${L_{tf - NKD}} = - \log ({S_t}) - ({S_t} + {V_t} - mean({S_t}))\log ({S_t})$

         ${V_t}$ 表示样本的目标标签值，并对一批中不同样本的 $mean \cdot )$
进行计算。