2023 Curriculum Temperature for Knowledge Distillation

谷子君

已于 2024-03-04 15:52:52 修改

阅读量1.3k

点赞数 7

分类专栏：文献阅读文章标签：人工智能深度学习

于 2023-01-17 13:49:16 首次发布

本文链接：https://blog.csdn.net/weixin_44858740/article/details/128709725

版权

本文提出了CTKD（知识蒸馏课程温度），一种动态调整温度的蒸馏方法，通过对抗性学习和课程学习策略，优化学生模型的训练过程。CTKD包括全局和实例级的可学习温度模块，以适应不同难度的蒸馏任务。

摘要由CSDN通过智能技术生成

论文地址：https://arxiv.org/abs/2211.16231
代码地址：https://github.com/zhengli97/CTKD

1 研究动机与研究思路

研究动机：大多数现有的蒸馏方法忽略了温度在损失函数中的灵活作用，将其固定为超参数。一般而言，温度控制着两种分布之间的差异，确定蒸馏任务的难易程度。保持一个恒定的温度，即固定的任务难度，在渐进学习阶段通常是次优的。
研究思路：本文提出了一种简单的基于课程的技术，称为知识蒸馏课程温度( CTKD )，它是一个动态温度超参蒸馏新方法。具体来说，遵循由易到难的课程设置，随温度的变化逐渐增加蒸馏损失，以对抗的方式导致蒸馏难度的增加。
（在我的数据集上实验结果并不理想）

2 主要工作

本文的主要工作：

本文提出在学生的训练过程中使用反向梯度对抗学习动态温度超参数，以最大化师生之间的蒸馏损失。
本文引入了简单有效的课程，通过一个动态和可学习的温度参数，从易到难地组织蒸馏任务。

3 方法

3.1 知识蒸馏

传统的两段蒸馏过程通常以预先训练的繁琐的教师网络开始。然后在教师网络的监督下以soft预测或中间表示的形式训练一个紧凑的学生网络。采用带有温度超参的KL Divergence Loss散度损失最小化学生和教师模型的soft输出概率差异，从而在教师模型和学生模型之间进行蒸馏，公式如下：
$L_{k d}\left(q^t, q^s, \tau\right)=\sum_{i=1}^I \tau^2 K L\left(\sigma\left(q_i^t / \tau\right), \sigma\left(q_i^s / \tau\right)\right)$
其中， $q^t, q^s$ 分别表示教师和学生产生的logit， $\sigma ( · )$ 为softmax函数.温度超参 $\tau$ 用来衡量两个分布 $q^t$ 和 $q^s$ 的平滑程度，决定了两个概率分布间的距离， $\tau$ 越大( $\tau>1)$ ，就会使得概率分布越平滑(soft)， $\tau$ 越小 $(0<\tau<1)$ ，越接近0，会使得概率分布越尖锐(sharp)。 $\tau$ 的大小影响着蒸馏中学生模型学习的难度，而现有工作普遍的方式都是采用固定的温度超参，一般会设定成4。

3.2 对抗性蒸馏

针对原始蒸馏任务，以最小化任务特定损失和蒸馏损失为目标，对学生进行优化。蒸馏过程的目标可以表述如下：
$\begin{aligned} \min _{\theta_{s t u}} L\left(\theta_{s t u}\right) & =\min _{\theta_{s t u}} \sum_{x \in D} \alpha_1 L_{t a s k}\left(f^s\left(x ; \theta_{\text {stu }}\right), y\right) \\ & +\alpha_2 L_{k d}\left(f^l\left(x ; \theta_{\text {tea }}\right), f^s\left(x ; \theta_{\text {stu }}\right), \tau\right) .\end{aligned}$