2023 Curriculum Temperature for Knowledge Distillation

论文地址:https://arxiv.org/abs/2211.16231
代码地址:https://github.com/zhengli97/CTKD

1 研究动机与研究思路

研究动机:大多数现有的蒸馏方法忽略了温度在损失函数中的灵活作用,将其固定为超参数。一般而言,温度控制着两种分布之间的差异,确定蒸馏任务的难易程度。保持一个恒定的温度,即固定的任务难度,在渐进学习阶段通常是次优的。
研究思路:本文提出了一种简单的基于课程的技术,称为知识蒸馏课程温度( CTKD ),它是一个动态温度超参蒸馏新方法。具体来说,遵循由易到难的课程设置,随温度的变化逐渐增加蒸馏损失,以对抗的方式导致蒸馏难度的增加。
(在我的数据集上实验结果并不理想)

2 主要工作

本文的主要工作:

  • 本文提出在学生的训练过程中使用反向梯度对抗学习动态温度超参数,以最大化师生之间的蒸馏损失。
  • 本文引入了简单有效的课程,通过一个动态和可学习的温度参数,从易到难地组织蒸馏任务。

3 方法

3.1 知识蒸馏

传统的两段蒸馏过程通常以预先训练的繁琐的教师网络开始。然后在教师网络的监督下以soft预测或中间表示的形式训练一个紧凑的学生网络。采用带有温度超参的KL Divergence Loss散度损失最小化学生和教师模型的soft输出概率差异,从而在教师模 型和学生模型之间进行蒸馏, 公式如下:
L k d ( q t , q s , τ ) = ∑ i = 1 I τ 2 K L ( σ ( q i t / τ ) , σ ( q i s / τ ) ) L_{k d}\left(q^t, q^s, \tau\right)=\sum_{i=1}^I \tau^2 K L\left(\sigma\left(q_i^t / \tau\right), \sigma\left(q_i^s / \tau\right)\right) Lkd(qt,qs,τ)=i=1Iτ2KL(σ(qit/τ),σ(qis/τ))
其中, q t , q s q^t, q^s qt,qs分别表示教师和学生产生的logit, σ ( ⋅ ) \sigma ( · ) σ()为softmax函数.温度超参 τ \tau τ 用来衡量两个分布 q t q^t qt q s q^s qs 的平滑程度,决定了两个概率分布间的距离, τ \tau τ 越大( τ > 1 ) \tau>1) τ>1) ,就会使得概率分布越平滑(soft), τ \tau τ 越小 ( 0 < τ < 1 ) (0<\tau<1) (0<τ<1) ,越接近0,会使得概率分布越尖锐(sharp)。 τ \tau τ 的大小影响着蒸馏中学生模型学习的难度,而现有工作普遍的方式都是采用固定的温度超参,一般会设定成4。

3.2 对抗性蒸馏

针对原始蒸馏任务,以最小化任务特定损失和蒸馏损失为目标,对学生进行优化。蒸馏过程的目标可以表述如下:
min ⁡ θ s t u L ( θ s t u ) = min ⁡ θ s t u ∑ x ∈ D α 1 L t a s k ( f s ( x ; θ stu  ) , y ) + α 2 L k d ( f l ( x ; θ tea  ) , f s ( x ; θ stu  ) , τ ) . \begin{aligned} \min _{\theta_{s t u}} L\left(\theta_{s t u}\right) & =\min _{\theta_{s t u}} \sum_{x \in D} \alpha_1 L_{t a s k}\left(f^s\left(x ; \theta_{\text {stu }}\right), y\right) \\ & +\alpha_2 L_{k d}\left(f^l\left(x ; \theta_{\text {tea }}\right), f^s\left(x ; \theta_{\text {stu }}\right), \tau\right) .\end{aligned} θstuminL(θstu)=θstuminxDα1Ltask(fs(x;θ

  • 7
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值