基于Attention的通道知识蒸馏:channel-wise attention for knowledge distillation
论文地址:
https://arxiv.org/abs/2006.01683
代码地址:
https://github.com/zhouzaida/channel-distillation
主要思路:
本文提出了一种新的蒸馏方法,其中包括两种转移蒸馏策略和一种损耗衰减策略
第一种转移策略是基于通道的注意力机制,称为通道蒸馏(CD);第二种是指导知识蒸馏(GKD),并且 GKD 只允许学生模拟教师的正确输出;最后一部分是早停/衰减教师模型(EDT),即在训练过程中,逐渐衰减蒸馏损失的重量(因为最后目标是精度而不是模拟教师模型分布)
具体实现:
通道蒸馏:
在SENet中&