【AAAI 2021】多出口架构的知识蒸馏:Harmonized Dense Knowledge Distillation Training for Multi-Exit Architectures
论文地址:
https://ojs.aaai.org/index.php/AAAI/article/view/17225
主要问题:
Multi-Exit 架构在特征层的不同深度引入一系列中间分类器,通过对“容易”的样本在中间层退出来执行自适应计算,以加速推理过程
目前基于该架构的知识蒸馏方法研究较少,一方面,他们采用了一个朴素的加权损失和,损失权重是取平均的或手动调整的,导致多出口分类损失和蒸馏损失之间的权衡没有得到很好的考虑,因为联合优化中的不同目标可能是竞争甚至冲突的,从而影响多出口类化和知识蒸馏的联合学习;另一方面,现有的方法主要采用最后一个出口作为教师模型,并将知识转化为早期的出口,然而为了充分释放知识蒸馏的潜力,有必要自适应地学习每个出口的所有后期出口
主要思路:
这篇文章设计了一种新的多出口体系结构的协调密集知识蒸