【CVPR 2021】基于样本间关系的知识蒸馏:Complementary Relation Contrastive Distillation
论文地址:
https://arxiv.org/abs/2103.16367
主要问题:
之前的知识蒸馏学习的是每个样本单独的特征距离(即让teacher和student模型对每个样本的特征近似),但是作者考虑不同样本间的特征距离也是重要的结构化信息(如下图),因此提出了CRCD蒸馏算法。
主要思路:
蒸馏时对每个样本随机抽取其neighbor样本组成anchor-teacher和anchor-student作为teacher model和studet model的特征关系表示,并在蒸馏时鼓励其保持一致。其中特征关系同时用特征及其梯度表示,通过分别子网络MT和MT,S学习得到,并通过Relation Contrastive Loss损失函数使其保持一致(如下图所示)。