论文全名有点长,题目放不下了:
Knowledge Distillation for Object Detection via Rank Mimicking and Prediction-guided Feature Imitation
已经被AAAI2022接收。
摘要
出发点:student性能差的两个原因:
1.候选框排序差别很大,如下图所示。对于简单的目标(图1a),两个模型的最终留下的bbox是由同一个anchor(对于anchor-free方法而言是anchor points)回归的。但是对于难一点的框却不是(图1b),这说明对于难例样本,两者的anchor置信度排名不一样,作者将这个排序信息用于知识蒸馏中。
2.student和teacher的特征和预测之间都存在着很大的gap,所谓的特征差异性(Pdif = Ptea - Pstu)和预测差异性(Fdif = Ftea - Fstu),作者是直接通过特征图相减得到的。问题的关键是:这个gap的位置还不一样(图中inconsistency处),这说明了虽然这一部分区域特征差异性很大,但是预测差异性很小,此处的特征差异性根本不用蒸馏,&#