出发点
并非teacher的所有知识都值得学习,所以只学习teacher比较好的部分,以及gt周围的区域。
method
1.特征蒸馏
选取了backbone特征,具体做法是:以target中心为高斯mask中心,生成一个二维的高斯mask,利用该mask对backbone特征进行蒸馏。
注意,因为是backbone特征,还不是特别高层次的语义特征,所以才选择一个区域。如果是head之类的地方,选择一个区域的做法是不太合理的,因为在高层次语义特征中,目标的信息已经编码到一个像素点了。
2.分类头蒸馏
teacher使用的是student的RPNhead,感觉怪怪的。只学习teacher有用的信息,即:只学习teacher的正样本分类信息,负样本带来噪声。因此,只对T的positive samples进行分类结果蒸馏,蒸馏损失为BCE loss。