动机
认为目标检测知识蒸馏效果不好的问题出在两个地方。
1.前背景像素比例不平衡问题。提出了基于注意力引导的提取方法,利用==注意机制(而非gt)找到前景物体的关键像素点==,使学生更加努力地学习前景物体的特征。具体做法是在backbone处,利用attention生成一个fine-grained mask 而非二值mask,并且生成的mask包含空间mask Ms∈RH,W和通道mask Mc∈Rc两个部分。
2.对不同像素之间的关系也是应该做蒸馏的。non-local提取的目的是让学生不仅学习单个像素的特征,而且学习非局部模块==捕获的不同像素之间的关系==,来进行蒸馏。
method
1.Attention Guide Distillation
前面提到会利用注意力机制分别生成空间mask Ms∈RH,W和通道mask Mc∈Rc。空间和通道注意力图gs和gc分别通过下式计算得到,即空间注意力图通过计算每个像素计算所有通道的绝对值求和得到,通道注意力图通过对每个通道所有像素点求和得到。A代表特征图,小写的s和c代表空间和通道。
student和teac