1. Mimicking Very Efficient Network for Object Detection
作者提出了一种全卷积网络特征模拟方法,模拟从建议区域中采样的特征,这样可以使小网络更多地从大模型中学习感兴趣的区域特征,而不是全局上下文特征。
利用空间金字塔池化,可以从小网络和大网络的特征图中选取不同比例和大小的bbox进行局部区域特征的采样。然后通过网络将小网络特征图中的采样特征回归到与大模型相同的维数。
定义损失函数为:
总的loss主要由两部分组成,分别为mimic loss以及ground-truth loss。
作者在实验中发现,对于mimic loss进行normalization可以取得更为稳定的mimic结果:
如图所示,将大网络和小网络的特征图分别经过几层卷积层和一层Pooling层之后,计算了一个额外的损失,目的是使得小网络学习大网络的知识。
L2 Loss的定义如下:
g
(
x
;
W
)
g(x;W)
g(x;W) 为小模型的输出,
z
z
z为学习的大模型的输出。优化损失函数的过程,就是使得小模型向大模型不断学习的过程。
同时,作者还提到了对于小网络与大网络feature map大小不同的情况(譬如小网络中输入图像减半),可以增加一个转换层(deconvolution)使得大小网络最终mimic的层保持一致:
2. General Instance Distillation for Object Detection (2021.4)
该论文的贡献:
- 将通用实例(general instance, GI)定义为蒸馏目标,可有效提高检测模型的精馏效果。
- 基于GI,我们首先引入基于关系的检测任务提取知识,并将其与基于响应的、基于特征的知识相结合,使学生超越教师。
该论文与以往论文的区别:
- 作者的方法不依赖于GT标签,也不关心选择的正、负实例的比例。正是学生和教师之间的信息差距引导模型选择区别性斑块进行模仿。
- 以前的方法都没有利用基于关系的知识进行蒸馏。
论文设计了一种通用实例选择模块(General Instance Selection Module,GISM),该模块首先量化教师模型预测实例和学生模型预测实例的差异,然后选择可区分的实例进行蒸馏。
本文提出了两个指标评估两个模型预测实例的差异:分类得分的L1距离GI Score 和得分更高的框GI Box。这两个参数都是在每个训练步骤中动态计算的。下图说明了生成GI(通用实例)的过程:
1、教师模型和学生模型预测图片中实例的 Class Score 和 Regression Box
2、根据两个模型预测结果计算实例的差异:GI Score (L1距离) 和 GI Box(得分高的框)
3、GI Score和GI Box经过NMS反复选择具有最高GI分数的实例,然后nms操作筛选分数较低的实例。
3. Multi-Scale Aligned Distillation for Low-Resolution Detection
作者的主要贡献有三方面。
- 对齐概念,以不同的输入分辨率对齐模型的特征图。
- 一个训练强大的多尺度和多分辨率融合的教师框架,为学生提供更多信息的训练信息。
传统方法与论文中方法的比较:
如图所示,传统的沿着同一特征层传递知识的方法由于特征地图的尺度冲突而失败。为了解决这一问题,作者引入了多尺度定向精馏方法。
框架分为两个阶段,在第一阶段,以一种对齐的多尺度训练方式培训多尺度教师,该教师使用相同的FPN backbone 进行高分辨率和低分辨率输入。采用交叉特征级融合(C-FF)模块动态融合两个输入分辨率的金字塔特征。第二阶段,训练好的多尺度融合教师通过蒸馏损失 L K D L_{KD} LKD指导低分辨率学生(S)训练。