题目:Localization Distillation for Dense Object Detection
作者:Zhaohui Zheng1*, Rongguang Ye2 * , Ping Wang2, Dongwei Ren3, Wangmeng Zuo3
发表单位:南开大学TMCC CS,天津大学数学学院,哈尔滨工业大学计算机科学与技术学院
关键词:定位蒸馏LD,知识蒸馏KD , feature imitation , logit mimicking, VLR
论文:Localization Distillation for Dense Object Detection
代码: https://github.com/HikariTJU/LD
1 Motivation
- 首先是目前对于bbox的表示有以下两种形式
FCOS中的点到上下左右四条边的距离 (tblr) | |
---|---|
anchor-based检测器中所用的偏移量,即anchor box到GT box的映射 (encoded xywh) |
- 其此是关于定位模糊性的问题:GFocalV1针对tblr形式的bbox建模出了bbox分布,Offset-bin则是针对encoded xywh形式建模出了bbox分布,它们共同之处就在于尝试将bbox回归看成一个分类问题。并且这带来的好处是可以建模出bbox的定位模糊性,如下图示,大象的下边界与冲浪板的右边界都是模糊的。
即用n个概率值去描述一条边,可以显示出模型对一个位置的定位模糊估计,越尖锐的分布说明这个位置几乎没有模糊性(比如大象的上边界),越平坦的分布说明这个位置有很强的模糊性(大象的下边界)。
如下图示:分类和定位任务存在分布的不一致性(如分类任务关注大多是中心特征明显的部位,而定位任务则更考虑边缘的位置);现有的feature imitation会在蒸馏区域中的每个location上同时传递分类知识和定位知识(即混合知识),但是并不是在一个location上同时传递分类定位知识都利,很有可能红色中心区域对分类和定位的传递知识都有利,但是,蓝色区域只对定位知识的传递有利,而对分类知识的传递毫无益处。换而言之,我们需要因地制宜、分而治之的传递知识。因此feature imitation这种只会传递混合知识的能力就不大管用了。
于是作者想要分而治之,就必须知道哪些区域需要因地制宜,这种在一个区域中有选择性的进行知识蒸馏的能力,由VLR(Valuable Localization Region,有价值定位区域)来承担。
如下图示:与以往的Feature imitation方法不同,我们的蒸馏分为两个区域:
- Main distillation region (主蒸馏区域):即检测器的positive location,通过label assignment获得。
- VLR:与一般的label assignment做法类似,但区域更大,包含了Main region,但去掉了Main region。VLR可以视为是Main region的向外扩张。
一句话总结:本文创新点在于首次提出了LD定位蒸馏的概念,以及VLR有价值区域进行因地制宜的传递分类/定位知识的策略。
(将feature imitation的混合知识传递划分为KD知识蒸馏和LD定位蒸馏分而治之的传递—>定位蒸馏LD,数学表达式上与分类KD一致,二者统一就变成了logit mimicking框架如下图示)
2 整体框架
这里涉及的VLR部分如何确定是通过下面这个算法:
- 首先,对于第l个FPN级别,我们计算所有锚框
B
l
{B}_{l}
Bla 和地面真值框 Bgt 之间的 DIoU 矩阵
X
l
{X}_{l}
Xl。然后,我们将DIoU的下限设置为
α
v
l
{α}_{vl}
αvl=γ
α
p
o
s
{α}_{pos}
αpos,其中
α
p
o
s
{α}_{pos}
αpos是标签分配的正IoU阈值。VLR可以定义为
V
l
{V}_{l}
Vl={
α
v
l
{α}_{vl}
αvl⩽
X
l
{X}_{l}
Xl⩽
α
p
o
s
{α}_{pos}
αpos}。我们的方法只有一个超参数γ,它控制VLR的范围。
3 实验结果展示
上表主要是来探究一下在主蒸馏区域和有价值定位区域VLR这两个区域上进行分类的KD与定位的LD会有什么效果。
这个表格是本文的一大精髓所在,有几个有趣的现象。
- 可以看到在Main区域上,KD与LD均有效,说明在这个区域上传递分类或定位知识都有好处。但明显LD提升更大,说明定位知识的传递更有利于性能的提升。
- VLR上LD也有效,这也是为什么我们把这样的区域命名为有价值定位区域。但VLR KD的加入却损害了性能。
于是就得到了本文的logit mimicking策略,Main KD + Main LD + VLR LD
4 一些展望
-
VLR仅仅提供了分而治之蒸馏的初步解决方案,未来可以设计一种更优雅的区域选择机制,进行因地制宜地传递分类知识和定位知识或许是一个可供研究的方向。
-
LD的出现揭示了目标检测的分类知识与定位知识可以分开传递,这对其他领域(如实例分割)是否也存在第三种mask知识可供分别传递还有待研究。
-
至于logit蒸馏与feature蒸馏到底孰强孰弱,这个我想不会有定论。它们二者各有各的特点,首先logit mimicking直接蒸馏的是最为明确具体的知识,具有加速网络前期收敛、让feature自由学习、直接提升对应任务性能的优点。而feature imitation虽然一定程度上加大了网络前期训练难度,限制了feature学习范围,但可以同时提升下游所有任务,并且可以利用多个隐藏层,蒸馏范围的选择面较广。所以目前为止,我们认为最好的蒸馏方案应该是logit mimicking与feature imitation同时使用,让它们发挥各自的强项同时弥补对方的弱项,以实现收益最大化。