面向目标检测的丰富特征引导细化网络
摘要
提出一个单阶段检测框架,该框架解决了多尺度目标检测和类不平衡的问题。
没有设计更深层网络,而是引入一种简单而有效的特征丰富化方案来生成多尺度的上下文特征。
进一步提出一种级联改进方案,该方案首先将多尺度上下文特征嵌入到单级检测器的预测层中,以增强其对多尺度检测的分辨能力。其次,级联改进方案通过改进锚和丰富特征来改善分类和回归,从而解决了类间的不平衡问题。
实验在两个基准上进行:PASCAL VOC和MS COCO。对于MS COCO,达到SOTA。
代码:https://github.com/Ranchentx/EFGRNet.
一.介绍
SSD
主要贡献:重新审视标准SSD框架,来共同解决多尺度目标检测和类不平衡的问题。
首先,引入一种特征丰富方案,以提高标准SSD预测层的识别能力。没有深化骨干模型,而是被设计来产生多尺度的上下文特征。
在此基础上,引入一个具有双目标的级联优化方案。首先,将多尺度上下文特征嵌入到自下而上的金字塔特征层次结构中的标准SSD预测层中。以此丰富特征使得对尺度变化更鲁棒。其次,利用丰富的特征进行类不可知分类和边界盒回归以实现精确定位,解决了类不平衡问题。然后,进一步利用初始盒回归和二元分类对相关的丰富特征进行细化,得到最终的分类得分和边界盒回归。
二.相关工作
目标检测
单阶段目标检测,SSD,特征金字塔,ResNeXT架构
类不平衡,RetinaNet,RefineDet
三.方法
本检测框架由三部分组成:标准SSD层、特征丰富(FE)方案和级联优化方案。
FE包含一个多尺度上下文特征模块(MSCF),用于处理尺度变化。FE产生多尺度上下文特征以提高标准SSD预测层的分辨能力。
级联优化方案利用多尺度文本和标准SSD特点,解决了类间的不平衡问题。通过对两个级联模块(即对象度模块(OM)和特征引导细化模块(FGRM))分别进行盒回归和分类,细化锚定和特征。对象模块(OM)根据对象与背景的二元分类,以及初始的框回归。然后,FGRM模块重新定义特征和锚定位置,以预测最终的多类分类和边界框定位。
如下图所示,使用VGG作为骨干网络时,框架的总体架构,只使用四个预测层(conv4 3、fc7、conv8 2、conv9 2)进行检测,而不是原始SSD中使用的六个层。将预测层增加到4层以上并不能提高我们的性能。
如上图所示,(a) 采用VGG骨干网的单级检测方法的总体架构。由三部分组成:标准SSD层、特征丰富方案和级联细化方案。特征丰富方案设计用于使用(b)中所示的MSCF模块提取多尺度上下文特征。然后将这些上下文特征注入SSD预测层(conv4 3),并使用自下而上的特征层次进一步传播到级联优化方案的对象模块中。对象模块还执行类不可知分类(C1x)和初始回归(B1x)。此外,与类无关的分类提供了一个对象映射,稍后在我们的级联优化方案的FGRM模块中使用,如(c)所示。FGRM模块生成用于预测最终分类(C2x)和边界盒回归(B2x)的最终优化特征。
1.FE
尽管SSD的卷积池化预先提供了一定程度的语义信息,但仍会丢失有助于区分目标区域和背景区域的低级特征信息。此外,每个预测层的恒定感受野只捕获固定的上下文信息。引入一个特征丰富(FE)方案来捕捉多尺度的上下文信息。首先使用简单的池操作对输入图像进行降采样,以使其大小与第一个SSD预测层的大小相匹配。然后,下采样图像通过我们的多尺度上下文特征(MSCF)模块。
1.1 MSCF
MSCF模块将下采样图像作为输入,并输出上下文增强的多尺度特征。下采样图像首先通过两个大小分别为3×3和1×1的连续卷积层,得到初始特征投影。然后,通过1×1卷积层将这些特征投影分割成低维分支。为了捕获多尺度的内容信息,我们使用了三个扩张卷积[40],对于不同的分支,扩张率分别设置为1、2和4。扩展卷积运算将初始特征投影转化为上下文增强的特征集。然后,这些转换后的特征通过一个级联操作聚合,并传递到一个1×1的卷积操作。MSCF的输出用于级联优化方案的目标模块(OM)。
扩张卷积:
以上,扩张率分别为1,2,4,添加间隔0,来扩大感受野。
2.Cascaded Refinement Scheme:级联优化方案
两个级联模块组成:对象化模块(OM)和特征引导细化模块(FGRM),OM模块使用多尺度内容信息丰富SSD特性,并识别可能的对象位置。利用多尺度的内容信息丰富特征可以提高小对象的性能,而在FGRM中使用对象预测来解决类不平衡问题。
2.1 OM
首先通过元素乘法操作,从conv4 3的MCSF模块中注入多尺度内容特性,从而丰富了SSD特性。然后,如图1(a)所示,我们引入自下而上的金字塔特征层次来将丰富的特征传播到随后的SSD预测层。对象模块采用3×3卷积运算,步长为2(D),将前一层的特征投影到当前层的空间分辨率和通道数。然后通过在每个预测层上执行投影特征和SSD特征之间的元素相乘来获得丰富的特征。最后,使用丰富的特征在每个预测层x处执行二元分类(C1x)和初始盒回归(B1x)。
如图2所示,分别是来自PASCAL VOC数据集的示例图像和来自标准SSD(第二列)、D之后的多尺度上下文特征(第三列)和丰富的特征(第四列)的对应fc7特征图。
2.2 FGRM
FGRM包括三个步骤:目标映射生成、核偏移提取和局部上下文信息提取。
对象映射生成:对象模块中的二进制分类器(C1x)输出将每个锚预测为对象/背景,用于生成突出显示可能的对象位置的对象映射O1x。我们在给定空间位置的所有锚的对象类别预测上沿着通道轴形成一个最大池操作,然后是一个Sigmod激活。结果,生成空间对象映射O1x,用于通过以下方式改进从对象模块获得的丰富特征,
圈点:元素乘法,Fm:改进后的丰富的特征。
核偏移提取:对象度和FGRM模块的盒回归预测四个输出值:分别为△x,△y,△h和△w。前两个值(△x,△y)对应于空间偏移量,后两个值(△w,△h)对应于空间维度的尺度偏移量。这里,使用(△x,△y)来指导FGRM中的特征细化,方法是估计核偏移量△pk 为,
f:1*1卷积 B:由OM预测的空间偏移量(△x,△y)
最后,内核偏移量用作可变形卷积的输入,以引导特征采样并与精化的anchors对齐。
局部上下文信息提取:为了进一步增强给定空间位置的文本信息,在FGRM中使用了扩张卷积。在具有步长8、16、32、64的SSD预测层上,我们将膨胀率分别设置为5、4、3和2。
总之,在FGRM中的所有操作之后获得的Frf的最终细化特征被表述为:
p0:最终细化特征图Frf中的每个空间位置,d:膨胀率。R:采样输入特征的规则网格(即,如果内核为3×3,则为1,R=(-1,-1),(-1,0),…,(0,1),(1,1))。
为了获得精确的锚定位置,利用从对象模块预测的偏移量(B1x)来细化原始锚定位置。因此,重新定义的位置和改进的特征Frf被用于执行多类分类(C2x)和盒回归(B2x)。
四。实验
数据集:PASCAL VOC 2007,MS COCO
PASCAL VOC 2007:
MS COCO :