Scale-Equalizing Pyramid Convolution for Object Detection 论文阅读笔记-CSDN博客

本文链接：https://blog.csdn.net/weixin_44326452/article/details/117043165

这是CVPR2020的一篇文章

提出一种3D的卷积，除了在H和W维度，希望在scale维度，也就是pyramid的特征图上进行一种特殊的卷积，能够同时考虑多个scale的pyramid feature。现有方法对pyramid feature一般是之间放缩后相加，不同scale的feature平均地贡献，并且也不考虑pyramid feature之间的联系。这种卷积成为PConv
本文提出的卷积希望用在一种称为高斯pyramid的feature pyramid，定义是经过高斯模糊核后下采样的特征图。而卷积神经网络产生的pyramid通常离希望的高斯pyramid差得多，因为首先下采样前经过了很多层卷积，相当于一个很大的高斯核（感受野很大）；其次，非线性层的存在也改变了特征图的值；为了解决这两个问题，提出了 scaleequalizing pyramid convolution (SEPC)
个人觉得文章的表述不是很流畅易懂，看起来很吃力，语义不是很明确，总之文章贡献如下：

在这里插入图片描述

其实我觉得也不能算一种新的卷积，只是一种新的结构吧，而且这种结构可以兼容原有网络结构，可以认为retinaNet就是scale维度的kernel size为1的PConv，如图：
在前面的网络提取完P3到P7的特征图后，一般的网络就分别对P3到P7进行卷积或者用上采用和加法把不同的scale的特征图进行特征融合，反正结果是P3-P7成为了新的P3-P7，然后各自进行分类值和回归值的预测。而PConv把P3到P7当成一个新的维度，用3D卷积对这个维度也进行卷积，kernel size是3，然后zero padding相当于边缘的P3和P7只对两个pyramid 特征进行卷积。然后不同pyramid尺度不一样怎么办呢。就有了下面的公式：
这里 $s0.5x^{l+1}$ 的意思就是对scale小的进行上采样，造成一种stride为0.5的效果， $s2x^{l-1}$ 意思就是对scale大的进行stride为2的卷积，这样产生的三个特征图才一样大，可以加到一起去成为 $y^l$
原本retina net在把特征图分开成两支后分别对每支进行了5次卷积产生了一支分类结果和一支回归结果，而PConv将分叉点延后了，前面几次还是先不分开，分开后只进行了两次卷积产生了分类结果和回归结果，之所以这么做是因为PConv计算复杂度比较高，在这里这样设计可以轻便一点进行补偿：

在这里插入图片描述

此外，由于是3D的卷积，所以用了3D的batchNormalization，不再对每个pyramid的feature map计算均值方差，而是对所有pyramid 的feature map只计算一个，因此均值和方差的波动更小了（考虑了更多的数据），可以使用更小的batch size（batch normalization一般需要大点的batch size，否则均值和方差波动较大，训练不是很高效）。
上述设计其实还遗留了一个问题，每一个PConv kernel对scale维度的每个的kernel size是一样的，然而这样简单的设计只适用于Gaussian pyramid，也就是说Gaussian pyramid能保证这个3D的卷积核在每个尺度的特征图上具有相同的感受野（相对原图片来说），只有这样才是合理的，然而实际上这些不同尺度的feature map并非Gaussian pyramid（Gaussian模糊核是必要的，是为了下采样避免出现高频噪声；模糊核的大小应该和下采样的scale相匹配，这样才能保证感受野对于PConv来说不变；然而P3-P7并非Gaussian pyramid，至少感受野的变化上上已经相当于一个很大的高斯模糊核而并非Gaussian pyramid所需的高斯模糊核大小）
为了解决上面的问题，PConv使用deformable Conv（另一篇文章的方法）来进行自适应的dilation conv，也就是说当Pconv对P3P4进行卷积产生新的P3’时，为普通的3x3卷积，当Pconv对P3P4P5进行卷积产生新的P4’时，卷积的基础dilation rate会变大一点，而这根据deformable conv进行自适应的预测，越高就越大，这样才能保证在scale这个维度上的卷积是合理的。
还有一个地方要解释的，就是原文说，非线性层使得对不同的pixel有不同的感受野，这里的感受野应该指的是有效感受野，也就是说每个pixel的值不同，使得经过非线性层后相当于被卷积核考虑的权重不同了，这样有效感受野也变得不同。因此本文才使用deformable的卷积而非固定dilation 的卷积。