Scale-Equalizing Pyramid Convolution for Object Detection 论文阅读笔记

  • 这是CVPR2020的一篇文章

  • 提出一种3D的卷积,除了在H和W维度,希望在scale维度,也就是pyramid的特征图上进行一种特殊的卷积,能够同时考虑多个scale的pyramid feature。现有方法对pyramid feature一般是之间放缩后相加,不同scale的feature平均地贡献,并且也不考虑pyramid feature之间的联系。这种卷积成为PConv
  • 本文提出的卷积希望用在一种称为高斯pyramid的feature pyramid,定义是经过高斯模糊核后下采样的特征图。而卷积神经网络产生的pyramid通常离希望的高斯pyramid差得多,因为首先下采样前经过了很多层卷积,相当于一个很大的高斯核(感受野很大);其次,非线性层的存在也改变了特征图的值;为了解决这两个问题,提出了 scaleequalizing pyramid convolution (SEPC)
  • 个人觉得文章的表述不是很流畅易懂,看起来很吃力,语义不是很明确,总之文章贡献如下:

在这里插入图片描述

  • 其实我觉得也不能算一种新的卷积,只是一种新的结构吧,而且这种结构可以兼容原有网络结构,可以认为retinaNet就是scale维度的kernel size为1的PConv,如图:
    在这里插入图片描述
  • 在前面的网络提取完P3到P7的特征图后,一般的网络就分别对P3到P7进行卷积或者用上采用和加法把不同的scale的特征图进行特征融合,反正结果是P3-P7成为了新的P3-P7,然后各自进行分类值和回归值的预测。而PConv把P3到P7当成一个新的维度,用3D卷积对这个维度也进行卷积,kernel size是3,然后zero padding相当于边缘的P3和P7只对两个pyramid 特征进行卷积。然后不同pyramid尺度不一样怎么办呢。就有了下面的公式:
    在这里插入图片描述
  • 这里 s 0.5 x l + 1 s0.5x^{l+1} s0.5xl+1的意思就是对scale小的进行上采样,造成一种stride为0.5的效果, s 2 x l − 1 s2x^{l-1} s2xl1意思就是对scale大的进行stride为2的卷积,这样产生的三个特征图才一样大,可以加到一起去成为 y l y^l yl
  • 原本retina net在把特征图分开成两支后分别对每支进行了5次卷积产生了一支分类结果和一支回归结果,而PConv将分叉点延后了,前面几次还是先不分开,分开后只进行了两次卷积产生了分类结果和回归结果,之所以这么做是因为PConv计算复杂度比较高,在这里这样设计可以轻便一点进行补偿:

在这里插入图片描述

  • 此外,由于是3D的卷积,所以用了3D的batchNormalization,不再对每个pyramid的feature map计算均值方差,而是对所有pyramid 的feature map只计算一个,因此均值和方差的波动更小了(考虑了更多的数据),可以使用更小的batch size(batch normalization一般需要大点的batch size,否则均值和方差波动较大,训练不是很高效)。
  • 上述设计其实还遗留了一个问题,每一个PConv kernel对scale维度的每个的kernel size是一样的,然而这样简单的设计只适用于Gaussian pyramid,也就是说Gaussian pyramid能保证这个3D的卷积核在每个尺度的特征图上具有相同的感受野(相对原图片来说),只有这样才是合理的,然而实际上这些不同尺度的feature map并非Gaussian pyramid(Gaussian模糊核是必要的,是为了下采样避免出现高频噪声;模糊核的大小应该和下采样的scale相匹配,这样才能保证感受野对于PConv来说不变;然而P3-P7并非Gaussian pyramid,至少感受野的变化上上已经相当于一个很大的高斯模糊核而并非Gaussian pyramid所需的高斯模糊核大小)
  • 为了解决上面的问题,PConv使用deformable Conv(另一篇文章的方法)来进行自适应的dilation conv,也就是说当Pconv对P3P4进行卷积产生新的P3’时,为普通的3x3卷积,当Pconv对P3P4P5进行卷积产生新的P4’时,卷积的基础dilation rate会变大一点,而这根据deformable conv进行自适应的预测,越高就越大,这样才能保证在scale这个维度上的卷积是合理的。
  • 在这里插入图片描述
  • 还有一个地方要解释的,就是原文说,非线性层使得对不同的pixel有不同的感受野,这里的感受野应该指的是有效感受野,也就是说每个pixel的值不同,使得经过非线性层后相当于被卷积核考虑的权重不同了,这样有效感受野也变得不同。因此本文才使用deformable的卷积而非固定dilation 的卷积。
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值