Abstract
在CNNs中pooling的作用:dimensionality reduction and deformation compensation.
但是存在问题:its excessive flexibility risks canceling the essential spatial differences between classes.(过度灵活性可能会抵消类之间的本质空间差异)
提出:regularized pooling,提高了识别精度,而且加快了学习的收敛速度。
1 Introduction
motivation:
Most of the actual deformations are topology-preserving, i.e., spatially continuous within each object region; if a part of an object shifts to a certain direction, its neighboring part also shifts to a similar direction.
max pooling中的箭头指的是中心位置到最大值的方向,可以看到max pooling中箭头的指向比较杂乱无章。
而作者提出的regularized pooling则比较有序。
从可视化结果中可以看出,regularized pooling较max pooling能保留更多的结构信息。
2 Related Work
2.1 Traditional pooling operations
MP2-pooling(2x2 max pooling)、fractional max pooling (FMP) 、S3Pool、 mixed pooling 、polynomial pooling (P-pooling)
2.2 Recent pooling operations
spatial pyramid pooling(SPP)、Local Importance-based Pooling (LIP)
作者提出的池化:考虑了空间信息,调节了池化的方向,使池化在相邻内核之间均匀化。
3 Regularized Pooling
regularized pooling与max pooling最大的不同:不是选取一个kernel中的最大值
- 首先按照max pooling操作的方式计算出位移方向 Δ i , j \Delta_{i,j} Δi,j
- 之后在平滑窗口 w w w 内取平均得到正则化后的位移方向
公式太乱!!以下是看代码后自己理得思路:
所以 最终的偏移
(
x
,
y
)
=
(
0
,
1
)
(x,y) = (0,1)
(x,y)=(0,1),即2指向7。
4 Experiment on Character Images
数据集:
- MNIST:28x28,60000 train,10000test
- EMNIST:37类,大小写,88800train,14800test
4.2 Experimental setup
VGG,dropout=0.25,随机初始化网络参数计算5次得到平均值,图片先resize成60x60,在pooling时no-padding
SGD,CEloss
MNIST:lr= 1 0 − 2 10^{-2} 10−2,EMNIST:lr= 1 0 − 4 10^{-4} 10−4,
epoch=50,batch size=100
4.3 Performance comparison with traditional pooling methods
n = 5 , w = 3 , s = 5 n=5,w=3,s=5 n=5,w=3,s=5
更快收敛。精度提升在这里没有很明显?
4.4 Qualitative evaluation
regularized pooling更好地保留了字符的形状和轮廓。
对于混淆的配对,规则化的配对减少了错误认知,而对于简单配对,三种配对方法没有显著差异。这些结果表明,正则化池通过抑制过度补偿来保持输入特征图的详细结构,从而有效地区分具有细微结构差异的类对。
4.5 Effect of hyper parameters
n对结果的影响比 w w w 更显著
随着n的增加,regularized pooling与max pooling之间的差异会越来越大。因为n越大,max pooling的 over-compensation 就会越强,而regularized pooling则有效抑制了过度补偿。
较小的stride可以带来更好的performance。
5 Experiment on Texture Images
该实验主要是验证regularized pooling在哪种纹理数据集上有效。
Kylberg texture dataset :28类,每类有160个样本,其中28x112=5376用于训练,48x28=1344用于测试
灰度图,576x576,resize成256x256,Adam,batch size=32