一、池化层作用
最早出现池化这个概念,是在feature coding中,最初的编码方式是矢量量化VQ,然后直接送到SVM中,但由于特征本身语义不高,这样的编码方式会造成比较大的误差。于是稀疏编码被提出,掀起了特征编码的浪潮。稀疏编码减小了量化误差,效果十分显著。刚开始pooling比较直接,sum就是对每一列求和,max就是求最大,因为矩阵里面的数值强度表现这个词本身的响应,所以对响应不同的操作会得到不同的结果。
Pooling 对于输入的 Feature Map,选择某种方式对其进行降维压缩,以加快运算速度。
Pooling的两个主要作用:
- 保持不变性(旋转,平移,尺度)
- 去除冗余信息,减少参数,防止过拟合。
二、池化相关算法
1.最大池化与平均池化
最大池化直接取特征区域内得最大值,而平均池化取特征区域内所有值的均值,是两种算法简单的池化方法。
2.重叠池化
重叠池化引入了空间金字塔的思想,将池化层的输出扩充为多级较小的特征,采用稀疏编码进行多级特征的融合,降低了池化层输出的特征维度。传统的池化策略输出的是单一大小的特征映射,而多级的输出已经显示了对目标形变的鲁棒性,所以结合多级金字塔的池化策略也是可以提高深度网络性能的。
3.空金字塔池化
空间金字塔池化可以把任何尺度的图像的卷积特征转化成相同维度,这不仅可以让CNN处理任意尺度的图像,还能避免cropping和warping操作,导致一些信息的丢失,具有非常重要的意义。 一般的CNN都需要输入图像的大小是固定的,这是因为全连接层的输入需要固定输入维度,但在卷积操作是没有对图像尺度有限制,所有作者提出了空间金字塔池化,先让图像进行卷积操作,然后转化成维度相同的特征输入到全连接层,这个可以把CNN扩展到任意大小的图像。
4.双线性池化
bilinear pooling在2015年于《Bilinear CNN Models for Fine-grained Visual Recognition》被提出来用于fine-grained分类后,又引发了一波关注。bilinear pooling主要用于特征融合,对于从同一个样本提取出来的特征 x和特征 y ,通过bilinear pooling得到两个特征融合后的向量,进而用来分类。
如果特征x和特征y来自两个特征提取器,则被称为多模双线性池化(MBP,Multimodal Bilinear Pooling);如果特征 x =特征 y,则被称为同源双线性池化(HBP,Homogeneous Bilinear Pooling)或者二阶池化(Second-order Pooling)。
直观上理解,所谓bilinear pooling,就是先把在同一位置上的两个特征双线性融合(相乘)后,得到矩阵 b ,对所有位置的 b 进行sum pooling(也可以是max pooling,但一般采用sum pooling以方便进行矩阵运算)得到矩阵 a ,最后把矩阵 a 张成一个向量,记为bilinear vector x 。对x进行矩归一化操作和L2归一化操作后,就得到融合后的特征 z 。