论文:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
论文地址:https://arxiv.org/pdf/1406.4729.pdf
论文目的:
所有的神经网络都是需要输入固定尺寸的图片,比如224224(ImageNet)、3232(LenNet)、96*96等。这样对于我们希望检测各种大小的图片的时候,需要经过crop,或者warp等一系列操作,这都在一定程度上导致图片信息的丢失和变形,限制了识别精确度。
上图为传统卷积与SPPnet网络结构
输入图片尺寸固定原因:
卷积层的参数和输入大小无关,它仅仅是一个卷积核在图像上滑动,不管输入图像多大都没关系,只是对不同大小的图片卷积出不同大小的特征图,但是全连接层的参数就和输入图像大小有关,因为它要把输入的所有像素点连接起来,需要指定输入层神经元个数和输出层神经元个数,所以需要规定输入的feature的大小。
方法研究:Spatial Pyramid Pooling(空间金字塔池化)
上图为整个网络结构,分为卷积块,SPPnet结构,全连接(fc6,fc7)
整个网络结构解析:卷积层输入的任意大小的图片,所以Conv5计算出的feature map也是任意大小的,现在经过SPP之后,就可以变成固定大小的输出了,以上图为例,一共可以输出(16+4+1)*256的特征,16+4+1表示空间盒的数量(Spatial bins),256则表示卷积核的数量(Conv5的channel 数)。