SPP(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

最新推荐文章于 2024-05-23 17:21:34 发布

fourye007

最新推荐文章于 2024-05-23 17:21:34 发布

阅读量2w

点赞数 36

分类专栏： deep-learning 文章标签： SPP deep-learning RCNN 目标检测目标检测-分类器

本文链接：https://blog.csdn.net/yzf0011/article/details/75212513

版权

deep-learning 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

Introduction

在一般的CNN结构中，在卷积层后面通常连接着全连接。而全连接层的特征数是固定的，所以在网络输入的时候，会固定输入的大小(fixed-size)。但在现实中，我们的输入的图像尺寸总是不能满足输入时要求的大小。然而通常的手法就是裁剪(crop)和拉伸(warp)。

这样做总是不好的：图像的纵横比(ratio aspect) 和输入图像的尺寸是被改变的。这样就会扭曲原始的图像。而Kaiming He在这里提出了一个SPP(Spatial Pyramid Pooling)层能很好的解决这样的问题，但SPP通常连接在最后一层卷基层。

CNN一般结构和SPP结构

SPP 显著特点

1) 不管输入尺寸是怎样，SPP 可以产生固定大小的输出
2) 使用多个窗口(pooling window)
3) SPP 可以使用同一图像不同尺寸(scale)作为输入, 得到同样长度的池化特征。

其它特点

1) 由于对输入图像的不同纵横比和不同尺寸，SPP同样可以处理，所以提高了图像的尺度不变(scale-invariance)和降低了过拟合(over-fitting)
2) 实验表明训练图像尺寸的多样性比单一尺寸的训练图像更容易使得网络收敛(convergence)
3) SPP 对于特定的CNN网络设计和结构是独立的。(也就是说，只要把SPP放在最后一层卷积层后面，对网络的结构是没有影响的，它只是替换了原来的pooling层)
4) 不仅可以用于图像分类而且可以用来目标检测

使用SPP的CNN

Convolutional Layers and Feature Maps

作者使用上图意在说明保留原图片的尺寸对实验的特征提取和结果都很重要

The Spatial Pyramid Pooling Layer

SPP原理
为什么会得固定大小的输出？
注意我们上面曾提到使用多个窗口(pooling窗口，上图中蓝色，青绿，银灰的窗口，然后对feature maps 进行pooling，将分别得到的结果进行合并就会得到固定长度的输出), 这就是得到固定输出的秘密原因。
我们接下来用一个例子来弄懂这张图

Single-size network

我们先假定固定输入图像的尺寸 $s=224$ , 而此网络卷积层最后输出 $256$ 层feature-maps，且每个feature-map大小为 $13\times13(a = 13)$ ，全连接层总共 $256 \times (9 + 4 + 1)$ 个神经元, 即输全连接层输入大小为 $256 \times (9 + 4 + 1)$ 。即我们需要在每个feature-map的到一个数目为( $f = 9 + 4 + 1$ )的特征。
由于pooling窗口( $w\times w$ )很明显如果我们用一个pooling窗口怎么也很难得到 $f = 9 + 4 + 1$ ,再加上如果输入图像尺度变化的话，是根本不可能。
这里用了3个pooling窗口( $w \times w$ ), 而对应的pooling stride 为 $t$ , 经多这3个窗口pooling池化得到3个 $n \times n, n = 3, 2, 1$ 的结果。
饼画好了，怎么得到我们的窗口大小 $w$ 和stride $t$ 呢？

w = ⌈ a / n ⌉ = ⌈ 13 / 3 ⌉ = 5

$w = \lceil a / n \rceil = \lceil 13 / 3\rceil = 5$

t = ⌊ a / n ⌋ = ⌊ 13 / 3 ⌋ = 4

$t = \lfloor a / n\rfloor= \lfloor 13 / 3\rfloor = 4$

n=2,n=1 $n = 2, n = 1$ 以此类推，将3个pooling后的结果合并，很容易发现和我们的期望一致。
这里写图片描述

muti-size training(证明其可能性)

有这一公理以及其推理：
公理：任何一个数都可以写成若干个数的平方和。

a = a 21 + a 22 . . . .

$a = a_1^2 + a_2^2 ....$
推理：任何一个数的平方（为一个数）可以表达成若干个数的平方和

a 2 = b = a 21 + a 22 . . . .

$a^2 = b = a_1^2 + a_2^2 ....$
由于我们的输入图像尺寸是多样的，致使我们在最后一层得到的每个featrue-map大小为

a×b $a \times b$ (

a $a$ 和

b $b$ 大小是可变的)且feature-maps数为

c $c$ ，我们全连接层的输入为

c×f $c \times f$ , 也就是我们每个feature-map 要得到

f $f$ 个特征。
由公理可得

f = \sum i = 1 n 2 i

$f = \sum_{i = 1} n_i^2$
我设计窗口大小为(

w1,w2 $w_1, w_2$ 分别为窗口的宽和高)

w 1 = ⌈ a / n ⌉

$w_1 = \lceil a / n \rceil$

w 2 = ⌈ b / n ⌉

$w_2 = \lceil b / n \rceil$
则对应的stride(

t1,t2 $t_1, t_2$ 分别水平stride和竖直stride)

t 1 = ⌊ a / n ⌋

$t_1 = \lfloor a / n\rfloor$

t 2 = ⌊ b / n ⌋

$t_2 = \lfloor b / n\rfloor$
证:得到的pooling结果为

n×n $n \times n$
pooling 水平移动(

n1 $n1$ 为一行得到特征数)
设

a=kn+p $a = kn + p$ , 则

⌈a/n⌉=k+1,⌊a/n⌋=k $\lceil a / n \rceil = k + 1, \lfloor a / n\rfloor = k$
当

p>=1: $p >= 1:$

n 1 = (a - w 1) / t 1 + 1 = (k n + p - ⌈ a / n ⌉) / ⌊ a / n ⌋ + 1 = (k n + p - (k + 1)) / k + 1 = n

$\begin{align*} n1&=(a - w_1) / t_1 + 1\\ &=(kn + p - \lceil a / n \rceil) / \lfloor a / n\rfloor + 1\\ &=(kn + p - (k + 1)) / k + 1\\ &= n \end{align*}$
当

p=0: $p = 0:$ , 则

a=kn,⌈a/n⌉=⌊a/n⌋=k $a = kn, \lceil a / n \rceil = \lfloor a / n\rfloor = k$

n 2 = (a - w 1) / t 1 + 1 = (k n - ⌈ a / n ⌉) / ⌊ a / n ⌋ + 1 = (k n - k) / k + 1 = n

$\begin{align*} n2&=(a - w_1) / t_1 + 1\\ &=(kn - \lceil a / n \rceil) / \lfloor a / n\rfloor + 1\\ &=(kn - k) / k + 1\\ &= n \end{align*}$
所以：

n1=n $n1 = n$
pooling 竖直移动(

n2 $n2$ 为一列得到特征数)
很容易证，竖直移动时，

n2=n $n2 = n$
得证结果

n×n $n \times n$
得证pooling输出的结果固定为 $f=\sum_{i = 1}n_i^2$

想必大家此时此刻应该弄懂SPP.

SPP分类

作者在分类的时候得到如下几个结果
1) 多窗口的pooling会提高实验的准确率
2) 输入同一图像的不同尺寸，会提高实验准确率(从尺度空间来看，提高了尺度不变性(scale invariance))
3) 用了多View(multi-view)来测试，也提高了测试结果
4)图像输入的尺寸对实验的结果是有影响的(因为目标特征区域有大有有小)
5)因为我们替代的是网络的Poooling层，对整个网络结构没有影响，所以可以使得整个网络可以正常训练。

SPP目标检测

是基于RCNN而改进的，现在有比其更快的Fast-RCNN, 和Faster-RCNN。我们在这里主要提出论文中的重要的点。
1) 在目标检测中，许多实验可以从feature-maps中使用窗口，来提取目标特征。见原文描述：
regions of the feature maps, while R-CNN extracts directly from image regions. In previous works, the Deformable Part Model (DPM) [23] extracts features from windows in HOG [24] feature maps, and the Selective Search (SS) method [20] extracts from win- dows in encoded SIFT feature maps. The Overfeat detection method [5] also extracts from windows of deep convolutional feature maps, but needs to pre- define the window size. On the contrary, our method enables feature extraction in arbitrary windows from the deep convolutional feature maps.
2)接下来分析目标检测的整体过程：
这里写图片描述
从上面的描述，我们应该懂了作者的意思。作者是整体先对整张图片进行卷积然后，在把其中的目标窗口拿出来Pooling，得到的结果用作全连接层的输入。
特点：只需要计算一次卷积层，训练速度快。
其它细节看论文。

注明：转载请注明出处

有误的请指出，诚谢

fourye007

关注

36
点赞
踩
146

收藏

觉得还不错? 一键收藏
7
评论
SPP(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

Introduction在一般的CNN结构中，在卷积层后面通常连接着全连接。而全连接层的特征数是固定的，所以在网络输入的时候，会固定输入的大小(fixed-size)。但在现实中，我们的输入的图像尺寸总是不能满足输入时要求的大小。然而通常的手法就是裁剪(crop)和拉伸(warp)。这样做总是不好的：图像的纵横比(ratio aspect) 和输入图像的尺寸是被改变的。这样就会扭曲原始的图
复制链接

扫一扫