CNN网络结构——池化层和全连接层

最新推荐文章于 2025-04-09 20:51:10 发布

龙王.*?

最新推荐文章于 2025-04-09 20:51:10 发布

阅读量8.8k

点赞数 8

分类专栏： math

math 专栏收录该内容

22 篇文章

订阅专栏

池化层

为什么引入池化层

通常，卷积层的超参数设置为：输出特征图的空间尺寸等于输入特征图的空间尺寸。这样如果卷积网络里面只有卷积层，特征图空间尺寸就永远不变。虽然卷积层的超参数数量与特征图空间尺寸无关，但这样会带来一些缺点。

空间尺寸不变，卷积层的运算量会一直很大，非常消耗资源。
卷积网络结构最后是通过全连接层输出分值向量的，如果空间尺寸一直不变，则全连接层的权重数量会非常巨大，导致过拟合。
前面几层的卷积层的输出存在大量冗余，如果空间尺寸不变，则冗余会一直存在，因此需要一种技巧来减小空间尺寸。

概述

池化是一种最常用的减小空间尺寸的技巧，它可以对输入的每一个特征图独立地降低其空间尺寸，而保持深度维度不变。
首先对特征图的每个局部窗口数据进行融合，得到一个输出数据，然后采用大于1的步长扫描特征图。最常见的局部窗口尺寸是2×2，有时也会采用3×3，步长是2会去除75%的神经元，步长如果采用3，则会去除88.89%的神经元，这过于剧烈，实践中不会采用。
池化层方法：

取平均
取最大值（常用）

下图展示了池化层操作示意图，输入特征图尺寸4×4×3被降采样到了2×2×3，采取的滤波器尺寸是2，步长为2。采用最大值池化，2×2的局部区域选取最大值。

池化层中很少使用0填充，因为本身就是为了减少图像尺寸。
卷积层同样可以达到池化层的效果来减少图像尺寸，通过调大步长即可。

为什么采用最大值方法

这是因为卷积层后接ReLU激活，ReLU激活函数把负值都变为0，正值不变，所以神经元的激活值越大，说明该神经元对输入局部窗口数据的反应越激烈，提取的特征越好。用最大值代表局部窗口的所有神经元，是很合理的。最大值操作还能保持图像的平移不变性，同时适应图像的微小变形和小角度旋转。

实现过程

池化层将每个局部窗口的数据转化为小矩阵，按行堆叠成大矩阵，然后每行取最大值得到大的列向量，最后转化为3D特征图。

输入3D特征图转化为矩阵X：局部区域转化为小矩阵。比如，输入是56×56×96，局部窗口尺寸为2×2，步长为2进行池化，取输入中的2×2×96局部数据块，将其转化为尺寸为96×4的小矩阵，注意是将96维的深度向量拉伸为一个列向量，共有4个深度向量。以步长为2扫描每一个局部窗口，所以输出的宽高均为(56-2)//2+1=28，共有28×28=784个局部窗口，784×96=75264个行向量，输出矩阵X的尺寸是75264×4。

最大值池化：提取大矩阵每行的最大值，matric_data. max(axis=1,keepdims=True)，即得到每个局部窗口的最大值。在本例中，这个操作的输出是大列向量 [75264×1]。

输出新3D特征图28×28×96，大列向量的每96个元素构成输出3D特征图的一个深度向量。

全连接层

概述

如果卷积网络输入是224×224×3的图像，经过一系列的卷积层和池化层（因为卷积层增加深度维度，池化层减小空间尺寸），尺寸变为7×7×512，之后需要输出类别分值向量，计算损失函数。假设类别数量是1000（ImageNet是1000类），则分值向量可表示为特征图1×1×1000。如何将7×7×512的特征图转化为1×1×1000的特征图呢？最常用的技巧是全连接方式，即输出1×1×1000特征图的每个神经元（共1000个神经元）与输入的所有神经元连接，而不是局部连接。每个神经元需要权重的数量为7×7×512=25088，共有1000个神经元，所以全连接层的权重总数为：25088×1000=25088000，参数如此之多，很容易造成过拟合，这是全连接方式的主要缺点。

全连接层的实现方式有两种。一种方式是把输入3D特征图拉伸为1D向量，然后采用常规神经网络的方法进行矩阵乘法；另一种方式是把全连接层转化成卷积层，这种方法更常用，尤其是在物体检测中。

全连接转为卷积

全连接层和卷积层中的神经元都是计算点积和非线性激活，函数形式是一样的，唯一的差别在于卷积层中的神经元只与输入数据中的一个局部区域连接，并且采用参数共享；而全连接层中的神经元与输入数据中的全部区域都连接，并且参数各不相同。因此，两者是可能相互转化的。

卷积层转换为全连接层

将不是局部区域的权重全部设为0即可。

全连接层转化为卷积层

比如，一个全连接层，输入特征图是7×7×512，输出特征图是1×1×1000，这个全连接层可以等效为一个卷积层：F=7, P=0,S=1, K=1000。即将卷积核的尺寸设置为和输入特征图的空间尺寸一致，不需要0填充，也不需要滑动卷积窗口，所以输出空间尺寸为1，只有一个单独的深度向量，所以输出变成1×1×1000。

(batch,in_height,in_width,in_depth) = (8,32,48,16)
size = in_depth*in_height,in_width  #一张图片拉伸为1D的大小
in_data = np,random.randn(batch,in_height,in_width,in_depth)
matrice_data = np.zeros((batch,size))
for i in range(batch):
    matrice_data[i] = in_data[i].ravel()   #拉伸为一维
out_depth = 10 #最后分成10类
kerns = np.random.randn(size,out_depth)
bians = np.random.randn(1,out_depth)
filter_data = np.dot(matrice_data,kerns) + bians
out_data = np.maximum(0,filter_data)  #Relu激活