CNN图像的尺寸和参数计算（深度学习）

最新推荐文章于 2024-07-11 16:32:53 发布

老三是只猫

最新推荐文章于 2024-07-11 16:32:53 发布

阅读量5.1k

点赞数 7

分类专栏：深度学习

本文链接：https://blog.csdn.net/zhonglongshen/article/details/116457890

版权

深度学习专栏收录该内容

26 篇文章 2 订阅

订阅专栏

分享一些公式计算张量的尺寸，以及CNN中参数的计算。
以Alexnet网络为例，以下是该网络的参数结构图。
在这里插入图片描述
AlexNet网络的层结构如下：
1.Input: 图像的尺寸是2272273.

2.Conv-1: 第1层卷积层的核大小11*11，96个核。步长(stride)为4，边缘填充（padding）为0。

3.MaxPool-1: 池化层-1对Conv-1进行池化，尺寸为3*3，步长为2.

4.Conv-2: 核尺寸：5*5，数量：256，步长：1，填充：2

5.MaxPool-2: 尺寸：3*3，步长：2

6.Conv-3: 核尺寸：3*3，数量：384，步长：1，填充：1

7: Conv-4: 结构同Conv-3.

Conv-5: 核尺寸：3*3，数量：256，步长：1，填充：1
MaxPool-3: 尺寸：3*3，步长：2

10.FC-1: 全连接层1共有4096个神经元。

11.FC-1: 全连接层2共有4096个神经元。

12.FC-3: 全连接层3共有1000个神经元。

接下来，我们对以上的网络结构进行描述：

1.如何计算张量（图像）的尺寸；

2.如何计算网络的总参数；

卷积层（Conv Layer）的输出张量的大小
定义如下：
O=输出图像的尺寸
I=输入图像的尺寸
K=卷积层的核尺寸
N=核数量
S=移动步长
P=填充数

输出图像尺寸的计算公式如下：
在这里插入图片描述
输出图像的通道数等于核数量N。
示例：AlexNet中输入图像的尺寸为2272273.第一个卷积层有96个尺寸为11113的核。步长为4，填充为0.

输出的图像为55x55x96（每个核对应1个通道）。

池化层（MaxPool Layer）的输出张量（图像）的大小
定义如下：
O=输出图像的尺寸。
I=输入图像的尺寸。
S=移动步长
PS=池化层尺寸
输出图像尺寸的计算公式如下：
在这里插入图片描述
不同于卷积层，池化层的输出通道数不改变。

示例：每1层卷积层后的池化层的池化层尺寸为33，步长为2。根据前面卷积层的输出为5555*96。池化层的输出图像尺寸如下：
在这里插入图片描述
输出尺寸为27x27x96.

全连接层（Fully Connected Layer）的输出张量（图像）的大小

全连接层输出向量长度等于神经元的数量。

通过AlexNet改变张量（图像）的尺寸的结构如下:

在AlexNet网络中，输出的图像尺寸为2272273.

Conv-1,尺寸变为555596,池化层后变为272796。

Conv-2,尺寸变为2727256,池化层后变为1313256.

Conv-3,尺寸变为1313384,经过Conv-4和Conv-5变回1313256.

最后,MaxPool-3尺寸缩小至66256.

图像通过FC-1转换为向量40961.通过FC-2尺寸未改变.最终,通过FC-3输出10001的尺寸张量.

接下来,计算每层的参数数量.

Conv Layer参数数量

在CNN中，每层有两种类型的参数：weights核biases。总参数数量为所有weights核biases的总和。
定义如下：
WC=卷积层的weights数量

BC=卷积层的biases数量

PC=所有参数的数量

K=核尺寸

N=核数量

C =输入图像通道数
卷积层中,核的深度等于输入图像的通道数.于是每个核有K*K个参数.并且有N个核.由此得出以下的公式.

在这里插入图片描述
示例:AlexNet网络中,第1个卷积层,输入图像的通道数©是3,核尺寸(K)是11*11,核数量是96. 该层的参数计算如下：

在这里插入图片描述
计算出Conv-2, Conv-3, Conv-4, Conv-5 的参数分别为 614656 , 885120, 1327488 和884992.卷积层的总参数就达到3,747,200.

Fully Connected (FC) Layer参数数量
在CNN中有两种类型的全连接层.第1种是连接到最后1个卷积层,另外1种的FC层是连接到其他的FC层.两种情况我们分开讨论.

类型1:连接到Conv Layer

定义如下:

Wcf= weights的数量

Bcf= biases的数量
O= 前卷积层的输出图像的尺寸

N = 前卷积层的核数量

F = 全连接层的神经元数量

在这里插入图片描述
示例: AlexNet网络中第1个FC层连接至Conv Layer.该层的O为6,N为256,F为4096.

参数数目远大于所有Conv Layer的参数和.
类型2:连接到FC Layer

定义如下:

Wff= weights的数量

Bff= biases的数量

Pff= 总参数的数量

F= 当前FC层的神经元数量

F-1 = 前FC层的神经元数量

在这里插入图片描述
示例:AlexNet的最后1个全连接层, F-1=4096,F=1000 .

在这里插入图片描述

1*1卷积理解

1.增加网络的深度，添加非线性

其一：
其一：

这个就比较好理解了，1x1 的卷积核虽小，但也是卷积核，加 1 层卷积，网络深度自然会增加。

其实问题往下挖掘，应该是增加网络深度有什么好处？为什么非要用 1x1 来增加深度呢？其它的不可以吗？

其实，这涉及到感受野的问题，我们知道卷积核越大，它生成的 featuremap 上单个节点的感受野就越大，随着网络深度的增加，越靠后的 featuremap 上的节点感受野也越大。因此特征也越来越形象，也就是更能看清这个特征是个什么东西。层数越浅，就越不知道这个提取的特征到底是个什么东西。

在这里插入图片描述
解释：

好比以上这个图，当层数越浅时，我们只能看到low level parts 也就是一些细节的纹理，并不知道这个纹理是来自于车轮，车身，还是其他哪里。但是随着网络层数的加深，感受野增大，到了mid level parts时，就可以看到车的一部分零件了，比如看到了车轮，车窗，但是看不完。到了层数很深后，就是high level parts了，可以看到这个物品是个完整的车子，或者是其他一个什么东西。
其二：

但有的时候，我们想在不增加感受野的情况下，让网络加深，为的就是引入更多的非线性。而 1x1 卷积核，恰巧可以办到。

我们知道，卷积后生成图片的尺寸受卷积核的大小和卷积核个数影响，但如果卷积核是 1x1 ，个数也是 1，那么生成后的图像长宽不变，厚度为1。

但通常一个卷积层是包含激活和池化的。也就是多了激活函数，比如 Sigmoid 和 Relu。

所以，在输入不发生尺寸的变化下，加入卷积层的同时引入了更多的非线性，这将增强神经网络的表达能力。