为什么要使用3×3卷积？& 1*1卷积的作用是什么？& 对ResNet结构的一些理解

等天晴_

已于 2022-10-05 16:06:09 修改

阅读量2w

点赞数 30

分类专栏： python项目 #学习记录

于 2022-01-14 22:46:12 首次发布

本文链接：https://blog.csdn.net/weixin_45928096/article/details/122502882

版权

python项目同时被 2 个专栏收录

64 篇文章

订阅专栏

#学习记录

55 篇文章

订阅专栏

文章目录

1 为什么要使用3×3卷积？
2 为什么使用1×1卷积来降维
- 1*1卷积的应用

1 为什么要使用3×3卷积？

常见的卷积核大小有1×1、3×3、5×5、7×7，有时也会看到11×11，若在卷积层提取特征，我们通常选用3×3大小的卷积。
我们知道，两个3×3卷积核一个5×5卷积的感受野相同，三个3×3卷积和一个7×7卷积的感受野相同（通俗来讲，感受野就是可以提取到周围邻居个数的特征）
假设输入输出channel均为C，使用7×7卷积核所需参数为
$7×7×C×C = 49C^{2}$ 使用3×3卷积核所需参数为
$3×3×C×C + 3×3×C×C + 3×3×C×C = 27C^{2}$
可见在感受野相同的情况下，三个3×3卷积比一个7×7卷积所需参数要少很多，这无疑减少了模型的复杂度，加快了训练速度。
而且虽然感受野一样，但是3×3卷积的非线性程度更高，可以表示更复杂的函数；小的卷积核可以提取细小的特征，由小而大到比较抽象的特征。
但层数加深了，会产生有一串连锁效应，可能会效果提升，但也有可能变差，例如梯度消失。

1.1 ResNet 网络结构

ResNet结构如图所示
在这里插入图片描述
可见，在输入阶段使用了7x7卷积，作用实际上是用来直接对输入图片降采样(early downsampling)，那为什么不使用3个3×3卷积呢？
原因：
在进入ResidualBlock训练之前尽可能保留原图更多的信息。
注意像7x7这样的大卷积核一般只可能出现在input layer层，这种情况下通常图像的分辨率很高，图像的像素值的方差较小。
具体问题具体分析，也有实验表面在此使用三个3×3卷积比一个7×7卷积效果好。

1.2 为什么卷积通道数逐层增加，而不是逐层减少

vgg网络的设计也是如此。
我们对神经网络的认识是：把像素空间的信息转化为语义信息。
卷积核和池化使得图像长宽方向的信息逐渐减小，而卷积通道数逐层增加通道信息逐渐增加，这符合我们的认知。
下图vgg结构可以更好的帮助我们理解
在这里插入图片描述

2.3 ResidualBlock

在这里插入图片描述
左边就是一个典型的ResidualBlock，通过两个3×3的空间卷积，输入通道数等于输出通道数，相加即可，不需要做处理。
在右边我们看到了1×1卷积，它的作用是什么呢？
右图的ResidualBlock代表我们先对数据降维一次（通道数从256降维到64）、再对其进行空间卷积（3×3卷积核，通道数不变），再投影回256通道数，使得输入和输出维度匹配以便相加。
那为什么不直接使用一个3×3通道数为256的卷积？

2 为什么使用1×1卷积来降维

如果不适用1×1卷积，直接使用一个3×3通道数为256的卷积，改成的参数量为 $3 \times 3 \times 256 \times 256 = 589824$ 而使用1×1卷积降维后构建ResidualBlock有 $1 \times 1 \times 64 \times 256 + 3 \times 3 \times 64 \times 64 + 1 \times 1 \times 64 \times 256 = 69632$
由此可见，如果不增加1×1的卷积来降维，后续3×3卷积核所需的参数量会急剧增加。
此外，1×1卷积后通常加入非线性激活函数，也可以提高模型的表达能力。