深度学习之【pytorch入门】——三文带你理解深度学习卷积神经网络

最新推荐文章于 2023-06-12 11:48:50 发布

Delv_Peter

最新推荐文章于 2023-06-12 11:48:50 发布

阅读量396

点赞数

分类专栏：深度学习——综合文章标签：神经网络机器学习计算机视觉

本文链接：https://blog.csdn.net/weixin_45709330/article/details/105034921

版权

深度学习——综合专栏收录该内容

10 篇文章 1 订阅

订阅专栏

神经网络之卷积神经网络

文章目录

神经网络之卷积神经网络

什么是卷积神经网络？

示意图：
在这里插入图片描述

再了解卷积神经网络之前我们先了解一下什么叫卷积

什么是卷积？

参考:
https://baike.baidu.com/item/%E5%8D%B7%E7%A7%AF/9411006?fr=aladdin
https://www.zhihu.com/question/22298352
https://www.matongxue.com/madocs/32.html
https://blog.csdn.net/stdcoutzyx/article/details/41596663

卷积是数学当中的一个运算。表示了通过两个函数 $f$ 和 $g$ 生成第三个函数的一种运算，表示的意思是 $f$ 和 $g$ 函数经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。可以理解为是离散数学中的关系运算,数学表达式如下(连续卷积)：
$h(x)=\int^{\infty}_{-\infty}f(x)g(x-\tau)d\tau$
这个积分所定义的函数 $h (x)$ 就是 $f$ 和 $g$ 两函数的卷积运算，记为 $(f * g) (x)$
可以理解为离散中一种新的关系运算

卷积表示的是两个变量在某范围内相乘后求和结果(类似点乘)，如果两个函数为序列则有如下表达(离散卷积)：
$\sum^{\infty}_{i=-\infty}x(i)h(n-i)=x(n)*h(n)$

卷积特征： $x=\tau+(x-\tau)$

连续卷积的例子:做馒头
假设馒头生产速度是 $f (t)$ ，那么一天后生产的馒头总量是
$\int ^{24}_0f(t)dt$
馒头生产出来后会慢慢腐败，假设腐败函数 $g (t)$ ，则第一个小时生产的馒头，一天后会经历24小时的腐败，第二个小时生产出来的馒头，一天后会经历 $23$ 小时的腐败。

因此我们可以知道一天后馒头腐败了：
$\int^{24}_0f(t)g(24-t)dt$

卷积运算还可以拿来处理图像，取决于给的 $g (x)$ 和处理的区域（可以用平均，方差，标准差等矩阵）
两矩阵进行卷积运算，保证两个数下标相加等于要求的那个量的下标（f和g中分别取一个）

那么在了解完卷积之后就可以学习卷积神经网络了。

卷积神经网络包括三个组成部分卷积层、池化层、全连接层
顺序为：输入-卷积层-池化层-全连接层-输出。

卷积神经网络中各层的意义和作用

参考：https://blog.csdn.net/stdcoutzyx/article/details/41596663

卷积层

相当于一个神经网络的输入层，可以讲图片输入到神经网络中，并且提取数据的特征。

要识别图像数据的特征就用到了卷积计算的原理。是由一个==卷积核(filter)==来进行扫描的这个卷积核可以理解为扫描器，通过不断扫描然后进行卷积运算来得到的新的矩阵，这个卷积核大小一般为 $3 \times 3$ 或 $5 \times 5$

例如：
输入一张 $32 \times 32 \times 3$ 的图像，其中 $32 \times 32$ 是图片的长宽， $3$ 是指对应图像的 $R 、 G 、 B$ 三个通道，我们可以定义一个5×5×3的一个卷积核，这个就相当于“扫描器”，“扫描器”的长宽为 $5 \times 5$ ， $3$ 是图像颜色通道一般与原图像一致。

计算方法：对应数据相乘再相加，也就是对矩阵中的所有元素进行一个点乘。输入图像与卷积核的点乘。
动画示例：
在这里插入图片描述
可以理解为卷积运算就是利用一个扫描器对矩阵进行扫描，将扫描到的区域跟扫描器进行一个处理，最后得到新的数据，这就是卷积神经网络输入图像数据的过程。

通过对数据进行卷积运算使其映射到新的特征向量上。

输入图像经过一轮卷积操作后的输出图像大小公式如下：
$\begin{cases}W_{output}=\frac{W_{input}-W_{fliter}+2P}{S}+1\\H_{output}=\frac{H_{input}-H_{fliter}+2P}{S}+1\end{cases}$
公式参数： $W$ 和 $H$ 分别表示图像的宽和高， $S$ 表示卷积核步长， $P$ 表示边缘增加的边界像素层数。

多层卷积核

上述是用只有一层的卷积核来进行演示，但平时我们处理的都是多层卷积核，那此时又应该如果处理呢？

在这里插入图片描述

其实也很好理解，只要对于同一个图像使用不同的卷积核进行卷积运算即可，多通道的卷积可以看作是多个单通道独自进行卷积运算。然后将卷积后的结果进行相加就得到了结果。

池化层

可以理解为池化层就是神经网络的隐藏层

池化层相当于是一个对卷积之后的结果进行分类的一个过程，提取输入图像数据的核心特征。
可以理解为是对数据的分类，对卷积得到的所有特征进行分类处理，同时通过这样分类能过减少数据量，压缩了原始数据，还减少了模型计算的参数。

例子：
如果我们对于一个 $96 \times 96$ 的图像，假设我们得到了 $400$ 个定义在 $8 \times 8$ 输入上的特征，每一个特征和图像卷积都会得到一个 $(96 - 8 + 1) \times (96 - 8 + 1) = 7921$ 维的卷积特征，由于有 $400$ 个特征，所以每一个样例都会得到 $7921 \times 400 = 3168400$ 维的卷积特征向量。这个超过了 $3$ 百万的特征，如果学习这样一个 $3$ 百万特征输入的分类器容易出现过拟合。

那么，为了减少这些特征，我们可以通过聚合统计的方式进行优化，我们可以计算某一个区域上的某个特定特征的平均值或最大值。通过这样统计，能够压缩这些特征向量，使其维度降低，还不容易出现过拟合。这种聚合的操作就是池化。

池化就是求矩阵里某一个元素区域内的平均值或者最大值，再映射到一个新的特征向量里面

动画演示:
在这里插入图片描述
3. 全连接层

全连接层主要是对卷积和池化后的数据进行压缩，根据压缩特征完成模型的分类功能。全连接层的压缩发生就是将卷积和池化得到的核心特征与全连接层中的权重参数进行相乘，最后变成低维向量作为输出参数，以达到分类的目的。只要我们再经过激活函数，那么激活函数输出的结果就是我们的模型预测的输入图像对应的可能值（概率）。

为什么要乘权重参数？
因为矩阵乘法相当于一个矩阵作用于另一个矩阵上，然后改变矩阵的大小，同时利用矩阵的乘法就能够将高维的数据进行压缩，压缩成低维的矩阵,以下过程就是压缩
$\star$ 例如：一个 $A_{1\times 3072}$ 的矩阵乘上一个 $W_{3072\times 10}$ 的矩阵得到的结果就是一个 $B_{1\times 10}$ 的矩阵
即：
$A_{(1\times 3072)}\times W_{(3072\times 10)}=B_{(1\times 10)}$
就是利用这样的特性把一个很高维的矩阵变成了一个低维矩阵。（相当于把中间高维的部分消掉了）
（此处涉及到矩阵乘法的应用，建议去找一下矩阵乘法的资料）