DL —— 卷积神经网络（convolutional neural networks，CNN）

最新推荐文章于 2023-03-27 20:46:41 发布

piupiurui

最新推荐文章于 2023-03-27 20:46:41 发布

阅读量994

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/yizhishuixiong/article/details/105144577

版权

深度学习专栏收录该内容

12 篇文章 4 订阅

订阅专栏

卷积神经网络是深度学习最核心的部分；
最早用于美国银行系统识别手写支票；

卷积神经网络

一、训练数据

因为卷积神经网络是为了解决图像领域的应用而提出的网络结构，所以训练数据一般为视频图像数据（张量数据，tensor）；可以根据图像的性质对CNN的结构进行设计，使得CNN相比一般的神经网络结构更加高效、性能更好。
在这里插入图片描述
其中：
X（i）是第i张图像；
H * W * D是每个图像的尺寸；
D表示整个训练集，也表示图像的深度；

二、网络层次

在这里插入图片描述
上图中左侧（普通神经网络）中每一层的神经元按一个维度排成向量；
而右侧（CNN）的输入变成了张量，即每层神经元按三个维度（高H、宽W、深D）排成张量，最后一层的神经元输出维度是1 * 1 * K（K表示最终分类的类别数）；

普通神经网络每层都是一个全连接层（仿射运算 + 非线性变换）；
而CNN每层都有4中选择：卷积层（convolutional layer，conv）、池化层（pooling layer，pool）、线性整流层、全连接层（fc）；

卷积层（convolutional layer，conv）：通过卷积核做卷积变换（线性变换）提取特征的响应，将卷积核代表某种特征，得到的结果叫特征响应图，相似度越高得到的响应越大；

卷积层的简化——稀疏连接：在图像识别中，关键性特征（边缘、角点等）只占了图像的一小部分，图像中相距很远的两个像素间相互有影响的可能很小，全连接就是一种资源的浪费，所以产生了稀疏连接，每个神经元只需要和一小部分输入神经元相连，大大降低了数据量、计算量。

局部连接的空间范围称为感受野，而沿深度轴的连接数总是等于输入的深度D（即沿高、宽轴是局部连接的，沿深度轴是全连接的）。
稀疏性是CNN相比一般神经网络的一个巨大优点，极大降低了模型的计算量。

实际操作中，卷积核一边做卷积运算，一边沿着高和宽滑动（如下图）：
在这里插入图片描述

卷积层的简化——共享参数：如果一组权重（即卷积核）在图像中某个区域提取有效表示，也能在另外区域提取有效表示。
即卷积核与所滑动到的图像任一区域对应相乘求和（卷积操作），卷积核是不变的，相当于卷积核所在区域与同一套权重相乘。大幅减少了参数数量。

一般用4个量来描述卷积层：
1、滤波器filter（即卷积核）的数目D1；
2、滤波器感受野F1 * F2：即滤波器的尺寸；
3、步幅（stride）S：在一个激活映射中，在空间上每跳过S个位置计算一个输出神经元，即上图中的步长；
4、0填充（zero-padding）P：在进行卷积前，四周填充一些0，填充的宽度为P，这可以控制输出特征映射的大小（如下图）：蓝色区域为原图像大小，虚线部分为填充（此处P=1），绿色为输出特征映射。
在这里插入图片描述

池化层（pooling layer，pool）：相当于大脑视觉皮层中的复杂细胞，模拟感受野；

池化层根据神经元空间上局部统计信息进行采样，在保留有用信息同时减少神经元空间大小，使参数量减少并降低了过拟合可能；

pool操作在各深度分量上独立进行；

最常用的是最大池化（max-pooling）、滤波器大小为2 * 2，步幅为2，这可以舍弃75%的信息，如下图：
在这里插入图片描述

线性整流层：激活函数层，常用relu；

与一般神经网络中的激活函数操作相同，如使用relu时，逐元素进行relu操作，不会改变维度；

通过激活函数实现了非线性变换；

使用relu激活函数也是使网络快速收敛的一个手段，大于0时梯度为1，避免了梯度弥散与梯度消失。

激活函数总结【点击此处】

全连接层（fc）：层与层之间每个神经元都有连接。与一般神经网络操作相同。

三、损失函数

损失函数度量的是模型预测值与真实值之间的误差（这里叫损失函数或代价函数，在优化时会使其最小化，这个需要最小化的函数叫目标函数）；

通过损失函数的优化来实现整个系统的优化，损失函数的设计不仅定义了问题，还直接决定了优化算法收敛的性能；

（损失函数总结笔记后续整理）

四、优化

使损失函数（目标函数）最小化。

与一般神经网络同样使用梯度下降法（前向传播、反向传播），不同点在于池化层与卷积层的反向传播操作。

卷积层的反向传播：利用链式求导法则，用损失函数分别对W、b、X求偏导，计算如下图（重在理解）：
在这里插入图片描述

池化层的反向传播：池化层没有参数，不需要进行参数更新，因此池化层在反向传播时需要完成的工作是将第L层的导数传播到第L-1层，以最大池化为例：
在这里插入图片描述

上图不太清楚，内容描述的是假设知道了损失函数对z的导数，要计算对x、y的导数，依然使用链式法则即可。

五、预测

对于一个未知输入数据x，分类模型的预测是：
在这里插入图片描述
即：找到分类器输出分数最大的那项对应的类，作为x的标记。
如：共有三个类别A、B、C，对应分数为（0.1， 0.6， 0.3），其中0.6最大，那么就预测x属于B类。

六、评估

简单来说就是，用预测正确的样本数占样本总数的比例来评估模型。

具体如下：
在这里插入图片描述
其中：
m为测试集样本总数；
I{*}为指示函数，预测值与真实值相等时，指示函数为1，否则为0。

从上式可知，测试集全部分类正确时，Acc = 1，否则Acc < 1。

piupiurui

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
DL —— 卷积神经网络（convolutional neural networks，CNN）

卷积神经网络是深度学习最核心的部分；最早用于美国银行系统识别手写支票；卷积神经网络一、训练数据因为卷积神经网络是为了解决图像领域的应用而提出的网络结构，所以训练数据一般为视频图像数据（张量数据，tensor）；可以根据图像的性质对CNN的结构进行设计，使得CNN相比一般的神经网络结构更加高效、性能更好。其中：X（i）是第i张图像；H * W * D是每个图像的尺寸；D表示整个训练...
复制链接

扫一扫

专栏目录