机器学习|李宏毅课程笔记（四）CNN

最新推荐文章于 2023-10-21 21:32:15 发布

Hygge0+

最新推荐文章于 2023-10-21 21:32:15 发布

阅读量721

点赞数 1

分类专栏：深度学习文章标签： cnn 深度学习

本文链接：https://blog.csdn.net/weixin_56744177/article/details/128162740

版权

深度学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

一、Fully Connected Network

一、Fully Connected Network

相邻层的所有神经元之间都有连接，这称为全连接（fully-connected）。

【全连接层处理图像】

将图像用矩阵[H*W*RGB channel]来表示。全连接层需要把三维矩阵flatten为一维数据，作为一个拉直的向量，输入到神经网络里，这相当于把图像的每一个像素点都作为输入。

【全连接层存在的问题？】

但是没有必要将每个像素点都输入。正如人类不会仔细到逐像素点地看图片。一般会关注图片的某些特征、区域，而忽略其他。而且全连接层会忽视形状，将全部的输入数据作为相同的神经元（同一维度的神经元）处理，所以无法利用与形状相关的信息。

【改进/解决方法】

添加特殊层做简化，可以提取图像的特征输入到神经网络，而不是将每个像素点整张图像都输入。

【引入CNN：添加卷积层 Convolution 和池化层 Pooling】

在CNN中，层的连接顺序是：Convolution - ReLU - Pooling. Pooling有时被省略。

【CNN与FNN】

卷积层的神经元只与前一层的部分神经元节点相连，即它的神经元间的连接是非全连接的，且同一层中某些神经元之间的连接的权重 w 和偏移 b 是共享的(即相同的)，这样大量地减少了需要训练参数的数量。

二、CNN

【CNN结构】

CNN由输入和输出层以及多个隐藏层组成，隐藏层可分为卷积层、池化层、RELU层和全连通层，如下图：

【CNN各层概述】

输入层：CNN的输入为原始图像，三维(RGB)或二维的向量。

卷积层：CNN的核心，卷积层由一组可学习的滤波器/卷积核(filter/kernel)[带着固定权重的神经元]组成，它们具有小的感受野，每个卷积核具有kernel size，padding，stride等参数。从图像的左上角依次做内积操作，提取出图片的高层次特征。卷积层的输入输出数据称为特征图 Feature Map。

池化层：对卷积后输出的Feature Map进行下采样操作，保留原特征的同时减少神经网络训练的参数，防止过拟合。

激活层：在CNN中使用ReLu激活函数，在网络中引入了非线性。通过ReLu激活函数传递卷积运算的结果。因此，最终特征映射中的值不是简单的线性关系。

全连接层：全连接层的输入是一维向量，需要将Pooling 层的输出向量flatten成一个一维的向量，然后输入到全连接层中，最后送到Soft Max层进行类别的分类。

输出层：用于输出结果

三、CNN层详述

【卷积层Convolution】

卷积层由一组可学习的滤波器/卷积核(filter/kernel)组成，它们具有小的感受野，每个卷积核具有Kernel size，Padding，Stride等参数。

【输入与输出】

输入矩阵格式：四个维度：样本数、图像通道数、图像高度、图像宽度

输出矩阵格式：与输出矩阵的维度顺序和含义相同，但是后三个维度（图像通道数、图像高度、图像宽度）尺寸发生变化

【卷积核】

卷积核是带着固定权重的神经元。可以看作是权重矩阵，矩阵里元素的值就是需要通过学习得到的参数。

卷积核（权重矩阵）格式：四个维度：输出通道数（卷积核的个数）、输入通道数、卷积核高度、卷积核宽度 Eg：kernel_size=3表示卷积核是一个3*3矩阵。

卷积核的输入通道数（in_channels）由输入矩阵的通道数所决定。（红色标注）

卷积核的输出通道数（out_channels)决定输出矩阵的通道数。（绿色标注）

【卷积层尺寸的计算原理】

输出矩阵的高度和宽度这两个维度的尺寸由输入矩阵、卷积核、扫描方式共同决定。（蓝色标注）计算公式如下：

卷积层就是在做卷积计算。

【卷积计算】

从图像的左上角开始，将各个位置上滤波器（卷积核：带着固定权重的神经元）的元素和输入的对应元素进行乘积累加运算，输出到对应位置，提取出图片的高层次特征。卷积层的输入输出数据称为特征图 Feature Map。

如图，输入数据大小是 (5,5)，滤波器大小是 (3,3)，Stride=1，输出大小是 (3,3)。

【Padding】

在进行卷积层运算前，有时会使用padding填充，向输入数据的周围填入固定的数据（比如0等）。Padding的目的/作用是调整输出的大小。

【Stride】

应用滤波器的位置间隔称为Stride步幅。之前的例子中步幅都是1，如果将步幅设为2，则如图所示，应用滤波器的窗口的间隔变为2个元素。增大步幅后，输出表小；增大填充后，步幅变化。

Padding、Stride的作用动画呈现：

conv_arithmetic/README.md at master · vdumoulin/conv_arithmetic (github.com)

【多输入通道卷积计算】

【多输出通道卷积计算】

多个卷积核就是多个特征提取器。

【批处理卷积计算】

在卷积神经网络的计算中，通常将多个样本放在一起形成一个mini-batch进行批量操作。卷积运算进行批处理时，需要将在各层间传递的数据保存为4维数据。按(batch_size, channels, height, width)的顺序保存数据。数据作为4维的形状在各层间传递。这里需要注意的是，网络间传递的是4维数据，对这N个数据进行了卷积运算。也就是说，批处理将N次的处理汇总成了1次进行。