《卷积神经网络》

zhouazhu

于 2023-04-11 21:47:32 发布

阅读量660

点赞数

文章标签： cnn 深度学习计算机视觉

本文链接：https://blog.csdn.net/zhouazhu/article/details/130092407

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、CNN整体结构
二、卷积层
三、卷积神经网络的实现

前言

卷积神经网络（Convolutional Neural Network，简称CNN）是一种深度学习模型，主要用于图像识别、图像分类、物体检测、语音识别等领域。CNN的作用是对输入的图像进行特征提取和分类。它可以自动从原始数据中学习到一系列特征，这些特征可以被用来进行分类或者其他的任务。CNN在处理图像数据时，通过卷积操作提取图像中的局部特征，并将这些特征组合成更高层次的抽象特征，从而实现对图像的分类。相较于传统的神经网络，CNN在处理图像数据时可以减少参数数量，提高计算效率，更加适用于大规模图像数据的处理。

一、CNN整体结构

1.输入层

接收原始的图像数据，一般是一个多通道的矩阵（比如RGB彩色图像就是3通道的矩阵）。

2.卷积层：

使用一系列卷积核对输入数据进行卷积操作，提取局部特征。卷积操作是指对输入数据和一组卷积核（也称为滤波器）进行卷积运算，生成一组新的特征图。

3.激活函数层

将卷积层的输出通过激活函数进行非线性变换，增强网络的非线性拟合能力。常用的激活函数有ReLU、sigmoid等。
池化层：对特征图进行降采样，减少特征图的大小，缩小模型的参数规模，提高计算效率。常用的池化操作有最大值池化和平均值池化。

4.全连接层

将卷积层和池化层输出的特征图展开成一维向量，并通过全连接层进行分类或回归等任务。全连接层可以看作是一个传统的神经网络结构，将高维特征映射到预测类别的概率输出上。

5.Dropout层

防止过拟合，随机在训练期间丢弃一些神经元，强制网络学习到更为鲁棒的特征。

卷积神经网络的结构并不是固定的，可以根据具体的任务需求进行调整和优化。例如，可以加入批归一化（Batch Normalization）、残差连接（Residual Connection）等技术，进一步提升网络的性能。

二、卷积层

1.卷积层的结构

卷积神经网络的卷积层包含了卷积操作和卷积核（也称为滤波器）两个主要的组成部分。

卷积操作是指对输入数据和卷积核进行卷积运算，生成一组新的特征图。卷积操作的过程可以看作是对输入数据的一个局部感受野进行特征提取的过程。

卷积核是一组可学习的参数，它是一个小的矩阵，比如 $\times 3$ 或者 $\times 5$ 。在卷积操作中，卷积核从输入数据的左上角开始逐个移动，对输入数据的每个小的局部区域进行卷积运算，生成一个新的特征图。卷积核可以提取出输入数据中的各种特征，比如边缘、纹理、形状等。

卷积操作通常还包含了步长和填充两个参数。步长（Stride）指卷积核每次移动的步长，决定了特征图的大小。填充（Padding）指在输入数据的周围添加一圈固定的数值，可以控制特征图的大小和形状。常用的填充方式包括零填充（Zero Padding）和边缘填充（Edge Padding）。

一个卷积层通常包含多个卷积核，每个卷积核可以提取出不同的特征，生成不同的特征图。这些特征图可以被用于下一层的处理，也可以被可视化和分析，了解网络的特征提取能力。

2.卷积层的运算

2.1无填充无步幅运算

假设我们有一个 $4\times4$ 的输入矩阵 $X$ ，和一个 $3\times3$ 的卷积核 $K$ ，步长为 $1$ ，不进行填充操作。那么，卷积运算的过程如下：
将卷积核 $K$ 按照步长移动，依次与输入矩阵 $X$ 的每个 $3\times3$ 的局部区域进行卷积运算，得到一个 $2\times2$ 的特征图。卷积核 $K$ 的每个元素与输入矩阵 $X$ 的对应元素相乘，然后将所有结果相加，得到一个新的数值，作为特征图对应位置的值。这个过程可以看作是对特征图进行了卷积操作。

下面是一个具体的例子：
输入矩阵 $X$ ：
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16
卷积核 $K$ ：
1 0 1
0 1 0
1 0 1
移动卷积核 $K$ ，得到特征图：
(1 * 1+2 * 0+3 * 1+5 * 0+6 * 1+7 * 0+9 * 1+10 * 0+11 * 1) (2 * 0+3 * 1+4 * 0+6 * 1+7 * 0+8 * 1+10 * 0+11 * 1+12 * 0)
(5 * 0+6 * 1+7 * 0+9 * 1+10 * 0+11 * 1+13 * 0+14 * 1+15 * 0) (6 * 1+7 * 0+8 * 1+10 * 0+11 * 1+12 * 0+14 * 1+15 * 0+16 * 1)
得到特征图：
6 8
14 16
这个特征图包含了输入矩阵 $X$ 的某些局部特征，比如图案的边缘和角落。

2.2填充

填充的目的：
1.保持特征图大小：卷积层在进行卷积操作时，卷积核只能遍历到输入矩阵的部分区域，从而导致特征图的大小会缩小。在某些情况下，我们需要保持特征图大小不变，从而避免信息的丢失。

2.边界信息的处理：在进行卷积操作时，卷积核只能遍历到输入矩阵的一部分区域，从而导致输入矩阵的边缘信息没有得到很好的利用。通过填充操作，我们可以在输入矩阵的周围添加一圈 $0$ ，从而扩大输入矩阵的大小，使得卷积核能够遍历到输入矩阵的边缘信息，从而提高了特征提取的能力。

需要注意的是，填充操作也会增加计算量，因此需要根据具体任务来决定是否需要进行填充操作。如果保持特征图大小不变非常重要，或者需要更好地处理边界信息，那么可以考虑使用填充操作。否则，可以不进行填充操作，从而减少计算量。
填充就是向输入数据的周围填入固定的数据，比如在2.1的例子中填充的结果就可以为这样：
0 0 0 0 0 0
0 1 2 3 4 0
0 5 6 7 8 0
0 9 10 11 12 0
0 13 14 15 16 0
0 0 0 0 0 0

2.3步幅

卷积中的步幅指的是卷积核在特征图上移动的距离。步幅越大，卷积核在特征图上的移动距离就越大，输出特征图的大小就会变小。相反，步幅越小，卷积核在特征图上的移动距离就越小，输出特征图的大小就会变大。步幅对卷积的作用有以下几个方面：减小输出特征图的大小：通过增加步幅，卷积核的移动距离变大，输出特征图的大小就会减小。这样可以有效减少模型中的参数数量和计算量，缩短训练时间，提高计算效率。增大感受野：卷积神经网络中的每一层都包含了一组卷积核，每个卷积核只能接收其输入特征图上局部的信息。通过增大步幅，卷积核的感受野就会变大，可以获取更广泛的上下文信息，提高模型的感知能力。增强特征的多样性：通过增加步幅，卷积核的移动距离变大，可以使不同的卷积核接收到不同的局部特征信息，从而增强特征的多样性，提高模型的表达能力。需要注意的是，步幅的大小需要根据输入特征图的大小、卷积核的大小和填充数来确定，否则可能会导致输出特征图大小不合适，影响模型的性能。通常情况下，步幅的取值为1、2、3等较小的整数。

3.池化层

池化层是卷积神经网络中的一种常用层，用于减小特征图的尺寸，并提取特征。池化层通常紧跟在卷积层后面，将卷积层的输出特征图按照一定的规则进行降采样，从而减小特征图的大小。池化层通常分为最大池化和平均池化两种类型。

1.最大池化：最大池化是池化层中最常见的一种。在最大池化过程中，池化窗口沿着特征图平移，并在每个位置上选择一个池化窗口内的最大值作为输出。这样可以有效地保留输入特征图中的重要特征，同时减小特征图的大小。

2.平均池化：平均池化与最大池化类似，但是不是选取池化窗口内的最大值，而是取平均值作为输出。平均池化相对于最大池化的优点是，它不会忽略一些小但是有用的特征信息，对于一些需要对输入特征图进行平滑处理的任务效果比较好。

池化层的作用有以下几个方面：

1.减小特征图的尺寸：通过池化层对特征图进行降采样，可以减小特征图的大小，从而减小模型中的参数数量和计算量，提高模型的计算效率。

2.提取特征：通过池化层对特征图进行降采样，可以提取出输入特征图中的重要特征，从而提高模型的表达能力。

3.增加模型的鲁棒性：池化层可以降低输入特征图中的噪声和变化，从而提高模型的鲁棒性，使得模型对于输入的微小变化具有一定的容错能力。

需要注意的是，池化层也会引入一些信息损失，因为它会对特征图进行降采样，从而减少输入特征图中的一些信息。因此，在实际应用中，需要根据具体任务的需要来选择是否使用池化层，以及选择何种池化方式。

三、卷积神经网络的实现

import tensorflow as tf
from tensorflow.keras import layers

# 构建卷积神经网络
model = tf.keras.Sequential([
    # 第一层卷积层
    layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
    layers.MaxPooling2D((2, 2)),
    # 第二层卷积层
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    # 第三层卷积层
    layers.Conv2D(64, (3, 3), activation='relu'),
    # 将卷积层输出的特征图展平
    layers.Flatten(),
    # 全连接层
    layers.Dense(64, activation='relu'),
    # 输出层
    layers.Dense(10)
])

# 加载MNIST数据集
mnist = tf.keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

# 对数据进行预处理
train_images = train_images.reshape((60000, 28, 28, 1)) / 255.0
test_images = test_images.reshape((10000, 28, 28, 1)) / 255.0

# 编译模型
model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])

# 训练模型
history = model.fit(train_images, train_labels, epochs=5,
                    validation_data=(test_images, test_labels))

# 评估模型
test_loss, test_acc = model.evaluate(test_images, test_labels, verbose=2)
print('\nTest accuracy:', test_acc)

…
这个示例代码定义了一个包含3个卷积层的卷积神经网络，用于对MNIST手写数字数据集进行分类。通过layers.Conv2D函数定义了卷积层，其中第一个参数表示卷积核的数量，第二个参数表示卷积核的大小，activation参数指定激活函数。使用layers.MaxPooling2D函数定义了最大池化层，用于对特征图进行降采样。使用layers.Flatten函数将卷积层输出的特征图展平，然后再通过全连接层和输出层进行分类。

在训练和评估模型时，使用了model.compile函数来定义优化器、损失函数和评价指标，然后使用model.fit函数对模型进行训练，最后使用model.evaluate函数对模型进行评估。

zhouazhu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
《卷积神经网络》

卷积神经网络（Convolutional Neural Network，简称CNN）是一种深度学习模型，主要用于图像识别、图像分类、物体检测、语音识别等领域。CNN的作用是对输入的图像进行特征提取和分类。它可以自动从原始数据中学习到一系列特征，这些特征可以被用来进行分类或者其他的任务。CNN在处理图像数据时，通过卷积操作提取图像中的局部特征，并将这些特征组合成更高层次的抽象特征，从而实现对图像的分类。相较于传统的神经网络，CNN在处理图像数据时可以减少参数数量，提高计算效率，更加适用于大规模图像数据的处理。
复制链接

扫一扫