AI学习指南深度学习篇-卷积神经网络基础

俞兆鹏

于 2024-08-12 06:30:00 发布

阅读量876

点赞数 13

分类专栏： AI学习指南文章标签： ai

本文链接：https://blog.csdn.net/zhaopeng_yu/article/details/140726557

版权

AI学习指南专栏收录该内容

204 篇文章 24 订阅

订阅专栏

AI学习指南深度学习篇-卷积神经网络基础

深度学习技术在近年来取得了巨大的发展，并且在各个领域都取得了非常好的效果。其中，卷积神经网络（Convolutional Neural Networks，CNN）作为深度学习的重要分支，在计算机视觉、自然语言处理等领域都取得了非常好的效果。

在本篇博客中，我们将重点介绍CNN中的基本组成部分，包括卷积层、池化层和全连接层，以及解释卷积操作的原理和作用。

卷积层

卷积层是CNN的核心组成部分，它通过卷积操作来提取输入数据中的特征信息。在卷积操作中，卷积核（也称为过滤器）对输入数据进行滑动操作，并计算每个位置上的内积，从而得到输出特征图。

具体来说，假设输入数据的大小为 $H \times W \times D$ ，其中 $H$ 表示输入数据的高度， $W$ 表示输入数据的宽度， $D$ 表示输入数据的深度（通道数），卷积核的大小为 $h \times w \times D \times K$ ，其中 $h$ 表示卷积核的高度， $w$ 表示卷积核的宽度， $D$ 表示卷积核的输入通道数， $K$ 表示卷积核的输出通道数，卷积操作的输出特征图的大小为$ (H-h+1)×(W-w+1)×K$。

下面我们通过一个具体的示例来说明卷积操作的原理。假设输入数据的大小为 $4 \times 4 \times 1$ ，卷积核的大小为 $3 \times 3 \times 1 \times 1$ ，则卷积操作的输出特征图的大小为 $2 \times 2 \times 1$ 。

import numpy as np

# 输入数据
input_data = np.array([
    [1, 2, 2, 0],
    [0, 1, 3, 2],
    [3, 1, 2, 3],
    [2, 0, 1, 1]
])

# 卷积核
kernel = np.array([
    [1, 0, 1],
    [1, 1, 1],
    [0, 0, 1]
])

# 卷积操作
def convolution(input_data, kernel):
    H, W = input_data.shape
    h, w = kernel.shape
    output_data = np.zeros((H-h+1, W-w+1))
    for i in range(H-h+1):
        for j in range(W-w+1):
            output_data[i, j] = np.sum(input_data[i:i+h, j:j+w] * kernel)
    return output_data

# 执行卷积操作
output_data = convolution(input_data, kernel)
print(output_data)

上述示例中，我们定义了一个 $4 \times 4 \times 1$ 的输入数据和一个 $3 \times 3 \times 1 \times 1$ 的卷积核，然后执行了卷积操作。最终得到了一个 $2 \times 2 \times 1$ 的输出特征图。

从上述示例可以看出，卷积操作可以有效地提取输入数据的特征信息，因此在深度学习中被广泛应用于图像处理、语音识别等领域。

池化层

池化层是CNN中的另一个重要组成部分，它通过对输入数据进行降采样操作来减少数据的维度。池化操作通常包括最大池化（Max Pooling）和平均池化（Average Pooling）两种方式，其中最大池化是取池化窗口中的最大值作为输出，而平均池化是取池化窗口中的平均值作为输出。

具体来说，假设输入数据的大小为 $H \times W \times D$ ，池化操作的窗口大小为 $h \times w$ ，则池化操作的输出特征图的大小为$ \lceil \frac{H}{h} \rceil × \lceil \frac{W}{w} \rceil × D$。

下面我们通过一个具体的示例来说明最大池化操作的原理。假设输入数据的大小为 $4 \times 4 \times 1$ ，池化窗口的大小为 $2 \times 2$ ，则最大池化操作的输出特征图的大小为 $2 \times 2 \times 1$ 。

import numpy as np

# 输入数据
input_data = np.array([
    [1, 2, 2, 0],
    [0, 1, 3, 2],
    [3, 1, 2, 3],
    [2, 0, 1, 1]
])

# 最大池化操作
def max_pooling(input_data, pool_size):
    H, W = input_data.shape
    h, w = pool_size
    output_data = np.zeros((H//h, W//w))
    for i in range(0, H, h):
        for j in range(0, W, w):
            output_data[i//h, j//w] = np.max(input_data[i:i+h, j:j+w])
    return output_data

# 执行最大池化操作
output_data = max_pooling(input_data, (2, 2))
print(output_data)

上述示例中，我们定义了一个 $4 \times 4 \times 1$ 的输入数据和池化窗口的大小为 $2 \times 2$ ，然后执行了最大池化操作。最终得到了一个 $2 \times 2 \times 1$ 的输出特征图。

从上述示例可以看出，池化操作可以有效地减少数据的维度，从而降低模型的复杂度，减少过拟合的风险。

全连接层

全连接层是CNN中的最后一层，它将卷积层和池化层得到的特征图展开成一维向量，并通过全连接操作来实现分类或回归等任务。

具体来说，假设输入数据的大小为 $H \times W \times D$ ，则全连接操作的输入大小为 $H \times W \times D$ ，输出大小为 $K$ ，其中 $K$ 表示类别的个数。

下面我们通过一个具体的示例来说明全连接操作的原理。假设输入数据的大小为 $2 \times 2 \times 1$ ，则全连接操作的输入大小为 $4$ ，输出大小为 $2$ 。

import numpy as np

# 输入数据
input_data = np.array([
    [1, 2],
    [3, 0]
])

# 全连接操作
def fully_connected(input_data, weight):
    output_data = np.dot(input_data.flatten(), weight)
    return output_data

# 权重
weight = np.array([0.5, 0.8])

# 执行全连接操作
output_data = fully_connected(input_data, weight)
print(output_data)

上述示例中，我们定义了一个 $2 \times 2 \times 1$ 的输入数据和权重为 $0.5$ 和 $0.8$ 的全连接层，然后执行了全连接操作。最终得到了一个包含2个元素的输出。

从上述示例可以看出，全连接操作可以将卷积层和池化层得到的特征图转换成一维向量，并通过权重进行线性变换，从而实现分类或回归等任务。

综上所述，卷积神经网络（CNN）包括卷积层、池化层和全连接层等基本组成部分，通过卷积操作和池化操作来提取输入数据的特征信息，并通过全连接操作来实现分类或回归等任务。希望本篇博客可以帮助大家更好地理解CNN的基础知识。

俞兆鹏

关注

13
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
AI学习指南深度学习篇-卷积神经网络基础

深度学习技术在近年来取得了巨大的发展，并且在各个领域都取得了非常好的效果。其中，卷积神经网络（Convolutional Neural Networks，CNN）作为深度学习的重要分支，在计算机视觉、自然语言处理等领域都取得了非常好的效果。在本篇博客中，我们将重点介绍CNN中的基本组成部分，包括卷积层、池化层和全连接层，以及解释卷积操作的原理和作用。
复制链接

扫一扫

专栏目录