全人类最易懂的人工智能（机器学习）深度学习教程----第6集：CNN卷积神经网络and代码Pytorch实现（MNIST手写数字）（“看不懂CNN吗？看我！”）

本文链接：https://blog.csdn.net/weixin_43605788/article/details/104351162

文章目录

在这里插入图片描述

第零节代码（学习部分，非完整）

学习机器学习一定要对着代码看（先放着，方便萌新找）：

class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Sequential(         # input shape (1, 28, 28)
            nn.Conv2d(
                in_channels=1,              # input height
                out_channels=16,            # n_filters
                kernel_size=5,              # filter size
                stride=1,                   # filter movement/step
                padding=2,                  # if want same width and length of this image after Conv2d, padding=(kernel_size-1)/2 if stride=1
            ),                              # output shape (16, 28, 28)
            nn.ReLU(),                      # activation
            nn.MaxPool2d(kernel_size=2),    # choose max value in 2x2 area, output shape (16, 14, 14)
        )
        self.conv2 = nn.Sequential(         # input shape (16, 14, 14)
            nn.Conv2d(16, 32, 5, 1, 2),     # output shape (32, 14, 14)
            nn.ReLU(),                      # activation
            nn.MaxPool2d(2),                # output shape (32, 7, 7)
        )
        self.out = nn.Linear(32 * 7 * 7, 10)   # fully connected layer, output 10 classes

    def forward(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = x.view(x.size(0), -1)           # flatten the output of conv2 to (batch_size, 32 * 7 * 7)
        output = self.out(x)
        return output, x    # return x for visualization

注：本段代码来自莫烦Pytorch教程（感谢莫烦大神！）。

之所以只截取这一段，是因为它最重要，其它的处理数据集、输出图形等都是另外的学习范围。

后面的运行顺序：前向传播、计算损失、梯度清零、反向传播、更新神经网络参数（使用Pytorch框架）。

    for step, (b_x, b_y) in enumerate(train_loader):   # gives batch data, normalize x when iterate train_loader
        output = cnn(b_x)[0]            # 计算出结果（前向传播）
        loss = loss_func(output, b_y)   # 计算损失
        optimizer.zero_grad()           # 梯度清零
        loss.backward()                 # 反向传播
        optimizer.step()                # 更新神经网络参数

第一节来看我的图，和代码一致！！！

这是你看过所有关于MNIST数据集（手写数字识别）
CNN卷积神经网路最棒的图！！！
————作者给萌新说

在这里插入图片描述
相信上面这两张图，很多小伙伴都很蒙13，而且众多视频也拿来讲，但是问题是，这两张图都跟MNIST数据集要做的训练不一样！跟写的代码也不一样，解释起来非常费劲，学习的小伙伴理解起来也非常费劲！第一张图是32×32的输入，第二张图是224×224的输入，所以我专门画了一张，这也许是你见过最靠谱的图，后面代码也通过它来讲：

在这里插入图片描述
说明：

1、图中①至⑦是代表7个计算后的结果，后面对对应代码来讲。

2、注意图中的细节，比如颜色不同，边框不同，输入输出的对应画的位置不同，都是有含义的，并非随意画！

总述：首先一张28×28×1的手写图（来自MNIST数据集，Pytorch自带），经过一个过滤器（也叫卷积核），计算出28×28×16的特征图组，然后经过一个裁剪器，缩小成为14×14×16的特征图组，然后再经过一个过滤器（注意这个过滤器和第一个不一样！），变成14×14×32的特征图组，然后再经过一个裁剪器，变成7×7×32的特征图组，然后再压扁（没有减少压缩）变成1×1×1568的特征图，最后接上一个分类器0-9，即可。

注意上面说的特征图和特征图组，其实不是图片，是数字矩阵，即手写图片对应的数字矩阵。

第二节别急，分阶段来聊

咋一看很牛逼，可是还很多不懂。没事，我们一段一段来！
————作者给萌新说

第一小段 28×28×1灰度图计算出 28×28×16 的特征图组（过滤器是5×5×32）（最难）：

首先，输入一个28*28图片，对应到数据矩阵应该是：
在这里插入图片描述
这是基础计算机知识，不用太多解释，即图片的每个像素点，都对应0-255的数字，在程序中，它就会变成这样的数据，这里其实就是数学矩阵。我们这里使用灰白图，所以它的高度只有1（如果是RGB就是高度为3）。

本文中提到的“图” ，在程序中都是上图这种矩阵！

在这里插入图片描述
然后，它会被一个过滤器（也叫卷积核convolution kernel），这个过滤器的大小是5×5×16。

这时候很多小伙伴就要问，为啥是16高度（16张图）？这个16就是16个特征，即“记住这美女的鼻子眼睛嘴巴眉毛耳朵。。。的样子”，也许第1个特征是眼睛，第2个特征是嘴巴。。。。。

当然，你也可以理解为16张图，事实上也是（很多教程把这些特征单独罗列出结果给你看

全人类最易懂的人工智能（机器学习）深度学习教程----第6集：CNN卷积神经网络and代码Pytorch实现（MNIST手写数字）（“看不懂CNN吗？看我！”）

文章目录

第零节 代码（学习部分，非完整）

第一节 来看我的图，和代码一致！！！

第二节 别急，分阶段来聊

第一小段 28×28×1灰度图 计算出 28×28×16 的特征图组（过滤器是5×5×32）（最难）：

第零节代码（学习部分，非完整）

第一节来看我的图，和代码一致！！！

第二节别急，分阶段来聊

第一小段 28×28×1灰度图计算出 28×28×16 的特征图组（过滤器是5×5×32）（最难）：