第零节 代码(学习部分,非完整)
学习机器学习一定要对着代码看(先放着,方便萌新找):
class CNN(nn.Module):
def __init__(self):
super(CNN, self).__init__()
self.conv1 = nn.Sequential( # input shape (1, 28, 28)
nn.Conv2d(
in_channels=1, # input height
out_channels=16, # n_filters
kernel_size=5, # filter size
stride=1, # filter movement/step
padding=2, # if want same width and length of this image after Conv2d, padding=(kernel_size-1)/2 if stride=1
), # output shape (16, 28, 28)
nn.ReLU(), # activation
nn.MaxPool2d(kernel_size=2), # choose max value in 2x2 area, output shape (16, 14, 14)
)
self.conv2 = nn.Sequential( # input shape (16, 14, 14)
nn.Conv2d(16, 32, 5, 1, 2), # output shape (32, 14, 14)
nn.ReLU(), # activation
nn.MaxPool2d(2), # output shape (32, 7, 7)
)
self.out = nn.Linear(32 * 7 * 7, 10) # fully connected layer, output 10 classes
def forward(self, x):
x = self.conv1(x)
x = self.conv2(x)
x = x.view(x.size(0), -1) # flatten the output of conv2 to (batch_size, 32 * 7 * 7)
output = self.out(x)
return output, x # return x for visualization
注:本段代码来自莫烦Pytorch教程(感谢莫烦大神!)。
之所以只截取这一段,是因为它最重要,其它的处理数据集、输出图形等都是另外的学习范围。
后面的运行顺序:前向传播、计算损失、梯度清零、反向传播、更新神经网络参数(使用Pytorch框架)。
for step, (b_x, b_y) in enumerate(train_loader): # gives batch data, normalize x when iterate train_loader
output = cnn(b_x)[0] # 计算出结果(前向传播)
loss = loss_func(output, b_y) # 计算损失
optimizer.zero_grad() # 梯度清零
loss.backward() # 反向传播
optimizer.step() # 更新神经网络参数
第一节 来看我的图,和代码一致!!!
这是你看过所有关于MNIST数据集(手写数字识别)
CNN卷积神经网路最棒的图!!!
————作者给萌新说
相信上面这两张图,很多小伙伴都很蒙13,而且众多视频也拿来讲,但是问题是,这两张图都跟MNIST数据集要做的训练不一样!跟写的代码也不一样,解释起来非常费劲,学习的小伙伴理解起来也非常费劲!第一张图是32×32的输入,第二张图是224×224的输入,所以我专门画了一张,这也许是你见过最靠谱的图,后面代码也通过它来讲:
说明:
1、图中①至⑦是代表7个计算后的结果,后面对对应代码来讲。
2、注意图中的细节,比如颜色不同,边框不同,输入输出的对应画的位置不同,都是有含义的,并非随意画!
总述:首先一张28×28×1的手写图(来自MNIST数据集,Pytorch自带),经过一个过滤器(也叫卷积核),计算出28×28×16的特征图组,然后经过一个裁剪器,缩小成为14×14×16的特征图组,然后再经过一个过滤器(注意这个过滤器和第一个不一样!),变成14×14×32的特征图组,然后再经过一个裁剪器,变成7×7×32的特征图组,然后再压扁(没有减少压缩)变成1×1×1568的特征图,最后接上一个分类器0-9,即可。
注意上面说的特征图和特征图组,其实不是图片,是数字矩阵,即手写图片对应的数字矩阵。
第二节 别急,分阶段来聊
咋一看很牛逼,可是还很多不懂。没事,我们一段一段来!
————作者给萌新说
第一小段 28×28×1灰度图 计算出 28×28×16 的特征图组(过滤器是5×5×32)(最难):
首先,输入一个28*28图片,对应到数据矩阵应该是:
这是基础计算机知识,不用太多解释,即图片的每个像素点,都对应0-255的数字,在程序中,它就会变成这样的数据,这里其实就是数学矩阵。我们这里使用灰白图,所以它的高度只有1(如果是RGB就是高度为3)。
本文中提到的“图” ,在程序中 都是上图这种矩阵!
本文中提到的“图” ,在程序中 都是上图这种矩阵!
然后,它会被一个过滤器(也叫卷积核convolution kernel),这个过滤器的大小是5×5×16。
这时候很多小伙伴就要问,为啥是16高度(16张图)?这个16就是16个特征,即“记住这美女的鼻子眼睛嘴巴眉毛耳朵。。。的样子”,也许第1个特征是眼睛,第2个特征是嘴巴。。。。。
当然,你也可以理解为16张图,事实上也是(很多教程把这些特征单独罗列出结果给你看