本文参考:
(1条消息) 【CNN】LeNet——卷积神经网络的开山鼻祖-CSDN博客
(1条消息) 卷积神经网络模型之——LeNet网络_3层卷积神经网络_Bryant327的博客-CSDN博客
LeNet网络
LeNet是最早的卷积神经网络之一,最早被用于手写数字识别,其结构如下,共有包括输入层在内的8层网络结构,两层卷积,两层池化(下采样),以及三层全连接网络。
以下是对几层网络结构的简单介绍:
输入层:输入图片的尺寸为32*32*1(单通道灰度图)
卷积层1:经卷积层1之后输出为28*28*6,卷积层输出图片的尺寸W*W中,
W=(W1-F+2P)/S+1,其中W1为原输入图片的尺寸,F为卷积核的尺寸,F=5,P为补零,一般默认为 0,P=0,S为步距,S=1,所以尺寸由32*32变为28*28。
池化层1:经池化层后的尺寸为W2=(W-F)/S+1,W为卷积之后的尺寸,F表示卷积核的尺寸,S为步距,上图由28*28*6变为14*14*6,其步距S=2,F=2(可能)
卷积层2:卷积层2的输出为16*10*10,F=5,P=0,S=1,计算方法同上。
池化层2:池化层2的输出为16*5*5,池化层不需要补零,F=2,S=2。
全连接层1:输入为16*5*5,输出为120。
全连接层2:输入为120,输出为84。
全连接层2:输入为84,输出为10(最终输出的10种分类)
Pytorch代码(卷积层的channel较原文有变动)
首先创建一个类LeNet并继承nn.Moudle
类LeNet中定义两个重要部分:__init__及forward,其中__init__定义搭建网络中需要使用的网络结构(两个卷积层,两个池化层,三个全连接层),forward定义正向传播过程,使用relu作为激活函数(原文使用sigmoid作为激活函数,因为当时并没有relu)
经第二个池化层进入第一个全连接层之前要使用view将数据由矩阵变为一维向量。
class LeNet(nn.Module):
def __init__(self):
super(LeNet, self).__init__()
self.conv1 = nn.Conv2d(3, 16, 5)
self.pool1 = nn.MaxPool2d(2, 2)
self.conv2 = nn.Conv2d(16, 32, 5)
self.pool2 = nn.MaxPool2d(2, 2)
self.fc1 = nn.Linear(32*5*5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
def forward(self, x):
x = F.relu(self.conv1(x)) # input(3, 32, 32) output(16, 28, 28)
x = self.pool1(x) # output(16, 14, 14)
x = F.relu(self.conv2(x)) # output(32, 10, 10)
x = self.pool2(x) # output(32, 5, 5)
x = x.view(-1, 32*5*5) # output(32*5*5)
x = F.relu(self.fc1(x)) # output(120)
x = F.relu(self.fc2(x)) # output(84)
x = self.fc3(x) # output(10)
return x