对于python/pytorch初学者,可以先熟悉python中类的使用,以及nn.Module模块的相关定义
- python中类的init()的两种定义方式:python def init(self, name等多参数), def init(self)
- super()以及python2和python3中使用super()的不同点:python中super().init()
- 在继承 nn.Module 的神经网络模块在实现自己的 init 函数时,一定要先调用 super().init()。只有这样才能正确地初始化自定义的神经网络模块,否则会缺少相关成员变量而导致模块被调用时出错。PyTorch 源码解读之 nn.Module:核心网络模块接口详解
nn.Conv2d中各参数的含义可以见我的上篇博客,卷积结构的类型及各自适用场景(结合Pytorch代码讲解)
nn.linear()用于设置全连接层,关于全连接层的讲解可以参考这篇博客CNN卷积层、池化层、全连接层
下面结合神经网络结构图讲解一下LeNet-5的pytorch实现,代码每一行都作了注释,并和图片对应,以便理解。
class LeNet5(nn.Module):
def __init__(self):
super(LeNet5).__init__()
self.conv1 = nn.Conv2d(1,6,5) //输入:32*32的图片 输出:6@28*28 (32+1-5=28)
self.conv2 = nn.Conv2d(6,16,5) //输入:6@14*14 输出:16@10*10 (14+1-5=10)
self.fc1 = nn.Linear(16*5*5,120) //全连接层
self.fc2 = nn.Linear(120,64)
self.fc3 = nn.Linear(64,10)//连续进行三次全连接,可以更好地解决非线性问题
def forward(self,x):// 定义前向传播(pytorch中反向传播自动计算,无需手推)
x = F.max_pool2d(F.relu(self.conv1(x)),(2,2)) //对应图中Input到C1到S2,卷积+relu激活函数,然后用2*2的filter进行最大池化从而降维压缩、加快速度
x = F.max_pool2d(F.relu(self.conv2(x)),(2,2)) //对应图中S2到C3到S4
x = x.view(-1,self.num_flat_features(x)) //展平,将16*5*5的三维向量展成一维向量,才能做全连接
x = F.relu(self.fc1(x)) // 对应S4到C5
x = F.relu(self.fc2(x)) //对应C5到F6
x = self.fc3(x) //对应F6到output
return x
在实际问题中,网络的层数,每层feature map的数量,卷积的方式和卷积核的大小,以及池化的采样率等等都需要不断调整,这就是CNN调参的过程。