参考《深入浅出图神经网络》。
AlexNet由5个卷积层、2个池化层、3个全连接层组成。受当时硬件条件的影响,单个GPU无法运行这么大规模的模型,所以分为了两部分。在《深入浅出图神经网络》的介绍中,将两部分合为了一部分介绍。
输入:224*224*3大小的图像
第一层:卷积层,卷积核大小11*11,输出96个特征图,输入为3个通道,所以卷积核的维度。步长为4,填充padding = 2。因此输出特征图为, 其中,
第二层:池化层,最大池化,大小3*3, 步长2, 输出大小为:(55-3)/2 + 1 = 27,池化层输出为。
第三层:卷积层,卷积核大小为5*5,输出为256个特征图,因此卷积核维度5*5*96*256,步长为1,填充2,输出特征图的维度:, 其中,
卷积后使用ReLU函数。
第四层:最大池化层,大小3*3,步长3
第五到七层:卷积层,卷积核大小3*3,输出的特征图分别为:384、384、256,步长1,填充1,卷积后都使用ReLU激活函数。
第八层:池化层。窗口大小3*3,步长2,输出未6*6*256
最后三层:全连接层,将卷积操作的输出展平,得到全连接层的输入9216,三层神经元个数分别为:4.96、4096、1000,最后得到1000为的输出。
以上是《深入浅出图神经网络》的内容,在此其实我有很大的疑问:
如何确定的神经网络结构?几层卷积、几层全连接层如何确定?如何确定卷积核大小,和卷积步长,如何确定是使用最大池化还是别的池化。
这些疑问我将进一步学习,并发布新的博客。