一、LeNet-5
LeNet-5 是针对灰度图片训练的,所以图片的大小只 有 32×32×1(灰度图片单通道)
网络结构:输入图片-->卷积-->池化-->卷积-->池化-->全连接层-->全连接层-->输出10个值(softmax)
该结构所使用的非线性激活函数为sigmoid或tanh,最后使用的是softmax。该结构的参数大约有6万个。
二、AlexNet
AlexNet的输入图片是RGB格式的彩色图片(三通道)
网络结构:输入图片-->卷积-->池化(max)-->卷积(same)-->池化(max)-->卷积(same) -->卷积(same)-->卷积(same)-->池化(max)-->Flatten(展开)-->全连接层(FC)-->全连接层(FC)-->输出(softmax)
该结构相比于LeNet-5来说输入图片为彩色图片,神经网络更大,参数大约有6000万个,是LeNet-5的1000倍。
AlexNet表现更出色的原因:
1、当处理的模块包含有大量的隐藏单元或数据时,效果更好。
2、激活函数采用了Relu。
三、VGG-16
VGG-16 的这个数字 16,就是指在这个网络中包含 13个卷积层和3个全连接层,卷积的stride为1,padding为1,maxpool的大小为2,stride为2。
vgg网络结构可以看作两部分:特征提取网络(连接层之前)+分类网络(3层全连接层)
VGG16包含约 1.38 亿个参数,优点是网络结构虽然比较深,但结构不复杂,主要缺点是需要训练的特征数量非常巨大。
在vgg网络中,按照道理来说,随着层数的不断提高,网络模型会越来越好,但是研究发现,随着层数的不断提高,准确率缺不断下降,为了这个问题,随后提出的残差网络,解决了这一问题。