一、二维卷积层
卷积神经⽹网络(convolutional neural network)是含有卷积层(convolutional layer)的神经⽹网络。
二维卷积层输出的⼆二维数组可以看作是输⼊入在空间维度(宽和⾼高)上某⼀一级的表征,也叫特征图(feature map)。影响元素 的前向计算的所有可能输⼊入区域(可能⼤大于输⼊入的实际尺⼨寸)叫做 的感受野(receptive field)。
二、填充和步幅
填充可以增加输出的⾼高和宽。这常⽤用来使输出与输⼊入具有相同的⾼高和宽。
步幅可以减⼩小输出的⾼高和宽,例例如输出的⾼高和宽仅为输⼊入的⾼高和宽的 ( 为⼤大于1的整数)
三、多通道输入与输出
使⽤用多通道可以拓拓展卷积层的模型参数。
假设将通道维当作特征维,将⾼高和宽维度上的元素当成数据样本,那么 卷积层的作⽤用与全连接层等价。
四、池化层
它的提出是为了了缓解卷积层对位置的过度敏敏感性。
在处理理多通道输⼊入数据时,池化层对每个输⼊入通道分别池化,⽽而不不是像卷积层那样将各通道的输⼊入按通道相加。这意味着池化层的输出通道数与输⼊入通道数相等。
五、LeNet
卷积层块⾥里里的基本单位是卷积层后接最⼤大池化层:卷积层⽤用来识别图像⾥里里的空间模式,如线条和物体局部,之后的最⼤大池化层则⽤用来降低卷积层对位置的敏敏感性。卷积层块由两个这样的基本单位重复堆叠构成。在卷积层块中,每个卷积层都使⽤用 的窗⼝口,并在输出上使⽤用sigmoid激活函数。第⼀一个卷积层输出通道数为6,第⼆二个卷积层输出通道数则增加到16。这是因为第⼆二个卷积层⽐比第⼀一个卷积层的输⼊入的⾼高和宽要⼩小,所以增加输出通道使两个卷积层的参数尺⼨寸类似。卷积层块的两个最⼤大池化层的窗⼝口形
状均为 ,且步幅为2。由于池化窗⼝口与步幅形状相同,池化窗⼝口在输⼊入上每次滑动所覆盖的区域互不不重叠。
六、ALEXNET
第一,与相对较⼩小的LeNet相⽐比,AlexNet包含8层变换,其中有5层卷积和2层全连接隐藏层,以及1个全连接输出层。第二,AlexNet将sigmoid激活函数改成了了更更加简单的ReLU激活函数。第三,AlexNet通过丢弃法来控制全连接层的模型复杂度。⽽而LeNet并没有使⽤用丢弃法第四,AlexNet引⼊入了了⼤大量量的图像增⼴广,如翻转、裁剪和颜⾊色变化,从⽽而进⼀一步扩⼤大数据集来缓解过拟合。
七、VGG
VGG块的组成规律律是:连续使⽤用数个相同的填充为1、窗⼝口形状为 的卷积层后接上⼀一个步幅为2、窗⼝口形状为 的最⼤大池化层。卷积层保持输⼊入的⾼高和宽不不变,⽽而池化层则对其减半。它有5个卷积块,前2块使⽤用单卷积层,⽽而后3块使⽤用双卷积层。
八、NIN
NiN使⽤用卷积窗⼝口形状分别为、 和 的卷积层,相应的输出通道数也与AlexNet中的⼀一致。每个NiN块后接⼀一个步幅为2、窗⼝口形状为 的最⼤大池化层。