原始图像的特征信息是最完整的,但是为啥还要卷积呢?因为原始图像比如1024乘768的图像,算一下多少个像素点,如果作为输入,下一层(隐含层)有10的5次方个神经元的话,再算算有多少个参数,但是如果用卷积核来卷积,即便用了100多个卷积核去提取特征,参数比起我刚才说的原始图像减少非常非常多,这就是我们需要CNN的原因。还有就是既然卷积了,换句话就是缩小了图像,那为了保证图像精度最大程度上不丢失,就需要多个卷积核,这样就可以保证在降维的同时不失真。然后CNN的层数越多,越深,理论上整个网络中的参数也就越多,学习到原始图像的特征也就越全面。
通过pooling 或 conv strides=2 下采样了以后,输出的长宽变小了,为了防止特征信息丢失,输出通道数要加倍。
卷积层的作用本来就是把输入中的特征分离出来变成新的 feature map,每一个输出通道就是一个卷积操作提取出来的一种特征。在此过程中ReLU激活起到过滤的作用,把负相关的特征点去掉,把正相关的留下。输出的通道数越多就代表分理出来的特征就越多,但也可能存在重复的特征,毕竟是一个概率问题。
如果特征图像被缩小了一半,又不增加通道数,那么特征信息就会有很大概率被ReLU滤掉导致丢失。