NIN(network in network):该篇论文最大创新点有两个,一个是全局平均池化(Global Average Pooling,GAP),另一个是mlpconv层的提出。
1 全局平均池化根本在于将最后卷积层的输出特征图,对于每一个特征图求全局平均,输出神经元个数对应特征图的通道数。
(1) 有效减少参数数量(相比较全连接层)。
(2) 减轻过拟合。
(3) 更符合CNN特点,使feature map和类别信息产生直接映射,分类过程可理解性更强。
(4) 求和取平均操作综合了空间信息,使模型的鲁棒性更强。
(5) 缺点:对特征图简单的加权取平均操作可能会丢失一些有用信息。
2 mlpconv层的根本思想就是在原始卷积之后添加入多层感知机mlp,以此提高特征的 非线性,官方给出解释如下:为了增强模型在其感知野内的辨别能力,通常是由卷积滤波器(一个通用线性模型(GLM))提取各个抽象特征,当这些被提取的特征是线性的,卷积滤波器是够用的,但这显然不符合事实,比如我们要提取某个特征,于是我就用了一大堆的滤波器,把所有可能的提取出来,这样就可以把我想要提取的特征也覆盖到,然而这样存在一个缺点,那就是网络太恐怖了,参数太多了。因此作者用一个通用的函数逼近器(mlp)(这里认为mlp可以逼近所有线性、非线性函数)来进行特征提取,通过在每个感知野中加入更加复杂的结构来进行数据的抽象。(加入非线性部分)
下面随意给了一个mlpconv示意图:
(1) 实现特征图的跨通道聚合
(2) 通过设置1x1卷积核的数量可以实现特征的降维或升维,这在之后的GoogLeNet中有所应用;同时可以减少网络参数数量。