We present an interpretation of Inception modules in convolutional neural networks as being an intermediate step in-between regular convolution and the depth wise separable convolution operation(a depth wise convolution followed by a point wise convolution).
思想
基于Inception系列网络结构的基础上,结合depthwise separable convolution
- 假设:
- 卷积在3个维度上进行学习,因此卷积需要既要考虑空间相关性,又要考虑channel相关性:
- spatial dimensions(width and height)
- channel dimension
- corss-channel correlations和spatial correlations是充分解耦合的,没有必要将他们叠加在一起
注:关于空间width和height解耦合可以参考Inception V3论文
- 卷积在3个维度上进行学习,因此卷积需要既要考虑空间相关性,又要考虑channel相关性:
思想:将Inception modul拆分成一系列操作,独立处理spatial-correlations和cross-channel correlations,网络处理起来更加简单有效
- 首先通过‘1x1’卷积,将输入数据拆分cross-channel相关性,拆分成3或者4组独立的空间
- 然后,通过‘3x3’或者‘5x5’卷积核映射到更小的空间上去
Q:为什么Inception module可以用depthwise separable convolution替代?
首先,对于原始的Inception模块,如Inception V3,结构如下:
模块中,基本上先通过一系列1x1卷积降维,然后再通过3x3卷积提取特征。如果我们将上述结构再进行简化,可以得到如下简化结构