以 FCN 和 SegNet 为代表的图像分割方法与传统的 CNN 一样,先对图像做卷积再做池化。其中池化的意义一方面是降低计算量,另一方面是增大感受野
但图像分割是 pixel-wise 输出,因此上面两种方法将池化后的图像做上采样(反卷积),使尺寸与输入一致。在减小到增大尺寸的过程中,很大一部分信息丢失掉了
Dilated Convolutions【1】直接丢掉池化层,使用膨胀(空洞)卷积的方法实现了“去掉下采样操作的同时不降低网络的感受野”的效果
图1. 分割精度对比:空洞卷积(67.6) FCN-8s(62.2) 和 DeepLab(62.9)
空洞卷积(Dilated conv)
这是一个在 SSD算法 里用到的技术(为了弥补全连接层换为卷积层损失的感受野),这里有相关讨论
这里先从一维做介绍:
图2. 一维空洞卷积示意
如图2所示,(a)为k=3,stride=2 的普通卷积;(b)为k=3,stride=1的卷积;(c)为k=3,stride=1,dilation=2的空洞卷积
这里虽然卷积核长度仍为3,但每隔2个点采样一次(也可以理解为长度为5但其中两个位置权重为0)
二维情况与此类似:
图2. 二维空洞卷积示意
图2(a)为 3∗3 的普通卷积,感受野为