Introduction
这篇文章完成于17年,一作来自于图森科技。这篇文章的主要贡献来自于提出了标准空洞卷积存在的“gridding issue”问题,并着手提出了叫做混合空洞卷积(Hybrid Dilated Convolution, HDC)的模块来解决这个问题。
文章首先把分割网络分为编码器和解码器,由于任务不同,卷积的形式也有不同,因此文章试图将两个encoder与decoder部分的卷积分别进行优化。
在decoder中,大部分的网络使用双线性插值来扩大特征图,然后使用条件随机场(CRF)来得到精准的分割结果。文章认为,双线性插值是一个不可学习的过程,简单地放大特征图会失去细节,在受到图像超分辨率的启发后,文章提出了dense upsampling convolution的模块。
Instead of trying to recover the full-resolution label map at once, we learn an array of upscaling filters to upscale the downsized feature maps into the final dense feature map of the desired size.
也就是说,文章使用卷积核来把低分辨的特征图处理成高分辨率,处理的方式就是让神经网络认为每个低分辨率的像素相邻几个channel的像素值是高分辨率特征图上对应位置像素周围的值,换句话说,生成的低分辨率高通道数的特征图是被reshape成高分辨率低通道数的特征图,而不是像以前一样用resize生成。
在encoder中,空洞卷积则是一种非常常见的卷积方式,因为其保留了高分辨率又提供了大感受野。然而,文章发现,空洞卷积存在一种叫做“gridding”的问题。随着空洞卷积的进行,卷积核覆盖的有效区域就如同一个国际象棋的棋盘呈网格状,反而会丢失掉很多临近点的信息,随着空洞的rate增加这种现象也会愈发严重。因此文章在每一个CNN的block内使用多个不同速率的空洞卷积并行计算,再把特征图拼接起来。
Dense Upsampling Convolution
DUC的结构如下所示:
假设DUC输入的特征图维度为 h∗w∗c h ∗ w ∗ c ,那么DUC会使用卷积输出一个维度为