Introduction
这篇文章介绍了空间信息与语义信息的原则并提出两种方法显著提高了分割的结果:
首先,文章提出池化破坏了通道内部的空间信息,因为池化之前的卷积可以认为其融合了多个通道空间信息并编码得到高维向量。当然这个问题大家都知道。越低的层得到的分割边缘越清晰位置越明确分辨率也越高,但很多错误分类结果;而高层得到的分割则更正确但边缘也更模糊,不够锐利。于是文章使用了一种data-adapted的基础函数来做上采样,使性能得到了显著提高。
随后,文章认为相比于以前通过拼接或是相加对于空间信息的恢复与跨层的信息融合都不太好。拼接会来带特征向量的高纬度,也即会使通道的数量显著增加,而加法并不能很好地利用起空间与语义信息的相关性,并不是一个很好的trade-off,因为高分辨率的预测结果会因感受野过小而存在很多噪声预测或者说错误预测,文章发现相比于底层的语义信息,高分辨率的预测结果对最终的预测几乎没有什么影响,因为其大部分内容都被神经网络选择性忽略。
于是文章受到ResNet思想的影响,使用网络去学习残差分割,即利用底层的高分辨率分割结果去学习如何锐化高层的低分辨率结果,使其边缘更加接近真实分割。
Reconstruction with learned basis function
如果是简单得对得到的低分辨率的分割结果进行上采样得到,那么特征图的通道数也会很快地坍塌成类别的数目,比如说从4096变为21,