论文下载地址: 《SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation》
摘要
提出了一种新颖实用的用于语义像素分割的深度全卷积神经网络结构SegNet。其核心的分割网络由一个编码器网络、一个对应的解码网络和一个像素级分类层组成。编码器网络的结构在拓扑上与VGG16网络中的13个卷积层相同。解码器网络的作用是将低分辨率编码器的特征映射到全输入分辨率的特征图,以进行像素级分类。SegNet的新颖之处在于解码器对其低分辨率输入特征映射进行上采样的方式。具体地说,解码器使用在对应编码器的最大池化步骤中计算的池索引来执行非线性上采样。
这就消除了学习向上采样的需要。上采样的地图是稀疏的,然后用可训练的卷积层卷积得到稠密的特征地图。我们将我们提出的结构与广泛采用的FCN以及著名的DeepLab LargeFOV,DeconvNet结构进行了比较。这种比较揭示了实现良好分割性能所涉及的内存与精度的权衡。
SegNet的主要针对场景理解应用。因此,它在被设计时,兼具在推理过程中在内存和计算时间方面的有效性。SegNet的<