论文链接:https://arxiv.org/pdf/1506.04579.pdf
代码:https://github.com/weiliu89/caffe/tree/fcn
摘要:
论文提出了在语义分割的深度神经网络中添加全局信息,即对一个卷积层,使用平均特征来增强每个位置的特征。除此之外,还提出了训练模型的几个方法,显著的提高了基准模型的性能。当添加论文提出的全局特征和学习正则化参数的技术时,即使在基线的改进版本上,精确度也会不断提高。论文提出的方法叫ParseNet,在Sift-Flow和PASCAL-Context两个数据集上实现了最先进的性能,仅仅比基准网络增加了很小的计算量,并且在PASCAL VOC 2012语义分割上使用一种简单的方法实现了接近当前水平的性能。
思路:
目前基于深度学习的语义分割算法中FCN比较流行,但是,FCN是采用滑动窗口移动图像来提取特征分类,这些滑动的小窗口基本是独立的,仅仅能提取到局部信息,因此丢失了全局信息。在这些全局信息对图像分割的性能是很有用的。后面的研究者为了能获取更多的全局信息,采用了将CRF和FCN结合方式,但是这种方式比较复杂,由多个模块组成,训练起来很需要技巧。在这篇论文里面,作者提出了一个端到端训练的语义分割网络ParseNet,使用全局信息来帮助局部信息进行分类,如图1