博主翻译能力有限,在不通顺的地方提供英文原文。
专业术语:
pixel-wise,patch-wise,image-wise的含义如下
pixel-wise字面上的理解一样,一张图片是由一个个pixel组成的,这个是图像的基本单位,像素级别的
image-wise图像级别,比如一张图片的标签是狗,是对整个图片的标注
patch-wise介于像素级别和图像级别的区域,也就是块,每个patch都是由好多个pixel组成的
DOI:10.1109/TPAMI.2016.2572683
出版时间 APR 2017
摘要:卷积网络是一种强大的可视化模型,可以产生特征的层次结构。我们表明,卷积网络本身,训练端到端,像素到像素,在语义分割中提高了以前的最佳结果。我们的关键见解是建立“完全卷积”网络,可以接受任意大小的输入,并通过高效的推理和学习产生相应大小的输出。我们定义并详细描述了完全卷积网络的空间,解释了它们在空间密集预测任务中的应用,并描述了与先前模型的联系。我们将同期的分类网络(AlexNet、VGG网络和GoogLeNet)改编为完全卷积网络,并通过微调细分任务来迁移它们学习到的特征。然后,我们定义了一个跳跃架构,该架构将来自较深、较粗层的语义信息与来自较浅、较细层的外观信息结合起来,以产生准确、详细的分割。我们的完全卷积网络实现了改进的PASCAL VOC分割(2012年30%相对改进到67.2%平均IU), NYUDv2, SIFT Flow和PASCAL- context,而对典型图像的推断需要十分之一秒。
Index Terms—Semantic Segmentation, Convolutional Networks, Deep Learning, Transfer Learning
介绍 卷积网络正在推动认知度的进步。卷积神经网络不仅改进了全图像分类[1],[2],[3],还改进了局部任务的结构化输出。其中包括边界框对象检测[4],[5],[6],部分和关键点预测[7],[8],以及局部对应[8],[9]方面的进展。从粗糙到精细推理的自然下一步是对每个像素进行预测。以前的方法使用卷积神经网络进行语义分割[10][11][12][13][14][15][16],其中,每个像素都用其外围对象或区域的类标记,但该工作解决了缺点。
我们表明,全卷积网络(FCNs)训练端到端,像素到像素的语义分割超过了以