【读论文】FCN用于语义分割的全卷积网络：Fully Convolutional Networks for Semantic Segmentation

本文链接：https://blog.csdn.net/weixin_46221106/article/details/130445362

用于语义分割的全卷积网络（FCN）

主要翻译了一下《Fully Convolutional Networks for Semantic Segmentation》这篇论文
对里边重要的部分（有图像直观展示）进行了一些翻译

fcn开源代码

github下载地址https://github.com/shelhamer/fcn.berkeleyvision.org

摘要

卷积网络是强大的视觉模型，它能产生不同层次的特征。我们提出的这个卷积网络本身，通过端到端、像素到像素的训练，在语义分割方面超过了最先进的水平。我们的关键见解是建立 "全卷积 "网络（FCN）。该网络接受任意大小的输入，通过高效的推理和学习，产生形成相应大小的输出。

我们定义并详细说明了全卷积网络的空间结构，解释了它们在空间密集的预测任务中的应用，并得出与先前模型的联系。我们改写了现在的分类网络（AlexNet、VGGnet和GoogLeNet）【注：当时还没有resNet，后面的代码用的主干网络是resNet】使它成为全卷积网络，并通过微调将其学习到的表征转移到全卷积网络中。
然后，我们我们定义了一种新颖的架构，它将来自深层的语义信息与来自浅层、细层的外观信息相结合，以产生准确和详细的分割。

我们的全卷积网络实现了对PASCAL VOC（相对于2012年的62.2%的mean IU改善了20%）、NYUDv2、和SIFT Flow效果最好的分割，而推理一张典型的图像速度只需要不到五分之一秒。

图1、全卷积网络能够有效地学习对语义分割等任务逐像素任务进行密集预测

图2、将全连接层转换为卷积层，使分类网可以输出热图。添加层和空间损失（如图1）产生一个高效的端到端密集学习的机器。

图4、通过融合来自不同跨距的层的信息来精炼全卷积网络，提高了分割细节。前三张图像显示了32、16和8像素步幅网的输出(参见图3)。

图3、我们的DAG网络将粗糙的、高层次的信息与细致的、低层的信息结合起来学习。层显示为网格，显示相对的空间粗糙程度。只显示池化层和预测层；中间卷积层(包括我们转换的全连接层)被省略。

实线(FCN-32s)：我们的单流网络，在第4.1节中描述，上采样在一个步骤中将32个预测跨回像素。虚线(FCN-16s)：结合最后一层和pool4层的预测，在步幅16处，让我们的网络预测更精细的细节，同时保留高级语义信息。

虚线(FCN-8s)：在步幅8处，来自pool3的额外预测提供了进一步的精度。

图5、在全部图像上进行训练和取一部分图像进行训练同样有效，但通过更有效地使用数据，可以更快地收敛。左图显示了在固定的预期批量大小下采样对收敛速度的影响，而右图则是对收敛时间的影响

图6、全卷积分割网络在PASCAL上产生了最先进的性能。左栏展示了我们性能最高的网络fcn -8的输出。第二个是Hariharan等在之前最先进的系统产生的分割。

注意分割出来的精细程度(第一行)，分离紧密接触对象的能力(第二行)，以及健壮性(第三行)。第四行是一个失败案例:网络将船上的救生衣视为人

后续有空更新…