Fully Convolutional Networks for Semantic Segmentation语义分割开篇之作

最新推荐文章于 2024-06-20 09:30:48 发布

Q and B

最新推荐文章于 2024-06-20 09:30:48 发布

阅读量487

点赞数 1

文章标签：深度学习 tensorflow pytorch 神经网络机器学习

本文链接：https://blog.csdn.net/weixin_47031898/article/details/118344302

版权

Fully Convolutional Networks for Semantic Segmentation语义分割开篇之作

用于语义分割的全卷积网络

本人研究生期间所选方向是语义分割，目前与大家分享的是的第一篇基于深度学习的语义分割方法的论文；下篇博客将分享相关代码。如有理解不到，欢迎大家批评指正。
#######################不喜勿喷，谢谢观看####################

Jonathan Long∗
Evan Shelhamer∗
Trevor Darrell
UC Berkeley
{jonlong,shelhamer,trevor}@cs.berkeley.edu

摘要

卷积网络是产生特征层次的强大可视化模型。（研究成果：共5点）我们证明了经过训练的端到端、像素到像素的网络，在语义分割方面超过了最先进的水平。 ** 我们的核心观点是构建“全卷积”网络，它接受任意大小的输入，并通过有效的推理和学习产生相应大小的输出。****我们定义并详细描述了全卷积网络的空间结构，解释它们在空间密集预测任务中的应用，并与之前的模型建立联系。**我们将当前的分类网络(AlexNet [20]，VGGNet[31]，和GoogLeNet[32])改造为完全卷积网络，并通过微调的手段来其学习表现转换到分割任务当中。**然后，**我们定义了一个跳跃连接(跨层)，将来自深层的语义信息与来自浅层的表征信息结合在一起，以生成准确而详细的分割。**我们的全卷积网络在PASCAL VOC(20%相对2012年的结果提高了接近20%，达到62.2%的mIU)， NYUDv2和SIFT Flow数据集上进行了评测，都取得了最先进的结果，而对一个典型图像的推理只需要不到0.2秒。

1. 介绍

卷积网络正在推动识别领域的进步。它不仅在全图像分类有了很大的提高[20,31,32]，而且在具有结构化输出的局部任务上也取得了进展。其中包括边界对象检测[29,10,17]、部分和关键点预测[39,24]和局部对应[24,8]方面的进展。
从粗糙推理到精细推理然后到对每个像素进行预测是一个自然发生的历程。之前的方法使用卷积神经网络进行语义分割[27,2,7,28,15,13,9]，其中每个像素都用其封闭对象或区域的类别进行标记，但这些网络还有一些缺点尚未解决。
我们证明了一个完全卷积网络（FCN）在语义分割方面经过训练的端到端，像素到像素超出了现有技术水平，而无需进行进一步的处理。据我们所知，这是第一次对FCNs进行端到端的像素级预测，以及在有监督的前提下进行预训练。全卷积网络通过对现有网络的改进，能够接收任意尺寸的输入和相应尺寸的输出。通过前向传播和反向传播，在整幅图像上进行学习和推理。网络内通过上采样的方式进行预测，通过下采样的方式进行学习。
在这里插入图片描述
图1全卷积网络可以有效地学习对像语义分割这样的每像素任务进行密集预测
该方法在渐近性和绝对性两方面都是有效的，并排除了其他工作中的复杂性。分块训练很常见[27,2,7,28,9]，但是缺乏全卷积训练的效率。我们的方法没有利用预处理（图片或者数据）和后处理（算法）的复杂性，这些传统方法包括超像素[7,15]，建议[15,13]，或随机字段或局部分类器的事后优化[7,15]。我们的模型将最近在分类方面取得成功的分类网络[20,31,32]迁移到语义分割中来，并对其学习后的表征进行微调，使其更适合语义分割任务。相比之下，以前的研究中采用的是小型卷积网络，或者采用无监督的预训练方式。
语义分割面临着语义和位置之间的内在矛盾：全局信息是解决目标是什么问题，而局部信息解决目标在哪里的问题。在深层次结构特征中，将局部和语义信息通过一种非线性（编码）结合起来。我们定义了一个跳跃连接，将深层次的、粗糙层次的语义信息（全局信息）和浅层次的、精细层次的表征信息（局部信息）结合起来。如第4.2节中图3所示。
在下一节中，我们将回顾有关深度分类网络、fcn和最近使用卷积神经网络进行语义分割方法的相关工作。以下章节将解释FCN设计和密集预测的权衡，介绍我们的网络内上采样和多层组合的体系结构，并描述我们的实验框架。最后，我们展示了PASCAL VOC 2011-2、NYUDv2和SIFT Flow的最新结果。

2. 相关工作

我们的方法借鉴了最近用于图像分类[20，31，32]和迁移学习[3，38]的深网成功经验。首先在不同的视觉上显示识别任务[3，38]，然后是检测，以及以及混合提议(proposal)分类器模型中的实例分割和语义分割[10，15，13]。我们现在重新构建并微调分类网络，以进行语义细分的直接，密集的预测。我们绘制了FCN的空间结构图，并在这个框架中定位了之前和最近的先验模型。
全卷积网络据我们所知，将卷积神经网络扩展到任意大小的输入的这一想法首先出现在Matan等人。[26]，它扩展了经典的LeNet[21]来识别数字串。由于它们的网络仅限于一维输入字符串，因此Matan等人使用维特比解码来获得其输出。
Wolf和Platt [37]将卷积神经网络输出扩展到邮政地址块四个角的检测分数的二维图。这两个历史作品都做了推理和学习完全卷积的检测。 Ning等人。[27]定义了一个卷积网络，用于使用完全卷积推理对（C. elegans）秀丽隐杆线虫组织进行粗分类。
在目前的多层网络时代，完全卷积计算也得到了利用。滑动窗口检测由Sermanet等人。[29]，Pinheiro和Collobert[28]的语义分割，以及Eigen等人的图像恢复。[4]做完全卷积推理。虽然完全卷积训练很少，但是Tompson等人有效地使用了。[35]研究了端到端目标检测器和空间用于姿势估计的模型，尽管他们没有公开或者分析一下这个方法。
此外，He等人 [19] 在特征提取时丢弃了分类网的无卷积部分。他们结合proposals和空间金字塔池来产生一个局部的、固定长度的特征用于分类。尽管快速且有效，但是这种混合模型不能进行端到端的学习。
近期的一些工作已经将卷积网应用于密集预测问题，包括Ning等人的语义分割 [30] ,Farabet等人 [9] 以及Pinheiro和Collobert [31] ；Ciresan等人的电子显微镜边界预测 [3] 以及Ganin和Lempitsky [11] 的通过混合卷积网和最邻近模型的处理自然场景图像；还有Eigen等人 [6,7] 的图像修复和深度估计。这些方法的相同点包括如下：
•限制容量和接受野的小型模型；
•块训练[27,2,7,28,9]；
•超级像素投影的预处理、随机场正则化、滤波或局部分类 [7,2,9] •对于密集输出采用输入移位和输出交错的方法[29, 28, 9];
•多尺度金字塔处理[7、28、9]；
•饱和双曲线正切非线性[7,4,28]；以及
•集成[2，9]，
然而我们的方法确实没有这种机制。但是我们研究了块训练（3.4节）和从FCNs的角度出发的shift-and-stitch”dense输出（3.2节）。我们也讨论了网内上采样（3.3节），其中Eigen等人[7]的全连接预测是一个特例。
与这些现有的方法不同，我们适应和扩展了深度分类体系结构，使用图像分类作为有监督的预训练，，和从全部图像的输入和ground truths(用于有监督训练的训练集的分类准确性)通过全卷积微调进行简单且高效的学习。
Hariharan等人 [17] 和Gupta等人 [13] 也改编深度分类网络到语义分割，但是也在混合proposal-classifier模型中这么做了。这些方法通过采样边界框和region proposal进行微调了R-CNN系统 [10] ，用于检测、语义分割和实例分割。这两种办法都不能进行端到端的学习。他们分别在PASCAL VOC和NYUDv2实现了最好的分割效果，所以在第5节中我们直接将我们的独立的、端到端的FCN和他们的语义分割结果进行比较。
我们通过跨层和融合特征来定义一种非线性的局部到整体的表述用来协调端到端。在现今的工作中Hariharan等人 [16] 也在语义分割的混合模型中使用了多层。

3. 全卷积网络

卷积网的每层数据是一个hwd的三维数组，其中h和w是空间维度,d是特征或通道维数。第一层是像素尺寸为h*w、彩色通道数为d的图像。较高层中的位置和图像中它们连通的位置相对应，被称为感受域。
卷积网是以平移不变形作为基础的。其基本组成部分（卷积，池化和激活函数）作用在局部输入域，只依赖相对空间坐标。在特定层记为在坐标(i,j)的数据向量，在following layer有，的计算公式如下:
在这里插入图片描述

其中k为卷积核大小，s是步长或下采样因子，决定了层的类型：矩阵用于卷积的乘运算或者是平均池化，用于最大池的最大空间值或者是一个激励函数的一个非线性元素，亦或是层的其他种类等。
当卷积核大小和步长遵从转换规则，这个函数形式被表述为如下形式：
在这里插入图片描述

当一个普通深度的网络计算一个普通的非线性函数，一个网络只有这种形式的层计算非线性滤波，我们称之为深度滤波或全卷积网络。FCN理应可以计算任意尺寸的输入并产生相应（或许重采样)空间维度的输出。一个实值损失函数有FCN定义了任务。如果损失函数是一个最后一层的空间维度总和,
在这里插入图片描述

它的梯度将是它的每层空间组成梯度总和。所以在全部图像上的基于的随机梯度下降计算将和基于的梯度下降结果一样，将最后一层的所有感受域作为minibatch（分批处理）。
在这些感受域重叠很大的情况下，前向传播和反向传播计算整个图形的叠层都比独立的patch-by-patch有效的多。
我们接下来将解释怎么将分类网络转换到能产生粗输出图形的全卷积网络。对于像素级预测，我们需要连接这些粗略的输出结果到像素。3.2节描述了一种技巧，快速扫描[11]因此被引入。我们通过将它解释为一个等效网络修正而获得了关于这个技巧的一些领悟。作为一个高效的替换，我们引入了反卷积层用于上采样见3.3节。在3.4节，我们考虑通过逐块取样训练，便在4.3节证明我们的全图式训练更快且同样有效。

3.1 改编分类用于密集预测

典型的识别网络，包括LeNet [21] , AlexNet [20] , 和一些后继者 [31, 32] ，表面上采用的是固定大小的输入产生了非空间的输出。这些网络的全连接层有确定的位数并丢弃空间坐标。然而，这些全连接层也被看做是覆盖整个输入区域的卷积核。需要将它们加入到可以采用任何尺寸输入并输出分类图的全卷积网络中。这种转换如图2所示。
在这里插入图片描述

图2。将全连接层转换为卷积图层使分类网络能够输出热图。添加分层和空间损失（如图1所示）为端到端学习提供了一种高效的机制。
此外，生成的图相当于原始网络对特定输入块的评估，计算在重叠部分被高度分摊这些小块的区域。例如，AlexNet 1.2ms（在典型的GPU上）来推断分类分数在227×227图像中，完全卷积网络需要22ms要从500×500图像生成10×10网格的输出，这比自然方法快5倍多。
这些卷积模型的空间输出图使它们成为诸如语义分割之类的密集问题的自然选择。每个输出单元ground truth可用，正推法和逆推法都是直截了当的，都利用了卷积的固有的计算效率(和可极大优化性)。对于AlexNet例子相应的逆推法的时间为单张图像时间2.4ms，全卷积的10*10输出图为37ms，结果是相对于正推法速度加快了。
当我们将分类网络重新解释为任意尺寸输出的全卷积域输出图，输出维数也通过下采样显著的减少了。分类网络下采样使filter保持小规模同时计算要求合理。这使这些网络的完全卷积形式的输出变得粗糙，从而将其从输入大小中减小到等于输出单元感受域的像素跨度的倍数。

3.2 Shift-and stitch是滤波稀疏

密集预测能从粗糙输出中通过从输入的平移版本中将输出拼接起来获得。如果输出是因为一个因子f降低采样，平移输入的x像素到左边，y像素到下面，一旦对于每个(x,y)满足0<=x，y<=f处理个输入，并将输出交错以便预测和它们感受域的中心像素一致。
尽管单纯地执行这种转换增加了的这个因素的代价，有一个非常有名的技巧用来高效的产生完全相同的结果 [11,29] ，这个在小波领域被称为多孔算法 [25] 。考虑一个层（卷积或者池化）中的输入步长s,和后面的滤波权重为的卷积层（忽略不相关的特征维数）。将下层的输入步长设置为1，将其输出设置为s的因子。然而，将原始滤波与上采样输出进行卷积不会产生与shift-and-stitch相同的结果，因为原始滤波仅看到其（现在已上采样）输入的简化部分。为了重现这种技巧，通过扩大来稀疏滤波，如下：
在这里插入图片描述

（以i和j为零）。重现该技巧的全网输出需要重复一层一层放大这个filter直到所有的下采样被移除。（实际上，这可以通过处理子采样版本有效地完成上采样输入。）在网内减少二次采样是一种折衷的做法：filter能看到更精细的信息，但是感受野更小而且需要花费很长时间计算。Shift-and -stitch技巧是另外一种折衷做法：输出更加密集且没有减小filter的感受野范围，但是相对于原始的设计filter禁止以更细的范围访问信息。（技巧1）
尽管我们已经利用这个技巧做了初步的实验，但是我们没有在我们的模型中使用它。正如在下一节中描述的，我们发现从上采样中学习更有效和高效，特别是接下来要描述的结合了跨层融合。

3.3 上采样是向后向卷积

另一种连接粗糙输出到密集像素的方法就是插值法。例如，简单的双线性插值通过仅依赖于输入和输出像元的相对位置的线性映射从最近的四个输入计算每个输。
从某种意义上，伴随因子的上采样是对步长为的分数式输入的卷积操作。只要是整数，一种自然的方法进行上采样就是向后卷积（有时称为去卷积）伴随输出步长为。这样的操作实现是不重要的，因为它只是简单的调换了卷积的正推法和逆推法。因此，通过从像素方向的损失进行反向传播，在网络中执行上采样以进行端到端学习。
需要注意的是反卷积在这种层面上不需要被固定不变（比如双线性上采样）但是可以被学习。一堆反卷积和激励函数甚至能学习一种非线性上采样。
在我们的实验中，我们发现在网内的上采样对于学习密集预测是快速且有效的。我们最好的分割架构利用了这些层来学习上采样用以微调预测，见4.2节。

3.4 块训练是一种损失采样

在随机优化中，梯度计算是由训练分布控制的。块训练和全卷积训练能被用来产生任和分布，尽管他们相对的计算效率依赖于重叠域和minibatch的大小。在每一个由所有的单元感受野组成的批次在图像的损失之下（或图像的集合）整张图像的全卷积训练等同于就、块训练。当这种方式比patches的均匀取样更加高效的同时，它减少了可能的批次数量。然而在一张图片中随机选择patches可能更容易被重新找到。限制基于它的空间位置随机取样子集产生的损失（或者可以说应用输入和输出之间的DropConnect mask [39] ）排除来自梯度计算的patches。
如果保存下来的patches依然有重要的重叠，全卷积计算依然将加速训练。如果梯度在多重逆推法中被积累，batches能包含几张图的patches。块训练中的采样能纠正分类差异 [30,9,3] 和减轻密集空间相关性的影响[31,17]。在全卷积训练中，分类平衡也能通过给损失赋权重实现，对损失采样能被用来标识空间相关。
我们在第4.3节中探讨了采用采样的训练，但没有发现对于密集的预测它会产生更快或更佳的收敛效果。整体形象训练是有效而高效的

4 分割架构

我们将ILSVRC分类应用到FCNs，并通过网络内上采样和逐像素损失对它们进行增强以进行密集的预测。我们通过微调训练细分。接下来我们增加了跨层来融合粗的、语义的和局部的表征信息。这种跨层式架构能学习端到端来改善输出的语义和空间预测。
为此，我们训练和在PASCAL VOC 2011分割挑战赛[8]中验证。我们使用每个像素的多项逻辑损失进行训练，并使用平均交并比的标准度量进行验证，并采用包括背景在内的所有类别的均值。这个训练忽略了那些在groud truth中被遮盖的像素（模糊不清或者很难辨认）。
在这里插入图片描述

图3。我们的DAG网络学习将粗、高层信息与精细、低层信息相结合。池和预测层是显示为相对空间粒度的网格，而中间层显示为垂直线。第一行（FCN-32s）：我们的单流网络，如4.1节所述，在一个步骤中将上采样步长为32预测提升到像素。第二行（FCN-16s）：结合最后一层和pool4层的预测，步长为16，让我们的网络预测出更精细的细节，同时保持高层语义信息。第三行（FCN-8s）：pool3在步长为8的额外预测提供了更高的精度。

4.1 从分类到dense FCN

我们在第3节中以卷积化已经证明的分类架构开始。我们认为赢得了ILSVRC12冠军的AlexNet3架构 [20] 和VGG nets [31] 、GoogLeNet4 [32] 一样在ILSVRC14上表现的格外好。我们选择VGG 16网络，发现它和VGG19网络在这个任务（分类）上相当。对于GoogLeNet，我们仅仅使用的最后的损失层，通过丢弃了最后的平均池化层提高了表现能力。我们通过丢弃最终的分类器层来分解每个网络，并将所有全连接层转换为卷积层。我们附加了一个1*1的，通道维数为21的卷积层来预测每个PASCAL分类（包括背景）在每个粗糙的输出位置的得分，后面紧跟一个反卷积层用来双线性上采样粗糙输出到像素密集输出如3.3节中描述。表1将初步验证结果和每层的基本特征比较。我们报告了在固定学习速率（至少175个epoch）收敛后取得的最佳结果（技巧3）
从分类到细分的微调为每个网络提供了合理的预测。甚至最差的模型也能达到大约75%的良好表现。内设分割的VGG网络（FCN-VGG16）已经在val上平均IU 达到了56.0取得了最好的成绩，相比于最先进的52.6 [15] 。在其它数据上的训练将FCN-VGG16提高到59.4，将FCN-AlexNet提高到48.0。尽管相同的分类准确率，我们的用GoogLeNet并不能和VGG16的分割结果相比较。

表1 我们总结并扩展了三个分类卷积。我们通过PASCAL VOC 2011检验集上的平均交并比和推断时间（平均）来比较性能（在NVIDIA Tesla K40c上进行500×500输入的20多次试验）。我们详细介绍了适应性网络的结构与密集度。预测：参数层数，输出单元的感受域大小以及网内最大的步长。（这些数字给出以固定学习率获得的最佳性能，而不是最佳性能。）
在这里插入图片描述

4.2 结合“是什么”和“在哪里”

我们定义了一个新的完全卷积网(FCN)分割，它结合了特征结构的层次，并细化了输出的空间精度。见图3。
当全卷积分类能被微调用于4.1节所示分割，甚至在标准度量上得分更高，它们的输出不是很粗糙（见图4）。最后预测层的32像素步长限制了上采样输入的精细的尺寸。
我们通过添加跨层[1]来解决此问题，这些跨层将最终预测层与较低层的步长相结合。这将线拓扑变成DAG，其边缘从较低的层向前跳到较高的层（图3）。因为它们只能获取更少的像素点，更精细的尺寸预测应该需要更少的层，所以从更浅的网络中将它们输出是有道理的。结合了精细层和粗糙层让模型能做出遵从全局结构的局部预测。与Koenderick 和an Doorn [21]类似，我们把这种非线性特征层称之为deep jet。
我们首先将输出步长分为一半，通过一个16像素步长层预测。我们增加了一个11的卷积层在pool4的顶部来产生附加的类别预测。我们将输出和预测融合在conv7（fc7的卷积化）的顶部以步长32计算，通过增加一个2×的上采样层和预测求和（见图3）。我们初始化这个2×上采样到双线性插值，但是允许参数能被学习，如3.3节所描述、最后，步长为16的预测被上采样回图像，我们把这种网结构称为FCN-16s。FCN-16s用来学习端到端，能被最后的参数初始化。这种新的、在pool4上生效的参数是初始化为0 的，所以这种网结构是以从未修改的预测开始的。这种学习速率是以100次之后进行调整。（技巧4）
学习这种跨层网络mIU提高了3.0达到62.4。图4展示了在精细结构输出上的提高。我们将这种融合学习和仅仅从pool4层上学习进行比较，结果表现糟糕，而且仅仅降低了学习速率而没有增加跨层，导致了没有提高输出质量的没有显著提高表现。
我们继续融合pool3和一个融合了pool4和conv7的2×上采样预测，建立了FCN-8s的网络结构。在平均IU上我们获得了一个较小的附加提升到62.7，然后发现了一个在平滑度和输出细节上的稍微改进。这时我们的融合提高已经得到了一个衰减回馈，既在强调了大规模正确的IU度量的层面上，也在提升显著度上得到反映，如图4所示，所以即使是更低层我们也不需要继续融合。（技巧5）
通过其他方式来改善池化层是获得更精确的预测。然而这么做对我们的基于VGG16的网络带来问题。设置pool5的步长到1，要求我们的卷积fc6核大小为14*14来维持它的感受域大小。另外它们的计算代价，通过如此大的滤波器学习非常困难。*我们尝试用更小的滤波器重建pool5之上的层，但是并没有得到有可比性的结果；一个可能的解释是，上层的ILSVRC初始化是重要的。
另一种获得精细预测的方法就是利用3.2节中描述的shift-and-stitch技巧。在有限的实验中，我们发现从这种方法的提升速率比融合层的方法花费的代价更高。
在这里插入图片描述

图4通过融合来自具有不同跨度的图层的信息来完善全卷积网络，可以改善分割细节。
前三个图像显示了我们32、16和8像素步幅网络的输出（请参见图3）。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210629212949260.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NzAzMTg5OA==,size_16,color_FFFFFF,t_70

表2 跳跃FCNs在PASCALVOC2011的子集上的比较。学习是端到端的，除了FCN-32s-fixed，只有最后一层被微调。请注意，FCN-32s是FCNVG16，重命名为突出步长。

4.3 实验框架

我们用SGD的动量（momentum）训练。我们利用了一个minibatch大小的20张图片，然后固定学习速率为用于FCN-AlexNet, FCN-VGG16,和FCN-GoogLeNet，通过各自的线性搜索选择。我们利用了0.9的momentum,权值衰减在或是，而且对于偏差的学习速率加倍了，尽管我们发现训练可以只对学习速率敏感。我们零初始化类的得分层，随机初始化既不能产生更好的表现也没有更快的收敛。Dropout被包含在用于原始分类的网络中。
微调我们通过反向传播微调整个网络的所有层。经过表2的比较，单独微调的输出分类表现只有全微调的70%。考虑到学习分类网络所需的时间，从头开始训练是不可行的。（注意VGG网络的训练是阶段性的，当我们从全16层初始化后）。对于粗糙的FCN-32s，在单GPU上，微调要花费三天的时间，而且大约每隔一天就要更新到FCN-16s和FCN-8s版本。
在这里插入图片描述

图5。对整个图像的训练与采样一样有效，但通过更有效地使用数据，会导致更快的收敛。左显示了采样对固定期望大小收敛速度的影响，右图则按相对收敛时间绘制相同的图。
更多的训练数据PASCAL VOC 2011分割训练设置1112张图片的标签。Hariharan等人。[14] 为一个更大的8498的PASCAL训练图片集合收集标签，被用于训练先前的先进系统,SDS [17] 。训练数据将FCV-VGG16得分提高了3.4个百分点达到59.4。
块取样正如3.4节中解释的，我们的全图有效地训练每张图片batches到常规的、大的、重叠的块网格。相反的，先前工作随机样本块在一整个数据集 [27，2，7，28，9] ，可能导致更高的方差batches，可能加速收敛 [24] 。我们通过以前面描述的方式对损失进行空间采样来研究这种权衡，做出一个独立的选择来忽略每个最终层单元，其概率为1-p。为了避免改变有效的batche尺寸，我们同时以因子1/p增加每批次图像的数量。请注意，由于卷积效率高，对于足够大的值，这种形式的拒绝采样仍然比逐块训练更快。（比如，根据3.1节的数量，最起码p>0.2）图5展示了这种收敛的采样的效果。我们发现采样在收敛速率上没有很显著的效果相对于全图训练，但是由于每个批次都需要大量的图像，很明显的需要花费更多的时间。
分类平衡全卷积训练能通过按权重或对损失采样平衡类别。尽管我们的标签有轻微的不平衡（大约3/4是背景），我们发现类别平衡不是必要的。密集预测分数是通过网内的反卷积层上采样到输出维度。最后层反卷积滤波被固定为双线性插值，当中间采样层是被初始化为双线性上采样，然后学习。（技巧2）
增广我们尝试通过反折和抖动扩大训练数据，方法是将图像在每个方向上转换为最大32像素（最粗的预测比例）。这并没有明显的改善。
实现所有的模型都是在NVIDIA Tesla K40c上用Caffe[20]训练和学习。代码可在 http://fcn.berkeleyvision.org下载。

5 结果

我们训练FCN在语义分割和场景解析，研究了PASCAL VOC, NYUDv2和 SIFT Flow。尽管这些任务在以前主要是用在物体和区域上，我们都一律将它们视为像素预测。我们在这些数据集中都进行测试用来评估我们的FCN跨层式架构，然后对于NYUDv2将它扩展成一个多模型的输出，对于SIFT Flow则扩展成多任务的语义和集合标签。
度量我们从常见的语义分割和场景解析评估中提出四种度量，它们在像素准确率和在联合的区域交叉上是不同的。令为类别i的被预测为类别j的像素数量，有个不同的类别，令是类别i的像素总数。
在这里插入图片描述
（5）

PASCAL VOC 表3给出了我们的FCN-8s的在PASCAL VOC2011和2012测试集上的表现，然后将它和之前的先进方法SDS[17]和著名的R-CNN[12]进行比较。我们在mIU上取得了最好的结果相对提升了20%。推理时间被降低了114×（只有卷积网，没有proposals和微调)或者286×（全部都有）。
表3。我们的完全卷积网给出了20%的相对改进比最先进的PASCALVOC2011和2012测试集，并减少了推理时间。
在这里插入图片描述

NVUDv2 [33]是一种通过利用Microsoft Kinect收集到的RGB-D数据集，含有已经被合并进Gupt等人[12]的40类别的语义分割任务中。我们报告结果795个训练图像和654个测试的标准分割图像。（注意：所有的模型选择将展示在PASCAL 2011 val上)。表4给出了我们模型在一些变化上的表现。首先我们在RGB图片上训练我们的未经修改的粗糙模型（FCN-32s）。为了添加深度信息，我们训练模型升级到能采用4通道RGB-Ds的输入（早期融合）。这提供了一点便利，这可能是由于很难在模型中一直传播有意义的梯度。紧随Gupta等人[13]的成功，我们尝试3维的HHA编码深度，只在这个信息上（即深度）训练网络，和RGB与HHA的“后期融合”一样来自这两个网络中的预测将在最后一层进行总结，结果的双流网络将进行端到端的学习。最后我们将这种后期融合网络升级到16步长的版本。
表4。结果在NYUDv2上。 RGBD是RGB和深度通道在输入处的早期融合。 HHA是[13]的深度嵌入，如水平视差、地面高度和区域角度表面法线与推断的重力方向。 RGB-HHA是对RGB和HHA预测进行求和的联合训练的后期融合模型。
在这里插入图片描述

SIFT-Flow是一个包含2688张带有像素标签的图像的数据集对于33个语义范畴（“桥”、“山”、“太阳”），以及三个几何类别（“水平”、“垂直”和“天空”）。FCN可以自然地学习一个同时预测两种类型标签的联合表示。我们学习了FCN-16s，具有语义和几何预测层和损耗。学习模型在两个任务上的表现都与两个独立训练的模型一样好，而学习和推理本质上与每个独立模型本身一样快。表5，按标准计算，分为2,488个训练和200张测试图像，显示了最新的性能两项任务。
表5 对SIFTFlow9进行了类分割（中心)和几何分割(右）。 Tighe[33]是一种非参数传递方法。 Tighe1是SVM的范例，2是SVM +MRF。 Farabet是在类平衡样本（1)或固有频率样本(2)上训练的多尺度卷积网。Pinheiro是一种多尺度的递归卷积网，表示RCNN3（）。几何的度量是像素精度。
在这里插入图片描述

6结论

全卷积网络是模型非常重要的部分，是现代化分类网络中一个特殊的例子。认识到这一点，将这些分类网扩展到分段，并通过多分辨率图层组合改进体系结构，可以极大地改善最新技术，同时简化并加快学习和推理速度。
在这里插入图片描述

图6。完全卷积分割网在PASCAL上产生了最先进的性能。左列显示了我们性能最高的网FCN-8的输出。第二部分展示了Hariharan等人先前最先进的系统所产生的片段。[15]。注意恢复的精细结构（第一行)、分离密切相互作用的对象的能力(第二行）、以及对遮挡物的鲁棒性（第三行）。第四排显示一个失败案例：网络把船上的救生衣看成人。