【CV论文精读】【语义分割】【FCN】Fully Convolutional Networks for Semantic Segmentation

量子-Alex

于 2024-03-01 12:44:31 发布

阅读量999

点赞数 12

分类专栏： CV知识学习和论文阅读文章标签：深度学习卷积神经网络计算机视觉

本文链接：https://blog.csdn.net/weixin_44184852/article/details/136392570

版权

CV知识学习和论文阅读专栏收录该内容

41 篇文章 9 订阅

订阅专栏

FCN–Fully Convolutional Networks for Semantic Segmentation
用于语义分割的全卷积网络在这里插入图片描述
建议参考这篇博客阅读论文
FCN网络解析

0.论文摘要和作者信息

摘要

卷积网络是强大的可视化模型，可以产生特征层次。我们表明，卷积网络本身，经过端到端、像素到像素的训练，在语义分割方面超过了最先进的水平。我们的关键见解是构建“完全卷积”网络，该网络接受任意大小的输入，并通过高效的推理和学习产生相应大小的输出。我们定义并详述了全卷积网络的空间，解释了它们在空间密集预测任务中的应用，并绘制了与先前模型的联系。我们将当代分类网络（AlexNet[20]、VGG[31]和GoogLeNet[32]）改造成完全卷积的网络，并通过微调[3]将它们学习到的表示转移到分割任务中。然后，我们定义了一个跳过架构，它将来自深而粗的层的语义信息与来自浅而细的层的外观信息结合起来，以产生准确而详细的分割。我们的全卷积网络实现了PASCAL VOC（与2012年的62.2%平均IU相比，相对提高了20%）、NYUDv2和SIFT Flow的最先进分割，而典型图像的推理时间不到五分之一秒。

作者信息

Jonathan Long
Evan Shelhamer
Trevor Darrell

UC Berkeley

1.研究背景

积网络正在推动识别的进步。卷积神经网络不仅在全图像分类方面有所改进[20，31，32]，而且在具有结构化输出的局部任务方面也取得了进展。这些包括边界框目标检测[29，10，17]、部分和关键点预测[39，24]和局部对应[24，8]方面的进展。从粗推理到精细推理的自然下一步是在每个像素处进行预测。先前的方法已经使用卷积神经网络进行语义分割[27, 2, 7, 28, 15, 13, 9]，其中每个像素都用其包围对象或区域的类别来标记，但是这项工作解决了缺点。

我们表明，一个完全卷积网络（FCN）训练端到端，像素到像素的语义分割超过了最先进的没有进一步的机器。据我们所知，这是第一个端到端训练FCN的工作（1）用于像素预测和（2）来自监督预训练。现有网络的完全卷积版本预测任意大小输入的密集输出。通过密集的前馈计算和反向传播，学习和推理都是整幅图像一次完成的。网络内上采样层支持在具有二次采样化的网络中进行像素级预测和学习。这种方法是有效的，无论是渐近的还是绝对的，并且排除了其他工作中的复杂性。分块训练很常见[27，2，7，28，9]，但缺乏全卷积训练的效率。我们的方法没有利用预处理和后处理的复杂性，包括超像素[7，15]，建议[15，13]，或随机场或局部分类器的事后细化[7，15]。我们的模型通过将分类网络重新解释为完全卷积并根据其学习的表示进行微调，将最近在分类[20，31，32]方面的成功转移到密集预测。相比之下，以前的工作在没有监督预训练的情况下应用了小型卷积神经网络[7，28，27]。
语义分割面临着语义和位置之间的内在张力：全局信息解决什么，而局部信息解决哪里。深度特征层次对非线性系统中的位置和语义进行编码本地到全局金字塔。在第4.2节中，我们定义了一个跳过架构来利用这个特征谱，它结合了深度、粗略的语义信息和浅层、精细的外观信息（参见图3）。

在这里插入图片描述
图三。我们的DAG网络学习将粗糙的高层信息与精细的低层信息结合起来。池化层和预测层显示为显示相对空间粗糙度的网格，而中间层显示为垂直线。第一行（FCN-32s）：我们的单流网络，在第4.1节中描述，上采样在一个步骤中将32个预测步长回到像素。第二行（FCN-16s）：在stride 16，结合来自最后一层和池化第4层的预测，让我们的网络预测更精细的细节，同时保留高级语义信息。第三行（FCN-8s）：来自池化第3层的附加预测，在步长8，提供了进一步的精度。

在下一节中，我们回顾了深度分类网络、FCN的相关工作，以及使用卷积神经网络进行语义分割的最新方法。以下部分解释了FCN设计和密集预测权衡，介绍了我们的网络内上采样和多层组合架构，并描述了我们的实验框架。最后，我们展示了PASCAL VOC 2011-2、NYUDv2和SIFT Flow的最新结果。

2.相关工作

我们的方法借鉴了图像分类深度网络[20，31，32]和迁移学习[3，38]的最新成功。迁移首先在各种视觉识别任务中得到证明[3，38]，然后在检测中得到证明，在混合建议分类器模型中的实例和语义分割中得到证明[10，15，13]。我们现在重新构建和微调分类网络，以直接、密集地预测语义分割。我们绘制了FCN的空间图，并在这个框架中定位了历史和近期的先前模型。

2.1 全卷积网络

我们所知，将卷积神经网络扩展到任意大小输入的想法首先出现在Matan等[26]的作品中。它扩展了经典的LeNet[21]以识别数字串。因为他们的网络仅限于一维输入字符串，Matan等使用维特比解码来获得它们的输出。Wolf和Platt[37]将卷积神经网络输出扩展到邮政地址块四个角的检测分数的二维图。这两部历史著作都是为了检测而进行完全卷积式的推理和学习。宁等[27]定义用于具有完全卷积推理的秀丽隐杆线虫组织的粗多类分割的卷积神经网络。

在当前的多层网络时代，完全卷积计算也得到了利用。Sermanet等[29]的滑动窗口检测。Pinheiro和Collobert的语义分割[28]，以及Eigen等[4]的图像恢复进行完全卷积推理。完全卷积训练是罕见的，但被Tompson等[35]有效地使用学习用于姿态估计的端到端部分检测器和空间模型，尽管他们没有公开或分析这种方法。或者，何等[17]丢弃分类网络的非卷积部分来制作特征提取器。它们将建议和空间金字塔池化结合起来，以产生用于分类的本地化、固定长度的特征。虽然快速有效，但这种混合模型无法端到端学习。

2.2 基于卷积神经网络的密集预测

最近的几项工作已经将卷积神经网络应用于密集预测问题，包括Ning等[27]的语义分割，Farabet等[7]，以及皮涅罗和科洛贝尔[28]；Ciresan等[2]的电子显微镜边界预测和Ganin和Lempitsky[9]的混合卷积神经网络/最近邻模型用于自然图像；以及Eigen等[4，5]的图像恢复和深度估计。这些方法的共同要素包括

• 限制容量和感受野的小型模型；
•分块培训[27，2，7，28，9]；
• 通过超像素投影、随机场正则化、过滤或局部分类进行后处理[7，2，9]；
•密集输出的输入移位和输出交错[29，28，9]；
•多尺度金字塔处理[7，28，9]；
•饱和tanh非线性[7，4，28]；
•系综[2，9]，

而我们的方法没有这个机制。然而，我们确实从FCNs的角度研究了拼接训练3.4节和“移位缝合”密集输出3.2节。我们还讨论了网络内上采样3.3节，其中Eigen等[5]的全连接预测是一个特例。与这些现有的方法不同，我们调整和扩展了深度分类架构，使用图像分类作为监督预训练，并完全卷积地微调，以简单有效地从整个图像输入和整个ground truths中学习。Hariharan等[15]和Gupta等[13]同样使深度分类网络适应语义分割，但在混合建议——分类器模型中这样做。这些方法通过采样边界框和/或用于检测、语义分割和实例分割的区域建议来微调R-CNN系统[10]。这两种方法都不是端到端学习的。它们分别在PASCAL VOC和NYUDv2上实现了最先进的分割结果，因此我们在第5节中直接将我们独立的端到端FCN与它们的语义分割结果进行比较。我们跨层融合特征来定义一个非线性的局部——全局表示，我们端到端地调整它。在当代作品中，Hariharan等[16]在他们的混合模型中也使用多层进行语义分割。

3.全卷积网络FCN

卷积神经网络中的每一层数据都是大小为h × w × d的三维数组，其中h和w是空间维度，d是特征或通道维度。第一层是图像，像素大小为h × w，颜色通道为d。较高层中的位置对应于它们在图像中路径连接到的位置，这些位置被称为它们的感受野。

卷积神经网络建立在平移不变性的基础上。它们的基本组件（卷积、池化和激活函数）在局部输入区域上操作，并且仅依赖于相对空间坐标。为特定层中位置 $(i, j)$ 处的数据向量写入 $x_{ij}$ ，并在随后的层写入 $y_{ij}$ ，这些函数通过以下计算输出 $y_{ij}$

在这里插入图片描述

其中k称为核大小，s是步长或子采样因子， $f_{ks}$ 决定层类型：卷积或平均池化的矩阵乘法，最大池化的空间最大值，或激活函数的元素非线性，等等。

这种函数形式在组合下保持，核大小和步长服从变换规则
在这里插入图片描述

由FCN组成的实值损失函数定义了一个任务。如果损失函数是最后一层的空间维度的和， $l(x; θ) = ∑_{ij} l^′(x_{ij} ; θ)$ ，它的梯度将是它的每个空间分量的梯度的和。因此，在整个图像上计算l的随机梯度下降将与在 $l^′$ 上的随机梯度下降相同，将所有最终层感受野作为一个小批量。

当这些感受野显著重叠时，前馈计算和反向传播在整个图像上逐层计算而不是逐个独立地逐块计算时效率要高得多。接下来，我们将解释如何将分类网络转换为产生粗略输出图的完全卷积网络。对于像素预测，我们需要将这些粗略输出连接回像素。第3.2节描述了为此目的引入的一个技巧，快速扫描[11]。我们通过将其重新解释为等效的网络修改来深入了解这一技巧。作为一种高效、有效的替代方案，我们在第3.3节中引入了用于上采样的反卷积层。在第3.4节中，我们考虑通过逐块采样进行训练，并在第4.3节中给出证据，证明我们的整个图像训练更快且同样有效。

3.1 自适应分类器在密集预测中的应用

典型的识别网络，包括LeNet[21]、AlexNet[20]及其更深层次的后继者[31，32]，表面上接受固定大小的输入并产生非空间输出。这些网的完全连接的层具有固定的尺寸，并且抛弃了空间坐标。然而，这些完全连接的层也可以被视为具有覆盖其整个输入区域的核的卷积。这样做将它们转换成完全卷积的网络，该网络接受任何大小的输入并输出分类图。这种转换如图2所示。
在这里插入图片描述
图2。将全连接层转换成卷积层使得分类网络能够输出热力图。添加网络层和空间损失（如图1所示）产生了用于端到端密集学习的高效机器。

在这里插入图片描述
图1。全卷积网络可以有效地学习对语义分割等每像素任务进行密集预测。

此外，虽然得到的地图相当于对特定输入块上的原始网络的评估，但计算在这些块的重叠区域上被高度分摊。例如，AlexNet需要1.2毫秒（在典型的GPU上）来推断227 × 227图像的分类分数，而完全卷积网络需要22毫秒来从500 × 500图像产生10 × 10的输出网格，这比näë ve方法快5倍多1。这些卷积模型的空间输出图使它们成为语义分割等密集问题的自然选择。由于每个输出单元都有基本事实，向前和向后传递都很简单，并且都利用了卷积固有的计算效率（和积极的优化）。AlexNet示例的相应反向时间对于单个图像为2.4 ms，对于完全卷积的10 × 10输出映射为37 ms，从而产生类似于正向传递的加速。

虽然我们对分类网络的重新解释是全卷积的，但对于任何大小的输入，都会产生输出图，输出维度通常会通过下采样来降低。分类网络下采样保持滤波器小和计算要求合理。这使这些网络的全卷积版本的输出变粗，将其从输入的大小减少等于输出单元的感受野的像素步长的因子。

3.2 移位拼接是滤波器稀疏

通过将来自输入的移位版本的输出拼接在一起，可以从粗略输出中获得密集预测。如果输出下采样f倍，则将输入x像素向右移动，y像素向下移动，每 $(x, y) s . t .0 \leq x, y < f$ 移动一次。处理这些 $f^2$ 输入中的每一个，并交错输出，以便预测对应于其感受野中心的像素。

虽然执行这种变换会增加f2的成本，但有一个众所周知的技巧可以有效地产生相同的结果[11，29]，小波社区称之为“a trous算法[25]。考虑具有输入步长s的层（卷积或池化），以及具有滤波器权重 $f_{ij}$ 的后续卷积层（省略不相关的特征维度）。将较低层的输入步长设置为1会将其输出上采样s倍。然而，将原始滤波器与上采样输出卷积不会产生与移位拼接相同的结果，因为原始滤波器只能看到其（现在上采样的）输入的减少部分。要重现这一技巧，请将滤波器放大为

在这里插入图片描述

（i和j从零开始）。再现技巧的全部净输出包括一层一层地重复这种滤波器放大，直到所有子采样被移除。（实际上，这可以通过处理上采样输入的下采样版本来有效地完成。）

减少网络内的下采样是一种权衡：滤波器看到更精细的信息，但感受野更小，计算时间更长。移位拼接技巧是另一种折衷：输出密度更大，而不会减小滤波器的感受野大小，但滤波器被禁止在比其原始设计更精细的尺度上访问信息。虽然我们已经用这个技巧做了初步的实验，但是我们没有在我们的模型中使用它。我们发现通过上采样进行学习，如下一节所述，更加有效和高效，尤其是在与后面描述的跳过层融合相结合时。

3.3 上采样是反向步进卷积

将粗输出连接到密集像素的另一种方法是插值。例如，简单的双线性插值通过仅依赖于输入和输出单元的相对位置的线性映射从最近的四个输入计算每个输出 $y_{ij}$ 。在某种意义上，因子为f的上采样是分数输入步长为1/f的卷积。只要f是积分，上采样的自然方法就是输出步长为f的反向卷积（有时称为反卷积）。这种操作实现起来很简单，因为它只是反转卷积的向前和向后传递。因此，通过从像素方向损失的反向传播，在网络内执行上采样以用于端到端学习。注意，这种层中的反卷积滤波器不需要固定（例如，双线性上采样），而是可以学习的。反卷积层和激活函数的堆栈甚至可以学习非线性上采样。

在我们的实验中，我们发现网络内上采样对于学习密集预测是快速有效的。在第4.2节中，我们的最佳分割架构使用这些层来学习上采样以进行精细预测。

3.4 分块训练是损失抽样

在随机优化中，梯度计算由训练分布驱动。分块训练和完全卷积训练都可以产生任何分布，尽管它们的相对计算效率取决于重叠和小批量minibatch的大小。全图像全卷积训练与逐块训练相同，其中每一批由图像（或图像集合）损失以下单元的所有感受野组成。虽然这比分块的统一采样更有效，但它减少了可能的批次数。然而，可以简单地恢复图像中分块的随机选择。将损耗限制在其空间项的随机采样子集（或者，等效地在输出和损耗之间应用DropConnect掩码[36]）从梯度计算中排除了分块。

如果保留的分块仍然有显著的重叠，完全卷积计算仍然会加速训练。如果梯度在多次反向传递中累积，批次可以包括来自多幅图像的分块。
逐块训练中的采样可以纠正类别不平衡[27，7，2]并减轻密集分块的空间相关性[28，15]。在完全卷积训练中，也可以通过对损失进行加权来实现类平衡，并且损失采样可以用于解决空间相关性。我们在4.3节中探讨了采样训练，并没有发现它对密集预测产生更快或更好的收敛。整体形象训练是有效和高效的。

4.分割架构

们将ILSVRC分类器转换到FCN中，并通过网络内上采样和像素级损失来增强它们以进行密集预测。我们通过微调来训练分割。接下来，我们在层之间添加跳过，以融合粗略的、语义的和局部的外观信息。这种跳过架构是端到端学习的，以细化输出的语义和空间精度。在本次调查中，我们对PASCAL VOC 2011细分挑战进行了培训和验证[6]。我们使用每个像素的多项式逻辑损失进行训练，并使用平均像素交集对并集的标准度量进行验证，平均值覆盖所有类别，包括背景。该训练忽略了在地面真实中被掩盖（如模糊或困难）的像素。

4.1 从分类器到密集FCN

如第3节所示，我们从卷积成熟的分类架构开始。我们考虑赢得ILSVRC12的AlexNet架构[20]，以及在ILSVRC14中表现出色的VGG网络[31]和GoogLeNet[32]。我们选择了VGG 16层网络，我们发现在这个任务中它相当于19层网络。对于GoogLeNet，我们只使用最终的损耗层，并通过丢弃最终的平均池层来提高性能。我们通过丢弃最终的分类器层来斩首每个网络，并将所有完全连接的层转换为卷积。我们附加了一个通道维数为21的1 × 1卷积，以预测每个粗输出位置的每个PASCAL类（包括背景）的分数，随后是一个反卷积层，以将粗输出双线性上采样为像素密集输出，如第3.3节所述。表1比较了初步验证结果以及每个网络的基本特征。我们报告了在固定学习速率（至少175个时期）下收敛后获得的最佳结果。

在这里插入图片描述

表1。我们调整和扩展了三种分类方法。我们通过PASCAL VOC 2011验证集上的平均交集和推理时间（NVIDIA Tesla K40c上500 × 500输入的20次试验的平均值）来比较性能。我们详细描述了关于密集预测的适应网络的架构：参数层的数量，输出单元的感受野大小，以及网络内的最粗步长。（这些数字给出了在固定学习率下获得的最佳性能，而不是可能的最佳性能。）

从分类到分割的微调给出了每个网络的合理预测。即使是最差的型号也达到了75%的最先进性能。已经具备分段功能的VGG网络（FCN-VGG16）与测试中的52.6 IU 相比，val上的平均IU为56.0IU，这似乎是最先进的[15]。在val7的子集上，对额外数据的训练将FCN-VGG16提高到59.4平均IU，将FCN-AlexNet提高到48.0平均IU。尽管分类准确度相似，但我们的GoogLeNet实现与VGG16分割结果不匹配。

4.2 结合什么和哪里

我们定义了一种新的全卷积网络（FCN）用于分割，它结合了特征层次结构的层并细化了输出的空间精度。参见图3。

在这里插入图片描述

虽然完全卷积化的分类器可以微调到分类如4.1节所示，即使在标准指标上得分很高，他们的输出也是不令人满意的粗糙（见图4）。最终预测层的32像素步长限制了上采样输出中的细节比例。

在这里插入图片描述
图4。通过融合来自具有不同步长的层的信息来细化完全卷积网络改善了分割细节。前三幅图像显示了32、16和8像素步长网络的输出（见图3）。

我们通过添加跳过[1]来解决这个问题，跳过将最终预测层与具有更精细步长的较低层结合起来。这将一个线路拓扑变成一个DAG，其边缘从较低的层跳到较高的层（图3）。由于他们看到的像素更少，更精细的比例预测应该需要更少的层，所以从更浅的净输出进行预测是有意义的。将精细层和粗糙层结合起来，可以让模型做出尊重全局结构的局部预测。通过类比Koenderick和van Doorn[19]的喷流，我们将我们的非线性特征层次称为深度喷流。我们首先通过从16像素步长层预测将输出步长分成两半。我们在pool4上添加了一个1 × 1卷积层，以产生额外的类预测。我们通过添加一个2 ×上采样层并将两个预测相加6，将该输出与步长32时在conv7（卷积fc7）上计算的预测融合在一起（见图3）。我们将2 ×上采样初始化为双线性插值，但允许按照第3.3节所述学习参数。最后，步长16预测被上采样回图像。我们称之为网FCN-16。FCN-16s是端到端学习的，用最后一个更粗的网的参数初始化，我们现在称之为FCN-32s。作用于pool4的新参数被零初始化，因此网络从未修改的预测开始。学习率降低了100倍。

学习这个跳过网将验证集的性能提高了3.0平均IU到62.4。图4显示了输出的精细结构的改进。我们将这种融合与仅从pool4层学习进行了比较，这导致了较差的性能，并且简单地降低了学习速率而没有添加跳过，这导致了不显著的性能改进而没有提高输出的质量。我们继续以这种方式将来自池3的预测与来自池4和conv7的预测的2倍上采样融合，构建净FCN-8。我们获得了62.7平均IU的微小额外改进，并发现我们输出的平滑度和细节略有改进。在这一点上，我们的融合改进遇到了收益递减，无论是在强调大规模正确性的IU指标方面，还是在可见的改进方面，例如在图4中，因此我们不再继续融合更低的层。

减小池化层的步长是获得更精细预测的最直接方法。然而，这样做对于我们基于VGG16的网络来说是有问题的。将pool5步长设置为1要求卷积化的fc6的内核大小为14 × 14保持其感受野大小。除了它们的计算成本之外，我们很难学习如此大的滤波器。我们试图用更小的过滤器重新构建pool5之上的层，但是没有达到可比的性能；一种可能的解释是上层的ILSVRC初始化很重要。获得更精细预测的另一种方法是使用3.2节中描述的移位和缝合技巧。在有限的实验中，我们发现这种方法的成本改进比比层融合更差。

[1] C. M. Bishop. Pattern recognition and machine learning, page 229. Springer-Verlag New York, 2006. 6
[2] D. C. Ciresan, A. Giusti, L. M. Gambardella, and J. Schmidhuber. Deep neural networks segment neuronal membranes in electron microscopy images. In NIPS, pages 2852–2860, 2012. 1, 2, 4, 7
[3] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell. DeCAF: A deep convolutional activation feature for generic visual recognition. In ICML, 2014. 1, 2
[4] D. Eigen, D. Krishnan, and R. Fergus. Restoring an image taken through a window covered with dirt or rain. In Computer Vision (ICCV), 2013 IEEE International Conference on, pages 633–640. IEEE, 2013. 2
[5] D. Eigen, C. Puhrsch, and R. Fergus. Depth map prediction from a single image using a multi-scale deep network. arXiv preprint arXiv:1406.2283, 2014. 2
[6] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes Challenge 2011 (VOC2011) Results. http://www.pascalnetwork.org/challenges/VOC/voc2011/workshop/index.html. 4
[7] C. Farabet, C. Couprie, L. Najman, and Y. LeCun. Learning hierarchical features for scene labeling. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2013. 1, 2, 4, 7, 8
[8] P. Fischer, A. Dosovitskiy, and T. Brox. Descriptor matching with convolutional neural networks: a comparison to SIFT. CoRR, abs/1405.5769, 2014. 1
[9] Y. Ganin and V. Lempitsky. N4-fields: Neural network nearest neighbor fields for image transforms. In ACCV, 2014. 1, 2, 7
[10] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition, 2014. 1, 2, 7
[11] A. Giusti, D. C. Cires ̧an, J. Masci, L. M. Gambardella, and J. Schmidhuber. Fast image scanning with deep max-pooling convolutional neural networks. In ICIP, 2013. 3, 4
[12] S. Gupta, P. Arbelaez, and J. Malik. Perceptual organization and recognition of indoor scenes from RGB-D images. In CVPR, 2013. 8
[13] S. Gupta, R. Girshick, P. Arbelaez, and J. Malik. Learning rich features from RGB-D images for object detection and segmentation. In ECCV. Springer, 2014. 1, 2, 8
[14] B. Hariharan, P. Arbelaez, L. Bourdev, S. Maji, and J. Malik. Semantic contours from inverse detectors. In International Conference on Computer Vision (ICCV), 2011. 7
[15] B. Hariharan, P. Arbel ́ aez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In European Conference on Computer Vision (ECCV), 2014. 1, 2, 4, 5, 7, 8
[16] B. Hariharan, P. Arbel ́ aez, R. Girshick, and J. Malik. Hypercolumns for object segmentation and fine-grained localization. In Computer Vision and Pattern Recognition, 2015. 2
[17] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014. 1, 2
[18] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014. 7
[19] J. J. Koenderink and A. J. van Doorn. Representation of local geometry in the visual system. Biological cybernetics, 55(6):367–375, 1987. 6
[20] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. 1, 2, 3, 5
[21] Y. LeCun, B. Boser, J. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to hand-written zip code recognition. In Neural Computation, 1989. 2, 3
[22] Y. A. LeCun, L. Bottou, G. B. Orr, and K.-R. M ̈ uller. Efficient backprop. In Neural networks: Tricks of the trade, pages 9–48. Springer, 1998. 7
[23] C. Liu, J. Yuen, and A. Torralba. Sift flow: Dense correspondence across scenes and its applications. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 33(5):978994, 2011. 8
[24] J. Long, N. Zhang, and T. Darrell. Do convnets learn correspondence? In NIPS, 2014. 1
[25] S. Mallat. A wavelet tour of signal processing. Academic press, 2nd edition, 1999. 4
[26] O. Matan, C. J. Burges, Y. LeCun, and J. S. Denker. Multidigit recognition using a space displacement neural network. In NIPS, pages 488–495. Citeseer, 1991. 2
[27] F. Ning, D. Delhomme, Y. LeCun, F. Piano, L. Bottou, and P. E. Barbano. Toward automatic phenotyping of developing embryos from videos. Image Processing, IEEE Transactions on, 14(9):1360–1371, 2005. 1, 2, 4, 7
[28] P. H. Pinheiro and R. Collobert. Recurrent convolutional neural networks for scene labeling. In ICML, 2014. 1, 2, 4, 7, 8
[29] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014. 1, 2, 4
[30] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus. Indoor segmentation and support inference from rgbd images. In ECCV, 2012. 7
[31] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. CoRR, abs/1409.1556, 2014. 1, 2, 3, 5
[32] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich.Going deeper with convolutions. CoRR, abs/1409.4842, 2014. 1, 2, 3, 5
[33] J. Tighe and S. Lazebnik. Superparsing: scalable nonparametric image parsing with superpixels. In ECCV, pages 352365. Springer, 2010. 8
[34] J. Tighe and S. Lazebnik. Finding things: Image parsing with regions and per-exemplar detectors. In CVPR, 2013. 8
[35] J. Tompson, A. Jain, Y. LeCun, and C. Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. CoRR, abs/1406.2984, 2014. 2
[36] L. Wan, M. Zeiler, S. Zhang, Y. L. Cun, and R. Fergus. Regularization of neural networks using dropconnect. In Proceedings of the 30th International Conference on Machine Learning (ICML-13), pages 1058–1066, 2013. 4
[37] R. Wolf and J. C. Platt. Postal address block location using a convolutional locator network. Advances in Neural Information Processing Systems, pages 745–745, 1994. 2
[38] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In Computer Vision–ECCV 2014, pages 818–833. Springer, 2014. 2
[39] N. Zhang, J. Donahue, R. Girshick, and T. Darrell. Partbased r-cnns for fine-grained category detection. In Computer Vision–ECCV 2014, pages 834–849. Springer, 2014. 1