【论文精读】【Overfeat】Integrated Recognition, Localization and Detection using Convolutional Networks

OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks
OverFeat:使用卷积网络的集成识别、定位和检测
在这里插入图片描述

0.论文摘要和作者信息

摘要

我们提出了一个使用卷积网络进行分类、定位和检测的集成框架。我们展示了如何在ConvNet中有效地实现多尺度和滑动窗口方法。我们还引入了一种新的深度学习方法,通过学习预测目标边界来进行定位。然后累积而不是抑制边界框,以增加检测置信度。我们表明,不同的任务可以同时学习使用一个单一的共享网络。该集成框架赢得了2013年ImageNet大规模视觉识别挑战赛(ILSVRC2013)的定位任务,并在检测和分类任务中获得了极具竞争力的结果。在赛后工作中,我们为检测任务建立了一个新的艺术状态。最后,我们从我们的最佳模型中发布了一个名为OverFeat的特征提取器。

作者信息

Pierre Sermanet
David Eigen
Xiang Zhang
Michael Mathieu
Rob Fergus
Yann LeCun

Courant Institute of Mathematical Sciences, New York University

1.研究背景

识别图像中主要目标的类别是卷积网络(ConvNets)[17]已经应用多年的任务,无论这些目标是手写字符[16]、门牌号[24]、无纹理玩具[18]、交通标志[3,26]、来自Caltech-101数据集的目标[14]还是来自1000类别ImageNet数据集的目标[15]。卷积神经网络在Caltech-101等小型数据集上的准确性虽然不错,但并没有破纪录。然而,更大数据集的出现使卷积神经网络能够显著提高数据集的技术水平,如1000类ImageNet[5]。对于许多这样的任务,卷积神经网络的主要优点是整个系统被端到端地训练,从原始像素到最终类别,从而减轻了手动设计合适的特征提取器的要求。主要的缺点是他们对标记训练样本的贪婪胃口。

本文的主要观点是表明训练卷积网络同时对图像中的目标进行分类、定位和检测可以提高分类精度和所有任务的检测和定位精度。本文提出了一种新的利用单一卷积神经网络进行目标检测、识别和定位的集成方法。我们还介绍了一种通过累积预测边界框进行定位和检测的新方法。我们建议,通过组合许多定位预测,可以在不训练背景样本的情况下执行检测,并且有可能避免耗时和复杂的自举训练过程。不对背景进行训练也让网络只关注正类以获得更高的准确性。

在ImageNet ILSVRC 2012和2013数据集上进行实验,并建立ILSVRC 2013定位和检测任务的最新结果。

虽然来自ImageNet分类数据集的图像在很大程度上被选择为包含填充图像大部分的粗糙居中目标,但感兴趣的目标有时在图像中的大小和位置变化很大。解决这个问题的第一个想法是在图像的多个位置,以滑动窗口的方式,在多个比例上应用卷积神经网络。然而,即使这样,许多观察窗可能包含物体的完全可识别的部分(比如说,狗的头),但不是整个物体,甚至也不是物体的中心。这导致了较好的分类,但较差的定位和检测。因此,第二个想法是训练系统不仅产生每个窗口的类别分布,而且产生包含目标的边界框相对于窗口的位置和大小的预测。第三个想法是在每个地点和规模积累每个类别的证据。

许多作者已经提出使用卷积神经网络在多个尺度上使用滑动窗口进行检测和定位,这可以追溯到20世纪90年代早期的多字符串[20]、人脸[30]和手[22]。最近,卷积神经网络已被证明在自然图像中的文本检测[4]、人脸检测[8,23]和行人检测[25]方面具有最先进的性能。

一些作者还提出训练卷积神经网络来直接预测要定位的目标的实例化参数,例如相对于观察窗的位置,或者目标的姿态。例如Osadchy等[23]描述了用于同时进行人脸检测和姿态估计的卷积神经网络。面由九维输出空间中的3D流形表示。歧管上的位置指示姿态(俯仰、偏航和滚动)。当训练图像是人脸时,网络被训练以在流形上已知姿态的位置产生一个点。如果图像不是面,输出将被推离流形。在测试时,到流形的距离指示图像是否包含人脸,流形上最近点的位置指示姿态。Taylor等[27,28]使用卷积神经网络估计身体部位(手、头等)的位置,从而导出人体姿势。他们使用度量学习标准来训练网络,以在身体姿势流形上产生点。Hinton等还提出训练网络来计算特征的显式实例化参数,作为识别过程的一部分[12]。

其他作者已经提出通过基于卷积神经网络的分割来执行目标定位。最简单的方法是训练卷积神经网络将其观察窗口的中心像素(或体积图像的体素)分类为区域之间的边界[13]。但是当必须对区域进行分类时,最好执行语义分割。其主要思想是训练卷积神经网络根据观察窗口所属目标的类别对观察窗口的中心像素进行分类,使用窗口作为决策的上下文。应用范围从生物图像分析[21],到移动机器人的障碍物标记[10]到照片标记[7]。这种方法的优点是边界轮廓不必是矩形,区域也不必是界限分明的目标。缺点是需要密集的像素级标签进行训练。这种分割预处理或目标建议步骤最近在传统计算机视觉中流行起来,以减少用于检测的位置、比例和纵横比的搜索空间[19,2,6,29]。因此,可以在搜索空间中的最佳位置应用昂贵的分类方法,从而提高识别精度。此外,[29,1]表明,这些方法通过大幅减少不太可能的目标区域来提高准确性,从而减少潜在的假阳性。然而,我们的密集滑动窗口方法能够在ILSVRC13检测数据集上优于目标建议方法。

Krizhevsky等[15]最近使用大型卷积神经网络展示了令人印象深刻的分类性能。作者还参加了ImageNet 2012竞赛,赢得了分类和定位挑战。尽管他们展示了令人印象深刻的定位性能,但还没有公开的工作描述他们的方法。因此,我们的论文第一次清楚地解释了卷积神经网络如何用于ImageNet数据的定位和检测。在本文中,我们使用术语定位和检测的方式与它们在ImageNet 2013竞赛中的使用方式一致,即唯一的区别是使用的评估标准,两者都涉及预测图像中每个目标的边界框。

2.视觉任务

在本文中,我们按难度递增的顺序探讨了三个计算机视觉任务:(i)分类,(ii)定位,和(iii)检测。每个任务都是下一个任务的子任务。虽然所有的任务都使用一个单一的框架和一个共享的特性学习库来处理,但我们将在下面的章节中分别描述它们。

在整篇论文中,我们报告了2013年ImageNet大规模视觉识别挑战(ILSVRC2013)的结果。在这个挑战的分类任务中,每个图像被分配一个与图像中的主要目标相对应的标签。允许五次猜测以找到正确答案(这是因为图像也可以包含多个未标记的目标)。定位任务类似于每个图像允许5次猜测,但是另外,每次猜测都必须返回预测目标的边界框。要被认为是正确的,预测的框必须与groundtruth匹配至少50%(使用交并集的PASCAL标准),并且用正确的类标记(即,每个预测都是关联在一起的标签和边界框)。检测任务与定位任务的不同之处在于,每幅图像中可以有任意数量的目标(包括零个),并且假阳性通过平均精度来惩罚平均精度mAP测量。定位任务是分类和检测之间的一个方便的中间步骤,并且允许我们独立于特定于检测的挑战(例如学习背景类)来评估我们的定位方法。在图1中,我们示出了具有我们的定位/检测预测以及相应的groundtruth的图像的示例。请注意,分类和定位共享相同的数据集,而检测也有额外的数据,其中目标可以更小。检测数据还包含一组图像,其中某些目标不存在。这可以用于引导,但是我们在这项工作中没有使用它。

在这里插入图片描述
在这里插入图片描述
图1:定位(上图)和检测任务(下图)。左边的图像包含我们的预测(按置信度递减排序),而右边的图像显示groundtruth标签。检测图像(底部)说明了检测数据集的较高难度,其可以包含许多小目标,而分类和定位图像通常包含单个大目标。

3.分类

我们的分类架构类似于Krizhevsky等[15]的最佳ILSVRC12架构。然而,我们改进了网络设计和推理步骤。由于时间限制,Krizhevsky模型中的一些训练特征没有被探索,因此我们希望我们的结果可以进一步改进。这些将在未来的工作第6节中讨论

3.1 模型设计与训练

我们在ImageNet 2012训练集(120万张图像和C=1000个类)上训练网络[5]。我们的模型使用了Krizhevsky等[15]提出的相同的固定输入大小方法。在训练期间,但转向多尺度进行分类,如下一节所述。每个图像被下采样,使得最小维度为256像素。然后,我们提取5个大小为221x221像素的随机裁剪(及其水平翻转),并以大小为128的小批量将它们呈现给网络。网络中的权重随机初始化为 ( μ , σ ) = ( 0 , 1 × 1 0 − 2 ) (μ, σ) = (0, 1 × 10^{−2}) (μ,σ)=(0,1×102)。然后通过随机梯度下降进行更新,伴随动量为0.6,l2权重衰减为 1 × 1 0 − 5 1 × 10^{−5} 1×105。学习率最初为 5 × 1 0 − 2 5 × 10^{−2} 5×102,在(30、50、60、70、80)个epoch后连续降低0.5倍。在分类器中的全连接层(第6层和第7层)上采用速率为0.5的DropOut[11]。

我们在表1和表3中详细说明了体系结构的大小。请注意,在训练过程中,我们将这种架构视为非空间(大小为1x1的输出图),这与产生空间输出的推理步骤相反。第1-5层类似于Krizhevsky等[15],使用校正(“relu”)非线性和最大池化,但具有以下区别:(i)不使用对比度归一化;(ii)池化区域不重叠,(iii)我们的模型具有更大的第一层和第二层特征图,这要归功于更小的步长(2而不是4)。更大的步长有利于速度,但会损害准确性。

在这里插入图片描述
表1:快速模型的架构细节。特征图的空间大小取决于输入图像的大小,输入图像的大小在我们的推理步骤中会发生变化(参见附录中的表5)。这里我们展示了训练空间大小。第5层是顶层卷积层。后续层完全连接,并在测试时以滑动窗口方式应用。完全连接的层也可以被视为空间设置中的1x1卷积。精确模型的类似尺寸可以在附录中找到。

在这里插入图片描述
表3:精确模型的架构细节。它与fast模型的区别主要在于第一次卷积的步长、级数和特征图的数量。

在图2中,我们示出了来自前两个卷积层的滤波器系数。第一层过滤器捕捉定向边缘、图案和斑点。在第二层中,过滤器有多种形式,一些是漫射的,另一些具有强线条结构或定向边缘。

在这里插入图片描述

3.2 特征提取

在本文的同时,我们发布了一个名为“OverFeat”的特征提取器,以便为计算机视觉研究提供强大的特征。提供了两种模型,一种是快速准确的模型。表1和表3描述了每个体系结构。我们还在表4中根据参数和连接比较了它们的大小。精确模型比快速模型更精确(14.18%的分类误差,而表2中为16.39%),但是它需要几乎两倍的连接。使用7个精确模型达到13.6%的分类误差,如图4所示。
在这里插入图片描述
图4:测试集分类结果。在比赛中,OverFeat使用平均7个快速模型产生了14.2%的前5名错误率。在赛后工作中,OverFeat使用更大的模型(更多的特征和更多的层)以13.6%的误差排名第五。

3.3 多尺度分类

在[15]中,多视图投票用于提高性能:一组固定的10个视图(4个角和中心,水平翻转)被平均。然而,这种方法可能忽略图像的许多区域,并且当视图重叠时,计算上是冗余的。此外,它仅应用于单一尺度,这可能不是卷积神经网络以最佳置信度响应的尺度。相反,我们通过在每个位置和多个尺度上密集运行网络来探索整个图像。虽然对于某些类型的模型,滑动窗口方法在计算上可能是禁止的,但在卷积神经网络的情况下,它本质上是有效的(参见第3.5节)。这种方法为投票产生了显著更多的视图,这在保持效率的同时增加了健壮性。在任意大小的图像上卷积神经网络的结果是每个尺度的C维向量的空间映射。

然而,上述网络中的总下采样比是2x3x2x3,即36。因此,当密集应用时,该架构只能沿着每个轴在输入维度中每36个像素产生一个分类向量。与10视图方案相比,这种输出的粗略分布降低了性能,因为网络窗口与图像中的目标没有很好地对齐。网络窗口和目标对齐得越好,网络响应的可信度就越强。为了避免这个问题,我们采取了一种类似于Giusti等[9]介绍的方法。并在每个偏移处应用最后的下采样操作。这消除了该层的分辨率损失,产生了x12而不是x36的总子采样比。我们现在详细解释如何执行分辨率增强。我们使用6种比例的输入,产生不同分辨率的未池化的第5层特征图(详见表5)。然后使用图3所示的以下程序将这些集合并呈现给分类器:

(a)对于单个图像,在给定的比例下,我们从未池化的第5层特征图开始。
(b)每个未池化的图经历3x3最大池化操作(非重叠区域),对于{0,1,2}的 ( ∆ x , ∆ y ) (∆_x, ∆_y) (x,y)像素偏移重复3x3次。(注:x,y即宽和高方向各做三次开始位置分别为0 1 2的最大池化,这样每张特征图在这里就有3*3=9个池化结果)
(c)这产生了一组池化的特征图,对于不同的 ( ∆ x , ∆ y ) (∆_x, ∆_y) (x,y)组合复制了(3x3)次。
(d)分类部分(第6、7、8层)具有5x5的固定输入大小,并为图内的每个位置产生C维输出向量。分类器以滑动窗口的方式应用于池化的映射,产生C维输出映射(对于给定的 ( ∆ x , ∆ y ) (∆_x, ∆_y) (x,y)组合)。
(e)不同 ( ∆ x , ∆ y ) (∆_x, ∆_y) (x,y)组合的输出图被整形成单个3D输出图(两个空间维度x C类)。

在这里插入图片描述图3:分类输出图计算的1维图解(按比例),以尺度2的y维为例(见表5)。(a):20像素未池化的第5层特征图。(b):使用Δ={0,1,2}像素(分别为红色、绿色、蓝色)的偏移量,在不重叠的3个像素组上进行最大池化。(c):生成的6像素池化图,用于不同的∆。(d):以滑动窗口方式将5像素分类器(层6、7)应用于池化图,为每个层生成2像素乘C图。(e):通过C输出图重塑为6像素。

在这里插入图片描述

表5:我们多尺度方法的空间维度。使用6个不同大小的输入图像,产生具有不同空间分辨率的第5层未池化的特征图(尽管表中未示出,但所有特征图都具有256个特征通道)。(3x3)是我们的密集池化操作的结果,其中 ( ∆ x , ∆ y ) = 0 , 1 , 2 (∆_x, ∆_y) = {0, 1, 2} (x,y)=0,1,2。有关如何将这些转换成输出映射的详细信息,请参见正文和图3。

这些操作可以被视为通过池化层移动分类器的观察窗口1个像素,而无需下采样,并在下一层使用跳过核结构(其中邻域中的值不相邻)。或者等价地,在每个可能的偏移处应用最终池化层和全连接堆栈,并通过交错输出来组合结果。对每个图像的水平翻转版本重复上述过程。然后,我们通过以下方式产生最终分类:(i)在每个尺度和翻转下,取每个类别的空间最大值;(ii)对来自不同尺度和翻转的所得C维向量进行平均,以及(iii)从平均类向量中提取前1或前5个元素(取决于评估标准)。

在直观的层面上,网络的两个部分——即特征提取层(1-5层)和分类器层(6层-输出层)——以相反的方式使用。在特征提取部分,滤波器一次卷积整个图像。从计算的角度来看,这比在图像上滑动固定大小的特征提取器,然后聚合来自不同位置的结果要有效得多。然而,对于网络的分类器部分,这些原理是相反的。这里,我们希望在不同位置和比例的第5层特征图中寻找固定大小的表示。因此,分类器具有固定大小的5x5输入,并且穷尽地应用于第5层的特征图。穷举池方案(具有单像素偏移(x,y))确保我们可以在分类器和特征图中的目标表示之间获得精细对齐。

3.4 结果

在表2中,我们试验了不同的方法,并将它们与Krizhevsky等[15]的单一网络模型进行了比较供参考。上述方法具有6个尺度,实现了13.6%的前5个错误率。正如所料,使用较少的尺度会损害性能:单尺度模型更差,前5名误差为16.97%。图3所示的精细步长技术在单尺度范围内带来了相对较小的改善,但是对于这里所示的多尺度增益也是重要的。

在这里插入图片描述

表2:验证集上的分类实验。细/粗步长是指应用分类器时使用的数值的数量。精细:∆ = 0, 1, 2;粗糙:∆ = 0。

我们在图4中报告了2013年比赛的测试集结果,其中我们的模型(OverFeat)通过对7个卷积神经网络(每个卷积神经网络用不同的初始化训练)的投票获得了14.2%的准确率,并在18个团队中排名第5。仅使用ILSVRC13数据的最佳准确率为11.7%。使用ImageNet Fall11数据集的额外数据进行预训练,将这一数字提高到11.2%。在赛后工作中,我们通过使用更大的模型(更多的特征和更多的层)将过度结果的误差降低到13.6%。由于时间限制,这些更大的模型还没有完全训练好,更多的改进有望及时出现。

在这里插入图片描述

图4:测试集分类结果。在比赛中,OverFeat使用平均7个快速模型产生了14.2%的前5名错误率。在赛后工作中,OverFeat使用更大的模型(更多的特征和更多的层)以13.6%的误差排名第五。

3.5 卷积神经网络与滑动窗口效率

与一次为输入的每个窗口计算整个流水线的许多滑动窗口方法相比,当以滑动方式应用时,卷积本质上是有效的,因为它们自然地共享重叠区域共有的计算。当在测试时将我们的网络应用于更大的图像时,我们只需在整个图像的范围内应用每个卷积。这扩展了每个层的输出以覆盖新的图像大小,最终产生输出类预测的地图,每个输入的“窗口”(视场)有一个空间位置。这个如图5所示。卷积是自下而上应用的,因此相邻窗口常见的计算只需进行一次。

在这里插入图片描述
图5 卷积神经网络的检测效率。在训练期间,卷积神经网络仅产生单个空间输出(顶部)。但是当在测试时应用于更大的图像时,它会产生空间输出图,例如2x2(底部)。由于所有层都是卷积应用的,较大图像所需的额外计算仅限于黄色区域。为了简单起见,此图省略了特征维度。

请注意,我们架构的最后几层是全连接的线性层。在测试时,这些层被具有1x1空间范围的核的卷积运算有效地替换。整个j卷积神经网络只是一系列卷积、最大池化和阈值运算。

4.定位

从我们的分类训练网络开始,我们用回归网络替换分类层,并训练它预测每个空间位置和尺度的目标边界框。然后,我们将回归预测与每个位置的分类结果结合在一起,正如我们现在所描述的。

4.1 生成预测

为了生成目标边界框预测,我们在所有位置和尺度上同时运行分类器和回归器网络。由于这些共享相同的特征提取层,所以在计算分类网络之后,只需要重新计算最终的回归层。c类的最终softmax层在每个位置的输出提供了c类目标存在于(尽管不一定完全包含)相应视场中的置信度分数。因此,我们可以给每个边界框分配一个置信度。

4.2 回归训练

回归网络将来自第5层的池化特征图作为输入。它有两个大小分别为4096和1024通道的完全连接的隐藏层。最终输出层有4个单元,指定边界框边缘的坐标。与分类一样,由于 ∆ x , ∆ y ∆_x, ∆_y x,y移位,整个过程中有(3x3)个副本。结构如图8所示。

在这里插入图片描述
图8:回归网络对第5层特征图的应用,例如,在尺度2。(a)对于(3x3) ∆ x , ∆ y ∆_x, ∆_y x,y偏移中的每一个,回归器在该尺度下的输入在空间上是6x7像素乘以256个通道。(b)回归网的第一层中的每个单元连接到第5层特征图中的5x5空间邻域,以及所有256个通道。对于图层中4096个通道中的每一个,以及(3x3) ∆ x , ∆ y ∆_x, ∆_y x,y偏移中的每一个,移动5x5邻域会产生2x3空间范围的图。(c)第二回归层具有1024个单元并且完全连接(即,紫色元件仅连接到(b)中的紫色元件,跨越所有4096个通道)。(d)回归网络的输出是2x3图中每个位置的4向量(指定边界框的边),以及(3x3) ∆ x , ∆ y ∆_x, ∆_y x,y移位中的每个位置的4向量。

我们从分类网络中固定特征提取层(1-5),并使用每个示例的预测和真实边界框之间的l2损失来训练回归网络。最终的回归层是特定于类的,有1000个不同的版本,每个类一个。我们使用与第3节中描述的相同的一组尺度来训练这个网络。我们将每个空间位置的回归器网络的预测与地面实况边界框进行比较,地面实况边界框移动到卷积内回归器平移偏移的参考框架中(见图8)。但是,我们不会在与输入视野重叠少于50%的边界框上训练回归器:因为目标大部分在这些位置之外,所以包含目标的回归窗口会更好地处理它。

以多尺度的方式训练回归量对于跨尺度预测组合是重要的。单一尺度的训练在该尺度上表现良好,在其他尺度上仍然表现合理。然而,训练多尺度将使预测跨尺度正确匹配,并成倍增加合并预测的置信度。反过来,这允许我们仅在几个尺度上表现良好,而不是像检测中通常的情况那样在许多尺度上表现良好。行人检测[25]中一个尺度与另一个尺度的典型比率约为1.05比1.1,但这里我们使用了约1.4的大比率(该数字因每个尺度而异,因为尺寸经过调整以完全适应我们网络的步幅),这使我们能够更快地运行我们的系统。

4.3 组合预测

我们使用以下算法,通过应用于回归器边界框的贪婪合并策略来组合单个预测(见图7)。

(a)将每个尺度 s ∈ 1...6 s ∈ 1 . . . 6 s1...6的top k中的类集合分配给 C s C_s Cs,通过取该尺度的跨空间位置的最大检测类输出来找到。
(b)将回归网络预测的 C s C_s Cs中每个类别的边界框集分配给 B s B_s Bs,跨越标度s的所有空间位置。
©分配 B ← ⋃ s B s B ← ⋃_s B_s BsBs
(d)重复合并直至完成:
在这里插入图片描述
在这里插入图片描述

图7:回归网络在组合成最终预测之前产生的边界框示例。这里显示的例子是在一个单一的规模。根据对象的不同,预测在其他尺度上可能更理想。在这里,最初组织为网格的大多数边界框汇聚到一个位置和比例。这表明网络对对象的位置非常有信心,而不是随机分布。左上角的图像显示,如果存在多个对象,它也可以正确识别多个位置。预测的边界框的各种纵横比表明网络能够应对各种物体姿态。

在上面,我们使用两个边界框的中心之间的距离和框的相交面积之和来计算匹配分数。框合并计算边界框坐标的平均值。最终预测是通过取具有最大类分数的合并边界框给出的。这是通过累加与预测每个边界框的输入窗口相关联的检测类输出来计算的。对于合并到单个高置信度边界框中的边界框的示例,参见图6。在该示例中,一些海龟和鲸鱼边界框出现在中间的多尺度步骤中,但在最终的检测图像中消失。这些边界框不仅分类置信度低(分别最多0.11和0.12),而且它们的集合不像熊边界框那样连贯,无法获得显著的置信度提升。熊盒具有很强的置信度(每个量表平均约0.5)和很高的匹配分数。因此,在合并后,许多熊边界框被融合成单个非常高置信度的盒,而假阳性由于缺乏边界框一致性和置信度而在检测阈值以下消失。该分析表明,通过奖励边界框相干性,我们的方法自然比传统的非最大抑制对来自纯分类模型的假阳性更鲁棒。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
图6:定位/检测管道。原始分类器/检测器输出每个位置的类别和置信度(第一张图)。使用第3.3节(第二张图)中描述的方法可以提高这些预测的分辨率。然后回归预测对象相对于每个窗口的位置比例(第三张图)。这些边界框然后被合并并累积成少量的对象(第4张图)。

4.4 实验

我们使用为竞赛指定的定位标准将我们的网络应用于Imagenet 2012验证集。其结果如图9所示。图10显示了2012年和2013年定位竞赛的结果(这两年的训练和测试数据相同)。我们的方法以29.9%的误差获得了2013年比赛的冠军。我们的多尺度和多视图方法对于获得良好的性能至关重要,如图9所示:仅使用单个中心裁剪,我们的回归网络实现了40%的错误率。通过在两个尺度上组合来自所有空间位置的回归预测,我们实现了31.5%的更好的误差率。添加第三个和第四个标度进一步将性能提高到30.0%的误差。

在这里插入图片描述
图9 ILSVRC12验证集上的定位实验。我们用不同数量的量表进行实验,并使用单类回归(SCR)或每类回归(PCR)。

在这里插入图片描述

图10:ILSVRC12和ILSVRC13竞赛结果(测试集)。我们的参赛作品是ILSVRC13定位竞赛的获胜者,误差为29.9%(前5名)。请注意,这两年的训练和测试数据是相同的。OverFeat条目使用4个量表和单类回归方法。

5.检测

检测训练类似于分类训练,但以空间方式进行。可以同时训练图像的多个位置。由于模型是卷积的,所有权重在所有位置之间共享。与定位任务的主要区别在于,当没有对象存在时,必须预测背景类。传统上,最初随机抽取反面例子进行训练。然后,在引导过程中,最令人不快的负错误被添加到训练集中。独立的自举过程使得训练变得复杂,并且在反例收集和训练时间之间存在潜在的不匹配风险。此外,需要调整自举过程的大小,以确保训练不会在小集合上过度适应。为了避免所有这些问题,我们在飞行中进行负面训练,通过为每个图像选择一些有趣的负面例子,如随机的或最令人不快的例子。这种方法计算量更大,但使过程更简单。并且由于特征提取最初是用分类任务训练的,所以检测微调无论如何都不会那么长。

在图11中,我们报告了ILSVRC 2013竞赛的结果,其中我们的检测系统以19.4%的平均精度(mAP)排名第三。我们后来建立了一个新的检测技术,具有24.3%的mAP。请注意,前3名方法与其他团队(第4名方法产生11.5%mAP))之间有很大差距 。此外,我们的方法与前两个系统有很大不同,前两个系统使用初始分割步骤将候选窗口从大约200,000个减少到2,000个。这种技术加快了推理速度,并大大减少了潜在误报的数量。[29,1]表明,与选择性搜索相反,当使用密集滑动窗口时,检测精度下降,选择性搜索丢弃不太可能的对象位置,从而减少误报。结合我们的方法,我们可以观察到传统的密集方法和基于分割的方法之间类似的改进。还应注意的是,我们没有像NEC和UvA那样对检测验证集进行微调。验证和测试集的分布与训练集有足够大的不同,仅这一点就将结果提高了大约1个点。图11中的两个OverFeat结果之间的改善是由于更长的训练时间和上下文的使用,即每个尺度也使用较低分辨率的尺度作为输入。
在这里插入图片描述

图11:ILSVRC13测试集检测结果。比赛期间,UvA以22.6%的mAP排名第一。在赛后工作中,我们以24.3%的mAP建立了新的SOTA。标有*的系统用ILSVRC12分类数据进行了预训练。

6.结论

我们提出了一种可用于分类、定位和检测的多尺度滑动窗口方法。我们将其应用于ILSVRC 2013数据集,目前它在分类方面排名第4,在定位方面排名第1,在检测方面排名第1。我们论文的第二个重要贡献是解释ConvNets如何有效地用于检测和定位任务。这些在[15]中从未涉及,因此我们第一个解释如何在ImageNet 2012的背景下做到这一点。我们提出的方案涉及对为分类而设计的网络的实质性修改,但清楚地表明ConvNets能够完成这些更具挑战性的任务。我们的定位方法赢得了2013年ILSVRC竞赛,并显著优于2012年和2013年的所有方法。检测模型在比赛中表现最佳,在赛后结果中排名第一。我们已经提出了一个集成的管道,它可以执行不同的任务,同时共享一个公共的特征提取库,完全直接从像素中学习。我们的方法仍有几个方面可以改进。(i)就定位而言,我们目前并无透过整个网络提供支持;这样做可能会提高性能。(ii)我们使用l2损耗,而不是直接优化衡量性能的交集过并(IOU)标准。将损失转换为这种损失应该是可能的,因为IOU仍然是可微分的,只要有一些重叠。(iii)边界框的替代参数化可能有助于去相关输出,这将有助于网络训练。

7.引用文献

  • [1] J. Carreira, F. Li, and C. Sminchisescu. Object recognition by sequential figure-ground ranking. International journal of computer vision, 98(3):243–262, 2012.
  • [2] J. Carreira and C. Sminchisescu. Constrained parametric min-cuts for automatic object segmentation, release 1. http://sminchisescu.ins.uni-bonn.de/code/cpmc/.
  • [3] D. C. Ciresan, J. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification. In CVPR, 2012.
  • [4] M. Delakis and C. Garcia. Text detection with convolutional neural networks. In International Conference on Computer Vision Theory and Applications (VISAPP 2008), 2008.
  • [5] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.
  • [6] I. Endres and D. Hoiem. Category independent object proposals. In Computer Vision–ECCV 2010, pages 575–588. Springer, 2010.
  • [7] C. Farabet, C. Couprie, L. Najman, and Y. LeCun. Learning hierarchical features for scene labeling. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013. in press.
  • [8] C. Garcia and M. Delakis. Convolutional face finder: A neural architecture for fast and robust face detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004.
  • [9] A. Giusti, D. C. Ciresan, J. Masci, L. M. Gambardella, and J. Schmidhuber. Fast image scanning with deep max-pooling convolutional neural networks. In International Conference on Image Processing (ICIP), 2013.
  • [10] R. Hadsell, P. Sermanet, M. Scoffier, A. Erkan, K. Kavackuoglu, U. Muller, and Y. LeCun. Learning long-range vision for autonomous off-road driving. Journal of Field Robotics, 26(2):120–144, February 2009.
  • [11] G. Hinton, N. Srivastave, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv:1207.0580, 2012.
  • [12] G. E. Hinton, A. Krizhevsky, and S. D. Wang. Transforming auto-encoders. In Artificial Neural Networks and Machine Learning–ICANN 2011, pages 44–51. Springer Berlin Heidelberg, 2011.
  • [13] V. Jain, J. F. Murray, F. Roth, S. Turaga, V. Zhigulin, K. Briggman, M. Helmstaedter, W. Denk, and H. S. Seung. Supervised learning of image restoration with convolutional networks. In ICCV’07.
  • [14] K. Jarrett, K. Kavukcuoglu, M. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In Proc. International Conference on Computer Vision (ICCV’09). IEEE, 2009.
  • [15] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.
  • [16] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Handwritten digit recognition with a back-propagation network. In D. Touretzky, editor, Advances in Neural Information Processing Systems (NIPS 1989), volume 2, Denver, CO, 1990. Morgan Kaufman.
  • [17] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, November 1998.
  • [18] Y. LeCun, F.-J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to pose and lighting. In Proceedings of CVPR’04. IEEE Press, 2004.
  • [19] S. Manen, M. Guillaumin, and L. Van Gool. Prime object proposals with randomized prims algorithm. In International Conference on Computer Vision (ICCV), 2013.
  • [20] O. Matan, J. Bromley, C. Burges, J. Denker, L. Jackel, Y. LeCun, E. Pednault, W. Satterfield, C. Stenard, and T. Thompson. Reading handwritten digits: A zip code recognition system. IEEE Computer, 25(7):5963, July 1992.
  • [21] F. Ning, D. Delhomme, Y. LeCun, F. Piano, L. Bottou, and P. Barbano. Toward automatic phenotyping of developing embryos from videos. IEEE Transactions on Image Processing, 14(9):1360–1371, September 2005. Special issue on Molecular and Cellular Bioimaging.
  • [22] S. Nowlan and J. Platt. A convolutional neural network hand tracker. pages 901–908, San Mateo, CA, 1995. Morgan Kaufmann.
  • [23] M. Osadchy, Y. LeCun, and M. Miller. Synergistic face detection and pose estimation with energy-based models. Journal of Machine Learning Research, 8:1197–1215, May 2007.
  • [24] P. Sermanet, S. Chintala, and Y. LeCun. Convolutional neural networks applied to house numbers digit classification. In International Conference on Pattern Recognition (ICPR 2012), 2012.
  • [25] P. Sermanet, K. Kavukcuoglu, S. Chintala, and Y. LeCun. Pedestrian detection with unsupervised multistage feature learning. In Proc. International Conference on Computer Vision and Pattern Recognition (CVPR’13). IEEE, June 2013.
  • [26] P. Sermanet and Y. LeCun. Traffic sign recognition with multi-scale convolutional networks. In Proceedings of International Joint Conference on Neural Networks (IJCNN’11), 2011.
  • [27] G. Taylor, R. Fergus, G. Williams, I. Spiro, and C. Bregler. Pose-sensitive embedding by nonlinear nca regression. In NIPS, 2011.
  • [28] G. Taylor, I. Spiro, C. Bregler, and R. Fergus. Learning invarance through imitation. In CVPR, 2011.
  • [29] J. R. R. Uijlings, K. E. A. van de Sande, T. Gevers, and A. W. M. Smeulders. Selective search for object recognition. International Journal of Computer Vision, 104(2):154–171, 2013.
  • [30] R. Vaillant, C. Monrocq, and Y. LeCun. Original approach for the localisation of objects in images. IEE Proc on Vision, Image, and Signal Processing, 141(4):245–250, August 1994.
  • 34
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

量子-Alex

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值