深度学习论文导航 | 01 R-CNN：用于精确目标检测和语义分割的丰富特征层次

最新推荐文章于 2024-05-19 10:32:03 发布

AI 菌

最新推荐文章于 2024-05-19 10:32:03 发布

阅读量1.9k

点赞数 3

分类专栏：深度学习论文导航文章标签：神经网络计算机视觉算法深度学习

深度学习论文导航专栏收录该内容

38 篇文章 82 订阅

订阅专栏

资源传送门：

论文地址：RCNN
项目地址：github源码

摘要

在PASCAL VOC数据集上的目标检测性能在过去的几年里已经达到瓶颈期。最好的检测方法是结合多种低层特征和高层特征的复杂的整体系统。在这篇论文中，我们提出了一种简单和可扩展的检测算法，这种算法的平均精确度比之前在VOC2012数据集上的测试效果（53.3%）还要高出30%。我们的方法结合了两种重要的观点：(1) 将大容量的卷积神经网络应用到自下而上的推荐区域用来定位和分割目标。(2) 当已有标签的数据集样本不足时，监督的预训练辅助任务，以及对特定领域的微调，会产生显著的性能提升。因为我们结合了CNNs和推荐区域的思想，所以我们称我们的方法为R-CNN：Regins with CNN feature。我们也将R-CNN和OverFeat（一个最近提出的基于相似CNN结构的候选滑动窗口检测器）进行了比较。我们发现该方法在ILSVRC2013检测数据集（有200个类别）上的检测性能比OverFeat要好得多。

1. 引言

特征很重要。在过去十年里，各种视觉识别任务的进展都大量地基于SIFT和HOG特征的应用。但是如果我们查看一下经典的视觉识别任务（比如PASCAL VOC 目标检测）的的测试性能，就很容易发现在2010到2012年间，有关视觉识别的进展已经变得缓慢起来。仅仅通过建立整体系统以及使用成功方法的小变种，可以获得一点点性能上的改进。

SIFT和HOG是块方向的直方图，我们可以将它与灵长类视觉路径中的第一个皮层区域中的复杂的细胞进行粗略地联系起来。但是我们也知道识别出现在后面的阶段，这就表明了按等级划分的，多阶段处理计算得到的特征甚至会给视觉识别更多的信息。
在这里插入图片描述
图1 目标检测系统述
我们的系统：（1）输入一张图片（2）从图片中提取出大概2000个自下而上的候选区域（3）使用一个大的卷积神经网络对每一个候选区域进行计算特征（4）使用具体的分类线性SVMs给每一个候选区域进行分类。R-CNN在PASCAL VOC 2010数据集上测试的平均精度达到53.7%。相比较而言，使用相同的候选区域，但是采用空间金字塔和视觉词条的方法可以达到35.1%的mAP。一个收欢迎的可变形的部分模型检测性能达到33.4%。在有200个类别的ILSVRC2013检测数据集上，R-CNN的mAP是31.4%，相比OverFeat（之前最好的检测结果是24.3%）有显著的改进。

CNN在20世纪90年代得到了大量使用，但随后随着支持向量机的兴起而过时。2012年，Krizhevsky等人重新燃起对CNN的兴趣通过在ILSVRC（ImageNet Large Scale Visual Recognition Challenge）上显示更高的图像分类精度。他们的成功来自于训练在120万张有标签的图片上以及在LeCun的CNN上的一些改进（例如，max（x，0）用来修正非线性和“dropout”正则化）。

在ILSVRC 2012研讨会期间对ImageNet结果的重要性进行辩论。中心问题可以归结为以下几个方面：在多大程度上ImageNet上的CNN分类结果可以运用到PASCAL VOC挑战赛的目标检测结果？

我们通过缩小图像分类和目标检测之间的差距来回答这个问题。本文首次表明，与基于简单HOG-like特征的系统相比，CNN可以显著提高PASCAL VOC上的目标检测性能。为了达到这一目的，我们重点研究了两个问题：利用深度网络定位目标和利用少量带标注的检测数据训练高容量模型。

与图像分类不同，检测需要在图像中定位（可能是许多）对象。一种方法是将定位作为一个回归问题。然而，Szegedy等人的工作，与我们的策略一致，表明这一策略在实践中可能效果不佳（他们报告的VOC 2007年的mAP为30.5%，而我们的方法实现的mAP为58.5%）。另一种方法是建立一个滑动窗口检测器。CNN已经以这种方式使用了至少20年，通常用于约束对象类别，如人脸和行人。为了保持高的空间分辨率，这些卷积神经网络通常只有两个卷积层和池化层。我们还考虑采用滑动窗口的方法。然而，在我们的网络中，具有五个卷积层的单元在输入图像中具有非常大的感受野195×195像素）和步长（32×32像素），这使得在滑动窗口模式中的精确定位成为一个公开的技术挑战。

相反，我们通过在“区域识别”模式下操作来解决CNN定位问题，该模式在目标检测和语义分割方面都取得了成功。在测试时，我们的方法为输入图像生成大约2000个类别无关的区域建议，使用CNN从每个建议中提取一个固定长度的特征向量，然后使用类别特定的线性支持向量机对每个区域进行分类。我们使用一种简单的技术（仿射图像扭曲）来计算来自每个区域建议的固定大小的CNN输入，而不管该区域的形状如何。图1概述了我们的方法，并突出显示了一些结果。由于我们的系统将区域建议与CNNs结合起来，因此我们将R-CNN方法称为具有CNN特征的区域。

在本文的更新版本中，通过在有200个类的ILSVRC2013检测数据集上运行R-CNN，我们提供了对R-CNN和最近提出的OverFeat检测系统进行的比较。OverFeat使用滑动窗口CNN进行检测，迄今为止是ILSVRC2013检测中性能最好的方法。我们的结果显示R-CNN明显优于OverFeat，mAP为31.4%超过（OverFeat的）24.3%。

在检测中面临的第二个挑战是，标记数据是稀缺的，目前可用的数量不足以训练一个大型CNN。这个问题的传统解决方案是使用无监督的预训练，然后进行有监督的微调。本文的第二个原则贡献是，在一个大的辅助数据集（ILVRC）上进行监督的预训练，然后对特定的小数据集（PASCAL）进行特定领域的微调，是一种在数据稀少的情况下学习高容量CNN的有效范例。在我们的实验中，对检测进行微调可以将mAP性能提高8个百分点。经过微调后，我们的系统在VOC 2010上实现了54%的映射，而在高度调谐的、基于HOG的可变形零件模型（DPM）上实现了33%的映射]。我们还将读者引向Donahue等人的同时代作品。他们表明Krizhevsky的CNN可以（无需微调）用作黑盒特征提取器，在包括场景分类、细粒度子分类和域自适应在内的多个识别任务中产生优异的性能。

我们的系统也很有效率。唯一的类具体的计算是一个合理的小矩阵向量积和贪婪非最大抑制。这种计算特性来自于所有类别共享的特征，并且这些特征的维数比以前使用的区域特征低两个数量级。

了解该方法的失效模式对于改进该方法也至关重要，因此我们报告了Hoiem等人的检测分析工具的结果。作为这一分析的直接结果，我们证明了一个简单的包围盒回归方法可以显著减少主要误差模式的错误定位。

在开发技术细节之前，我们注意到，由于R-CNN对区域进行操作，因此将其扩展到语义分割任务是很自然的。经过少量修改，我们在PASCAL VOC分割任务上也取得了有竞争力的结果，VOC 2011测试集的平均分割精度为47.9%。

2. 基于R-CNN的目标检测

我们的目标检测系统由三个模块组成。第一个方案生成与类别无关的区域方案。这些方案定义了可供检测器使用的候选检测集。第二个模块是一个大型卷积神经网络，它从每个区域提取一个固定长度的特征向量。第三个模块是一组特定于类的线性支持向量机。在本节中，我们将介绍每个模块的设计决策，描述它们的测试时间使用，详细说明如何学习它们的参数，并在PASCAL VOC 2010-12和ILSVRC2013上显示检测结果。

2.1 模块设计

推荐区域。最近的许多论文提供了生成类别独立区域建议的方法。示例包括：对象性、选择性搜索、与类别无关的对象建议、约束参数最小割集（CPMC）、多尺度组合分组，并且Cires¸an等人通过将CNN应用于规则间隔的方形作物来检测有丝分裂细胞，这是区域提案的一个特例。虽然R-CNN对特定的区域建议方法是不可知的，但我们使用选择性搜索来实现与先前检测工作的受控比较。

特征提取。我们使用Krizhevsky等人描述的CNN的Caffe实现，从每个区域建议中提取4096维特征向量。特征通过前向传播平均减去227×227的RGB图，并且经过了五个卷积层和两个全连接层来计算的。

为了计算区域建议的特征，我们必须首先将该区域中的图像数据转换为与CNN兼容的形式（其架构要求输入固定的227×227像素大小）。在任意形状区域的许多可能变换中，我们选择最简单的。无论候选区域的大小或宽高比如何，我们都会将其周围紧边界框中的所有像素扭曲为所需的大小。在扭曲之前，我们会展开紧边界框，以便在扭曲的大小下，原始框周围正好有p个扭曲图像上下文像素（我们使用p=16）。图2显示了扭曲训练区域的随机抽样。附录A中讨论了翘曲的替代方案。在这里插入图片描述

2.2 测试时间检测

在测试时，我们对测试图像运行选择性搜索，以提取大约2000个区域建议（我们在所有实验中使用选择性搜索的“快速模式”）。我们扭曲每一个提议，并通过CNN传播，以计算特征。然后，对于每一类，我们使用为该类训练的支持向量机对提取的特征向量进行评分。给定图像中的所有得分区域，我们应用一个贪婪的非最大抑制（对于每一个独立的类），如果它有一个IOU与一个大于学习阈值的更高的得分选择区域重叠，则拒绝一个区域。

运行时间分析两个特性使检测更有效。首先，所有CNN参数都是跨高类别共享的。其次，与其他常用方法相比，CNN计算出的特征向量是低维的，例如带有视觉文字编码包的空间金字塔。例如，在UVA探测系统中使用的特征比我们的大两个数量级（360k比4k维）。这种共享的结果是，计算区域建议和特性（GPU上的13s/映像或CPU上的53s/映像）所花费的时间在所有类中分摊。

这个分析表明，R-CNN可以扩展到数千个对象类，而不需要使用类似哈希这样的近似技术。即使有100k个类，在现代多核CPU上得到的矩阵乘法也只需要10秒。这种效率不仅仅是使用区域建议和共享特性的结果。UVA系统，由于它的高维特性，将会慢两个数量级，同时需要134GB的内存来存储100k的线性预测器，而我们的低维特性只需要1.5GB。将R-CNN与Dean等人最近关于使用DPMs和散列进行可伸缩检测的工作进行对比也很有趣。他们报告说，在引入10k干扰类时，每张图的运行时间为5分钟，VOC 2007的地图约为16%。使用我们的方法，10k检测器可以在一分钟内在CPU上运行，因为没有进行近似，所以mAP将保持在59%。

2.3 训练

监督训练我们在一个大的辅助数据集(ILSVRC2012分类)上对CNN进行了有区别的预训练，仅使用图像级注释(此数据不提供边框标签)。使用开放源代码的CNN图书馆进行了训练。简而言之，我们的CNN的表现几乎与Krizhevsky等人的不相上下，在ILSVRC2012分类验证集上获得了第1名的错误率，高出2.2个百分点。

特定领域的微调为了使我们的CNN适应新的任务(检测)和新的领域(弯曲建议窗口)，我们继续使用仅仅弯曲区域建议的CNN参数的随机梯度下降(SGD)训练。除了将CNN特定于imagenet的1000路分类层替换为随机化(N + 1)的方法分类层(其中N是对象类的数量，加上1作为背景)之外，CNN的体系结构没有改变。对于VOC，N = 20, 对于ILSVRC2013，N = 200。我们将所有IoU≥0.5的区域建议与标签框重叠作为该框类的积极因素，其余为消极因素。我们以0.001的学习率(初始训练前率的1/10)开始SGD，这允许进行微调，同时不影响初始化。在每个随机梯度迭代中，我们统一采样32个正窗口(在所有类上)和96个后台窗口，以构建一个大小为128的小批量。我们倾向于正窗口的抽样，因为与背景相比，它们非常罕见。

对象的类别分类器考虑训练一个二进制分类器来检测车辆。很明显，一个紧密包围汽车的图像区域应该是一个积极的例子。同样，很明显，与汽车无关的背景区域应该是一个负面例子。不太清楚的是如何标记部分与汽车重叠的区域。我们用IoU重叠阈值来解决这个问题，低于这个阈值的区域被定义为负值。重叠阈值0.3是通过一个验证集上{0,0.1，…，0.5}的网格搜索选择的。我们发现仔细选择这个阈值非常重要。将其设置为0.5，如，减少5点mAP。类似地，将其设置为0会使mAP减少4个点。积极的例子被简单地定义为每个类的ground-truth边界框。一旦特征提取和训练标签的应用，我们优化一个线性支持向量机每类。由于训练数据量太大，无法在内存中拟合，我们采用标准的硬负挖掘方法。硬负挖掘收敛快，在实践中地图停止增加后，只有一个单一的通过所有的图像。

在附录B中，我们讨论了为什么在微调和支持向量机训练中定义正例和反例是不同的。我们还讨论了训练检测支持向量机所涉及的权衡，而不是简单地使用微调后的CNN的最后一层softmax的输出。

2.4 在PASCAL VOC 2010-12数据集上的测试结果

遵循PASCAL VOC的最佳实践，我们在VOC 2007数据集上验证了所有的设计决策和超参数(第3.2节)。对于VOC 2010-12数据集的最终结果，我们对VOC2012训练中的CNN进行了微调，并对VOC2012训练中的SVMs进行了优化。对于两个主要的算法变体，我们只向评估服务器提交了一次测试结果(包含和不包含边界盒回归)。表1显示了VOC 2010的完整结果。我们将我们的方法与四种强基线进行比较，包括SegDPM，它将DPM检测器与语义分割系统的输出相结合，并使用额外的检测器间上下文和图像分类器重新取心。最接近的比较是来自Uijlings等人的UVA系统，因为我们的系统使用相同的区域建议算法。为了对区域进行分类，他们的方法构建了一个四层的空间金字塔，并用密集采样的SIFT、扩展的反对者SIFT和RGB-SIFT描述符对其进行填充，每个矢量用4000字的码本进行量化。采用直方图交核SVM进行分类。与它们的多特征、非线性核支持向量机方法相比，我们在mAP上取得了很大的改进，从35.1%提高到了53.7%，同时也快了很多(2.2节)。我们的方法在VOC 2011/12测试中取得了相似的性能(53.3% mAP)。

2.5 在ILSVRC2013上的检测结果

我们使用与PASCAL VOC相同的系统超参数对200级ILSVRC2013检测数据集运行R-CNN。我们遵循相同的协议，只向ILSVRC2013评估服务器提交了两次测试结果，一次带有和一次没有绑定盒回归。

图3将R-CNN与2013年ILSVRC竞赛的参赛作品以及赛后的优胜成绩进行了比较。R-CNN获得了31.4%的mAP，远远超过了OverFeat获得的24.3%的第二好结果。为了更好地理解类之间的AP分布，本文还提供了箱形图，表8中给出了一个perclass APs表。大多数参赛作品(OverFeat、NEC-MU、UvA Euvision、Toronto A和UIUC-IFP)都使用了卷积神经网络，这表明CNNs在如何应用于目标检测方面存在显著的细微差别，从而导致了结果的巨大差异。在第4节中，我们对ILSVRC2013检测数据集进行了概述，并详细介绍了我们在运行R-CNN时所做的选择。

3. 可视化，消融和误差模式

3.1 可视化学习特征

第一层卷积层可以直接可视化并且易于理解。它们捕获定向的边缘和对手的颜色。了解后续层更具挑战性。 Zeiler和Fergus在[42]中提出了一种视觉上有吸引力的反卷积方法。我们提出了一种简单（且互补）的非参数方法，该方法直接显示网络学到的知识。

这个想法是挑选出网络中的一个特定单元（特征），并像使用它本身就是对象检测器一样使用它。就是说，我们根据一大批保留推荐区域（大约一千万）计算单位的激活，将提案从最高激活排序到最低激活，执行非最大抑制，然后显示得分最高的区域。我们的方法通过确切显示触发的输入，让选定的单元“为自己说话”。我们避免求平均以查看不同的视觉模式并深入了解由该单元计算出的不变性。
在这里插入图片描述

我们可视化来自第5层池（即网络的第五层也是最后一个卷积层）的最大池输出的层池。池5的特征图为6×6×256 = 9216维。忽略边界效应，每个池5单元在原始227×227像素输入中具有195×195像素的接收场。中央泳池5单元几乎具有全局视野，而靠近边缘的泳池则具有较小的固定支撑。

图4中的每一行显示了CNN中池5单元的前16个激活，我们在VOC 2007训练中对其进行了微调。可视化256个功能独特的单元中的六个（附录D包含更多）。选择这些单元以显示网络学到的代表性样本。在第二行中，我们看到一个在狗的面孔和点阵上触发的单元。第三行对应的单元是红色斑点检测器。还有用于人脸和更抽象的图案的检测器，例如带有窗口的文本和三角形结构。该网络似乎正在学习一种表示形式，该表示形式将少量的类调整特征与形状，纹理，颜色和材料属性的分布式表示形式结合在一起。随后的完全连接层fc 6具有对这些丰富特征的大量组合进行建模的能力。
在这里插入图片描述

3.2 Ablation 研究

**逐层性能，无需微调。**为了了解哪些层对于检测性能至关重要，我们在VOC 2007数据集上分析了CNN的最后三层中的每一层的结果。第3.1节简要介绍了第5层池。最后两层总结如下。
层fc 6完全连接到池5。为了计算特征，它将4096×9216权重矩阵乘以池5特征图（重塑为9216维向量），然后添加一个偏差向量。该中间矢量是逐分量半波整流（x←max（0，x））。
fc 7层是网络的最后一层。它是通过将fc 6计算的特征乘以4096×4096权重矩阵，并类似地添加偏置矢量并应用半波整流来实现的。

我们首先查看CNN的结果，而无需在PASCAL上进行微调，即所有CNN参数仅在ILSVRC 2012上进行了预训练。逐层分析性能（表2第1-3行）显示，功能fc 7的功能普遍比功能fc 6的功能差。这意味着可以删除29％的CNN参数（约1,680万），而不会降低mAP。更令人惊讶的是，即使仅使用6％的CNN参数来计算池5功能，删除fc 7和fc 6也会产生很好的结果。 CNN的大部分表示能力来自其卷积层，而不是来自更大的密集连接层。这一发现表明，在仅使用CNN的卷积层的情况下，在HOG意义上计算任意尺寸图像的密集特征图方面具有潜在的实用性。此表示将使能够在池5功能之上使用滑动窗口检测器（包括DPM）进行实验。

性能逐层调整。在微调了VOC 2007 trainval的参数后，我们现在来看CNN的结果。改善是惊人的（表2第4-6行）：微调使mAP增加8.0个百分点至54.2％。对于fc 6和fc 7，微调所带来的提升要比池5大得多，这表明从ImageNet获悉的池5功能是一般性的，并且大多数改进是通过在以下位置学习特定于域的非线性分类器获得的：最重要的。

3.3 网络结构

本文的大多数结果使用Krizhevsky等人的网络体系结构。但是，我们发现架构的选择对R-CNN的检测性能有很大的影响。在表3中，我们显示了Simonyan和Zisserman最近提出的使用16层深层网络对VOC 2007进行测试的结果[43]。在最近的ILSVRC 2014分类挑战中，该网络是表现最好的网络之一。该网络具有一个均匀的结构，该结构由13层3×3的卷积核组成，其中散布了五个最大池化层，并在其上放置了三个完全连接的层。对于牛津网络，我们将此网络称为“ O-Net”，对于多伦多网络，我们将其基准称为“ T-Net”。

为了在R-CNN中使用O-Net，我们从Caffe Model Zoo下载了VGG ILSVRC 16层模型的公开可用的预训练网络权重。然后，我们使用与T-Net相同的协议对网络进行微调。唯一的区别是根据需要使用较小的迷你批处理（24个示例），以适合GPU内存。表3中的结果表明，带有O-Net的RCNN明显优于带有TNet的R-CNN，将mAP从58.5％提高到66.0％。但是，在计算时间方面存在相当大的缺陷，O-Net的前向传递比T-Net花费大约7倍的时间。

3.4 检测误差分析

我们应用了Hoiem等人的优秀检测分析工具。 [23]为了揭示我们方法的错误模式，了解微调如何更改它们，并查看我们的错误类型与DPM的比较。分析工具的完整摘要超出了本文的范围，我们鼓励读者参考[23]以了解一些更详细的信息（例如“规范化AP”）。由于分析最好在相关图的上下文中进行，因此我们在图5和图6的标题内进行了讨论。

3.5 目标框回归

基于误差分析，我们实现了一种减少定位误差的简单方法。受到DPM [17]中使用的包围盒回归的启发，我们针对给定的选择性搜索区域提议的库5特征，训练了线性回归模型来预测新的检测窗口。附录C中提供了完整的详细信息。表1，表2和图5的结果表明，这种简单的方法可以修复大量的错误定位检测，从而将mAP提高3-4点。

3.6 定性结果

ILSVRC2013的定性检测结果显示在本文末尾的图8和图9中。从val 2集中随机采样每个图像，并显示来自所有检测器的所有检测结果，其精度均大于0.5。请注意，这些不是经过精心设计的，它们给实际使用中的检测器以真实的印象。图10和图11给出了更多的定性结果，但是这些结果已经得到确认。我们选择每个图像是因为它包含有趣，令人惊讶或有趣的结果。此处，还显示了所有精度大于0.5的检测。

4. ILSVRC2013检测数据集

4.1 数据集概述

ILSVRC2013检测数据集分为三组：训练（395918），val（20121）和测试（40152），其中每组中的图像数都用括号括起来。val和测试分割来自相同的图像分布。这些图像类似于场景，并且在复杂性（对象数量，杂波数量，姿势可变性等）方面类似于PASCALVOC图像。 The val and test splits进行了详尽的注释，这意味着在每个图像中，所有200个类别的所有实例都用边界框标记。相反，列车组是从ILSVRC2013分类图像分布中得出的。这些图像具有更大的可变复杂性，因为它们朝着单个中心对象的图像倾斜。与val和test不同，火车图像（由于数量众多）没有详尽注释。在任何给定的火车图像中，可以标记200个类别的实例，也可以不标记。除了这些图像集之外，每个类别还具有一组负图像。手动检查负片图像以确认它们不包含其关联类的任何实例。负像集未在这项工作中使用。有关如何收集和注释ILSVRC的更多信息，请参见[11，36]。

这些拆分的性质为训练R-CNN提供了许多选择。火车图像不能用于硬底片挖掘，因为注释并不详尽。负面例子应该从哪里来？而且，火车图像的统计信息不同于val和test。
是否应该完全使用火车图像，如果可以，使用程度如何？尽管我们尚未彻底评估大量选择，但根据以前的经验，我们将介绍最明显的方法。

4.2 推荐区域

我们遵循了用于PASCAL检测的相同区域建议方法。在val 1，val 2和test中的每个图像上以“快速模式”运行了选择性搜索[39]（但在训练集中的图像上没有）。需要进行一次较小的修改来处理选择性搜索不是尺度不变的事实，因此产生的区域数量取决于图像分辨率。 ILSVRC图像的大小从很小到几百万像素不等，因此我们在运行选择性搜索之前将每个图像的大小调整为固定宽度（500像素）。val上，选择性搜索平均每幅图像产生2403个区域建议，所有地面真相边界框的召回率达到91.6％（阈值为0.5 IoU）。召回率明显低于PASCAL，后者约为98％，表明在区域提案阶段仍有很大的改进空间。

4.3 训练数据

对于训练数据，我们形成了一组图像和框，其中包含来自val 1的所有选择性搜索框和地面真相框，以及每个班级最多N个地面真相框（如果一个班级少于N个地面真相框，在火车上，然后我们全部接受）。我们将此图像和盒子的数据集称为val 1 + train N。在消融研究中，我们针对N∈{0,500,1000}（第4.5节）显示了val 2上的mAP。

4.4 验证与评估

在将结果提交给评估服务器之前，我们使用上述训练数据验证了数据使用选择以及val 2集上的微调和边界框回归的影响。所有系统超参数（例如SVM C超参数，区域变形中使用的填充，NMS阈值，边界框回归超参数）都固定为用于PASCAL的相同值。毫无疑问，对于ILSVRC，这些超参数选择中的某些选择次优，但是这项工作的目标是在ILSVRC上产生初步的R-CNN结果，而无需进行大量的数据集调整。在val 2中选择最佳选择之后，我们将两个结果文件恰好提交给ILSVRC2013评估服务器。第一个提交没有边界框回归，第二个提交有边界框回归。对于这些提交，我们将SVM和boundingbox回归器训练集扩展为分别使用val + train 1k和val。我们使用在val 1 + train 1k上进行了微调的CNN，以避免重新运行微调和特征计算。

5. 语义分割

区域分类是语义分割的一种标准技术，使我们能够轻松地将R-CNN应用于PASCAL VOC分割挑战。为了便于与当前领先的语义分割系统（称为“二阶合并”，称为O 2 P）[4]进行直接比较，我们在其开源框架内开展工作。 O 2 P使用CPMC在每个图像上生成150个区域建议，然后使用支持向量回归（SVR）预测每个类别的每个区域的质量。其方法的高性能归因于CPMC区域的质量以及多种要素类型（SIFT和LBP的丰富变体）的强大二阶合并。我们还注意到，Farabet等。 [16]最近在使用CNN作为多尺度每像素分类器的多个场景标记数据集（不包括PASCAL）上显示了良好的结果。

6. 总结

近年来，物体检测性能停滞不前。表现最佳的系统是复杂的集合体，将来自对象检测器和场景分类器的多个低层图像特征与高层上下文结合在一起。本文提出了一种简单且可扩展的对象检测算法，与PASCAL VOC 2012上的最佳以往结果相比，相对改进了30％。

我们通过两个见解实现了这一性能。首先是将大容量卷积神经网络应用于自下而上的区域建议，以定位和分割对象。第二个是在缺少标记的训练数据时训练大型CNN的范例。我们表明，在有监督的情况下对具有丰富数据的辅助任务（图像分类）进行网络预培训，然后针对数据稀缺（检测）的目标任务微调网络是非常有效的。我们猜想“有监督的预训练/特定领域的微调”范例将对多种数据稀缺的视觉问题非常有效。

我们的结论是，通过结合计算机视觉和深度学习（自下而上的区域建议和卷积神经网络）的经典工具，我们取得了这些成果，这一点很重要。两者是自然而不可避免的伙伴，而不是相反的科学探究路线。