R-CNN笔记

文章获取: http://www.cs.berkeley.edu/˜rbg/rcnn.

在典型的PASCAL VOC数据集上,目标检测性能在过去几年中已经趋于稳定。性能最好的方法是复杂的集成系统,通常将多个低级图像特征与高级上下文相结合。在本文中,我们提出了一种简单且可扩展的检测算法,相对于之前VOC 2012的最佳结果,平均平均精度(mAP)提高了30%以上,实现了53.3%的mAP。我们的方法结合了两个关键的见解:(1)可以将高容量卷积神经网络(CNNs)应用于自底向上的区域方案,以定位和分割目标。(2)当标记训练数据稀缺时,对辅助任务进行监督前训练,然后进行特定领域的微调,可以显著提高性能。由于我们将区域建议与CNN相结合,我们将我们的方法称为R-CNN:具有CNN特征的区域。我们还比较了R-CNN和OverFeat, OverFeat是最近提出的基于类似CNN架构的滑动窗口检测器。我们发现,在200类ILSVRC2013检测数据集上,R-CNN的性能明显优于OverFeat。

1. 介绍功能。

        在过去的十年里,各种视觉识别任务的进展很大程度上是基于SIFT[29]和HOG[7]的使用。但是,如果我们看看典型的视觉识别任务PASCAL VOC目标检测[15]的表现,人们普遍认为在2010-2012年期间进展缓慢,通过构建集成系统和使用成功方法的小变体获得的收益很小。、

        SIFT和HOG是块方向直方图,我们可以大致联想到V1中的复杂细胞,V1是灵长类视觉通路的第一个皮质区域。但我们也知道识别发生在下游几个阶段,这表明可能有更高的Archical的,多阶段的过程计算的特征,甚至更信息的视觉识别。

        图1:目标检测系统概述。我们的系统(1)获取输入图像,(2)提取大约2000个自底向上的区域建议,(3)使用大型卷积神经网络(CNN)为每个建议计算特征,然后(4)使用类特定的线性支持向量机(svm)对每个区域进行分类。R-CNN在PASCAL VOC 2010上的平均精度(mAP)为53.7%。相比之下,[39]报告了35.1%的mAP使用相同的区域建议,但采用了空间金字塔和视觉词汇袋的方法。流行的可变形零件模型的表现为33.4%。在200类ILSVRC2013检测数据集上,R-CNN的mAP为31.4%,比OverFeat[34]的24.3%有很大的提高。

        福岛的“新认知”[19]是一种受生物学启发的模式识别分层和移位不变模型,是这一过程的早期尝试。然而,新认知体缺乏有监督的训练算法。在Rumelhart等[33]、LeCun等[26]的基础上,[26]证明了通过反向传播的随机梯度下降对训练卷积神经网络(CNNs)是有效的,卷积神经网络是一类扩展新认知的模型。cnn在20世纪90年代被大量使用(例如[27]),但随后随着支持向量机的兴起而不再流行。2012年,Krizhevsky等人通过在ImageNet大规模视觉识别挑战(ILSVRC)中显示出更高的图像分类精度,重新引起了人们对cnn的兴趣[9,10]。他们的成功来自于用120万张标签图像训练一个大型CNN,以及在LeCun的CNN上做一些调整(例如,max(x,0)纠正非线性和“dropout”正则化)。

        ImageNet结果的重要意义是有力的。2014年10月22日在ILSVRC 2012研讨会上讨论。核心问题可以概括为以下几点:在ImageNet上的CNN分类结果在多大程度上可以推广到PASCAL VOC挑战上的目标检测结果?

        我们通过弥合图像分类和目标检测之间的差距来回答这个问题。本文首次表明,与基于更简单的hog类特征的系统相比,CNN在PASCAL VOC上可以显著提高目标检测性能。为了实现这一结果,我们重点研究了两个问题:一是利用深度网络定位目标,二是利用少量标注的检测数据训练大容量模型。

        与图像分类不同,检测需要在图像中定位(可能有很多)目标。一种方法将本地化视为一个回归问题。然而,Szegedy等人[38]的研究表明,这种策略在实践中可能不会取得很好的效果(他们报告2007年VOC的mAP为30.5%,而我们的方法为58.5%)。另一种选择是建立一个滑动窗口检测器。cnn已经以这种方式使用了至少20年,通常用于约束对象类别,如人脸[32,40]和行人[35]。为了保持高空间分辨率,这些cnn通常只有两个卷积层和池化层。我们还考虑采用滑动窗口方法。然而,我们的网络中较高的单元有5个卷积层,在输入图像中具有非常大的接受域(195 × 195像素)和步幅(32×32像素),这使得在滑动窗口范式中进行精确定位成为一个公开的技术挑战。

        相反,我们通过“使用区域识别”范式[21]来解决CNN定位问题,该范式在目标检测[39]和语义分割[5]上都取得了成功。在测试时,我们的方法为输入图像生成大约2000个类别独立的区域建议,使用CNN从每个建议中提取一个固定长度的特征向量,然后使用类别特定的线性支持向量机对每个区域进行分类。我们使用一种简单的技术(仿射图像扭曲)从每个区域提议计算一个固定大小的CNN输入,而不考虑区域的形状。图1展示了我们的方法的概述,并强调了我们的一些结果。由于我们的系统将区域建议与CNN相结合,我们将该方法命名为R-CNN:具有CNN特征的区域。

        在本文的这个更新版本中,我们通过在200类ILSVRC2013检测数据集上运行R-CNN,对R-CNN和最近提出的OverFeat[34]检测系统进行了头对头的比较。OverFeat使用滑动窗口CNN进行检测,是目前为止在ILSVRC2013检测中表现最好的方法。我们发现,R-CNN的表现明显优于OverFeat,其mAP值为31.4%,而非24.3%。

        在检测中面临的第二个挑战是,标签数据是稀缺的,目前可用的数量不足以训练一个大型CNN。这个问题的传统解决方案错误地将无监督的前训练,以及随后的监督微调(例如,[35])。本文的第二个主要贡献是表明,在大型辅助数据集(ILSVRC)上进行监督前训练,然后在小数据集上进行领域特定微调(PASCAL),是在数据匮乏时学习高容量cnn的有效范例。在我们的实验中,对检测进行微调可将mAP性能提高8个百分点。经过微调,我们的系统在VOC 2010上的mAP达到54%,相比之下,高度调整的基于hog的可变形零件模型(DPM)的mAP为33%[17,20]。我们还向读者介绍了Donahue等人[12]的同时工作,他们表明Krizhevsky的CNN可以被用作黑箱特征提取器(无需微调),在包括场景分类、细粒度子分类和域适应在内的几个识别任务上获得了出色的性能。

        我们的系统也很有效率。唯一的类特定计算是一个相当小的矩阵向量乘积和贪婪非最大抑制。这个计算属性来源于所有类别共享的特征,并且比以前使用的区域特征低两个数量级(cf.[39])。

        理解我们的方法的失效模式对于改进它也是至关重要的,因此我们报告来自Hoiem等人[23]的检测分析工具的结果。这一分析的一个直接结果是,我们证明了一个简单的边界框回归方法显著减少了错误定位,这是主要的错误模式。

        在研究技术细节之前,我们注意到,由于R-CNN对区域进行操作,因此很自然地将其扩展到语义分割的任务。经过微小的修改,我们在PASCAL VOC分割任务上也获得了竞争结果,在VOC 2011测试集上平均分割准确率为47.9%。

2、R-CNN目标检测

        我们的目标检测系统由三个模块组成。第一个生成独立于类别的区域建议。这些建议定义了我们的检测器可用的候选检测集。第二个模块是一个大型卷积神经网络,从每个区域提取固定长度的特征向量。第三个模块是一组特定于类的线性支持向量机。在这一节中,我们给出了每个模块的设计决策,描述了它们的测试时间使用情况,详细说明了它们的参数是如何学习的,并展示了在PASCAL VOC 2010-12和ILSVRC2013上的检测结果。

2.1、模块设计

        区域建议。各种最近的论文提供了生成类别独立区域提案的方法。

图2:VOC 2007训练的扭曲训练样本。

示例包括:客观性 [1]、选择性搜索 [39]、与类别无关的对象提议 [14],受约束参数最小切割 (CPMC) [5],多尺度组合分组 [3] 和 Cires ¸an 等。 [6]通过将CNN应用于正则间隔的方形作物来检测有丝分裂细胞,这是区域提议的一种特殊情况。虽然R-CNN对于特定区域提议方法是未知的,但我们使用选择性搜索来实现与之前检测工作的受控比较(例如,[39,41])。

        特征提取。我们使用Krizhevsky等人描述的CNN的Caffe[24]实现,从每个区域提议中提取一个4096维的特征向量。特征的计算方法是将平均减去的227×227 RGB图像通过5个卷积层和2个完全连接层向前传播。读者可以参考[24,25]了解更多的网络架构细节。

        为了计算一个区域提案的特征,我们必须首先将该区域的图像数据转换为与CNN兼容的形式(其架构要求输入固定的227 × 227像素大小)。在我们任意形状区域的许多可能的变换中,我们选择最简单的。不管候选区域的大小或长宽比如何,我们将所有像素在一个紧密的边界框中扭曲到所需的大小。在翘曲之前,我们将紧密的边界框放大,这样在翘曲的大小下,原来的盒子周围有p像素的翘曲图像(我们使用p = 16)。图2显示了扭曲训练区域的随机抽样。在附录A中讨论了变形的替代方案。

2.2测试时间检测

        在测试时,我们对测试图像进行选择性搜索,提取出大约2000个区域建议(我们在所有实验中使用选择性搜索的“快速模式”)。我们扭曲每个提议,并通过CNN向前传播,以计算特征。然后,对于每个类,我们使用为该类训练的SVM对每个提取的特征向量进行评分。给定图像中的所有得分区域,我们应用贪婪非最大抑制(对每个类别独立),拒绝一个区域,如果它有一个交集-过并集(IoU)重叠,一个更高的得分选择区域大于学习阈值。

        运行时分析。有两个特性使得检测更加有效。首先,所有CNN参数在所有类别中共享。其次,与其他常见的方法相比,如使用视觉字袋编码的空间金字塔,由CNN计算的特征向量是低维的。例如,在UV A检测系统[39]中使用的特性比我们的大两个数量级(360k vs. 4k维)。

        这种共享的结果是,计算区域提议和特性(GPU上的13秒/张图像或CPU上的53秒/张图像)所花费的时间分摊到所有类上。唯一特定于类的计算是特征和SVM权重之间的点积和非最大抑制。在实践中,所有的点积的图像批化为一个单一的矩阵-矩阵乘积。特征矩阵一般为2000×4096,支持向量机权重矩阵为4096×N,其中N为类数。 

        这一分析表明,R-CNN可以扩展到数千个对象类,而无需诉诸近似技术,如散列。即使有100k个类,在现代多核CPU上,最终的矩阵乘法也只需要10秒。这种效率不仅仅是使用区域建议和共享特性的结果。UVA系统,由于其高维特性,将会慢两个数量级,同时需要134GB内存来存储100k线性预测器,而我们的低维特性只需要1.5GB内存。 

        将R-CNN与Dean等人最近关于使用DPMs和哈希[8]进行可伸缩检测的工作进行对比也是很有趣的。他们报告说,当引入10k干扰类时,每张图片运行5分钟时,2007年VOC的mAP约为16%。使用我们的方法,10k检测器可以在CPU上运行大约一分钟,因为没有进行近似,所以mAP将保持在59%(第3.2节)。 

2.3训练

监督训练。我们在一个大型辅助数据集(ILSVRC2012分类)上,仅使用图像级注释(该数据没有边界框标签)对CNN进行了有区别地预训练。训练前使用开源的Caffe CNN图书馆[24]进行。简而言之,我们的CNN几乎与Krizhevsky等人[25]的性能相匹配,在ILSVRC2012分类验证集上获得了高2.2个百分点的top-1错误率。这种差异是由于训练过程的简化。

        特定领域的微调。为了使我们的CNN适应新的任务(检测)和新的域(扭曲的建议窗口),我们继续使用扭曲区域建议对CNN参数进行随机梯度下降(SGD)训练。除了将CNN的ImageNetspecific 1000-way分类层替换为随机初始化的(N + 1)-way分类层(其中N为对象类的数量,加1为背景),CNN的架构保持不变。VOC, N = 20, ILSVRC2013, N = 200。我们将所有有3个≥0.5个欠条的区域建议与一个ground-truth box重叠作为该box的类别的正面,其余为负面。我们以0.001(初始训练前速率的1/10)的学习速率开始SGD,这允许微调在不破坏初始化的同时取得进展。在每个SGD迭代中,我们统一抽样32个正窗口(所有类)和96个背景窗口,以构造一个大小为128的小批量。我们偏向于正向窗口采样,因为它们与背景相比极为罕见。

         对象的类别分类器。考虑训练一个二值分类器来检测汽车。很明显,一个紧紧包围着一辆汽车的图像区域应该是一个积极的例子。同样地,与汽车无关的背景区域显然是一个负面的例子。不太清楚的是,如何给部分与汽车重叠的区域贴上标签。我们用欠条重叠阈值解决了这个问题,低于这个阈值的区域被定义为阴性。重叠阈值0.3是通过网格搜索{0,0.1,…,0.5}。我们发现仔细选择这个阈值很重要。将其设置为0.5,如在[39]中,将mAP减少5点。同样地,将其设置为0将减少4点的mAP。正面的例子被简单地定义为每个类的真实边界框。

         一旦特征被提取和训练标签被应用,我们优化每个类一个线性支持向量机。由于训练数据太大,无法装入内存,我们采用标准的硬负挖掘方法[17,37]。艰难的负挖掘收敛很快,在实践中mAP停止增长后,只有一个单一的通过所有图像。

        在附录B中,我们讨论了为什么在微调和SVM训练中正面和负面的例子定义不同。我们还讨论了训练检测支持向量机所涉及的权衡,而不是简单地使用微调CNN的最终softmax层的输出。

2.4PASCAL VOC 2010-12结果

         根据PASCAL VOC最佳实践[15],我们验证了VOC 2007数据集上的所有设计决策和超参数(章节3.2)。对于VOC 2010-12数据集的最终结果,我们对VOC 2012训练上的CNN进行了微调,并优化了VOC 2012 trainval上的检测支持向量机。对于这两种主要算法变体,我们只向评估服务器提交了一次测试结果(有或没有边界框回归)。

        表1显示了VOC 2010的完整结果。我们将我们的方法与四个强基线进行比较,包括SegDPM[18],它将DPM检测器与语义分割系统[4]的输出相结合,并使用额外的检测器间上下文和图像分类器重评分。最接近的比较是Uijlings等人的[39]UVA系统,因为我们的系统使用相同的区域提议算法。为了对区域进行分类,他们的方法构建了一个四级空间金字塔,并使用密集采样的SIFT、Extended对手SIFT和RGBSIFT描述子对其进行填充,每个矢量都用4000字码本进行量化。采用直方图相交核支持向量机进行分类。与他们的多特征、非线性核支持向量机方法相比,我们在mAP方面实现了很大的改进,从35.1%到53.7%,同时速度也快得多(第2.2节)。我们的方法在2011/12 VOC测试中取得了相似的效果(53.3% mAP)。

表1:VOC 2010检测的平均检测精度(%)。R-CNN最直接的可比UV A和Regionlets,因为所有的方法都使用选择性搜索区域建议。在文章发表时,SegDPM在PASCAL VOC排行榜上是表现最好的。†DPM和SegDPM使用上下文评分,其他方法不使用。 

2.5ILSVRC2013检测结果

        我们在200类ILSVRC2013检测数据集上运行R-CNN,使用的系统超参数与我们在PASCAL VOC中使用的相同。我们遵循同样的协议,只向ILSVRC2013评估服务器提交两次测试结果,一次使用边界框回归,一次不使用边界框回归。

         图3:(左)ILSVRC2013检测测试集的平均精度。*前面的方法使用外部训练数据(所有情况下来自ILSVRC分类数据集的图像和标签)。(右)每种方法的200个平均精度值的框图。《OverFeat》比赛后的结果并没有显示出来,因为还没有提供每个级别的ap(游戏邦注:R-CNN的每个级别的ap见表8,也包含在上传至arXiv.org的技术报告来源中;见R-CNN-ILSVRC2013-APs.txt)。红线表示AP的中位数,框底和框顶分别是第25和第75百分位数。每种方法的最小AP和最大AP都有须。每个AP都在须上绘制成一个绿点(用数字缩放最好)。

        图3将R-CNN与2013年ILSVRC比赛的参赛作品以及赛后OverFeat的成绩[34]进行了比较。R-CNN的mAP为31.4%,明显领先于OverFeat的24.3%。为了直观地了解AP在各个类中的分布情况,本文还给出了盒图,并在表8中给出了每个类AP的表。大多数参赛作品(OverFeat、NEC-MU、UvAEuvision、Toronto A和UIUC-IFP)都使用了卷积神经网络,这表明在如何将卷积神经网络应用于目标检测方面存在显著的细微差别,从而导致巨大的不同结果。

        在第4节中,我们将概述ILSVRC2013检测数据集,并提供我们在其上运行R-CNN时所做的选择的细节。

3.可视化、消融和误差模式 

3.1可视化学习特性

        第一层过滤器可以直接可视化,[25]易于理解。它们捕捉有方向的边缘和对手的颜色。理解后续层更具挑战性。Zeiler和Fergus在[42]中提出了一种具有视觉吸引力的反卷积方法。我们提出了一个简单(和互补)的非参数方法,直接显示网络学习什么。

        其思想是在网络中单独挑选出一个特定的单元(特征),并使用它,就好像它本身就是一个对象检测器。也就是说,我们计算该单元在一组大型保留区域提议(大约1000万个)上的激活,将提议从最高激活到最低激活进行排序,执行非最大抑制,然后显示得分最高的区域。我们的方法让被选择的单元“自己说话”,通过显示它触发了哪个输入。我们避免平均,以看到不同的视觉模式和获得洞察的不变性计算的单位。

        我们从层pool5中可视化单元,它是网络的第五层也是最后一层卷积层的maxpooled输出。pool5feature映射是6 × 6 × 256 = 9216维。忽略边界效应,在原始的227×227像素输入中,每个pool5unit都有一个195×195像素的接受域。一个中央池子5单元拥有近乎全球的视野,而靠近边缘的池子有一个较小的、剪切的支撑。

        图4中的每一行显示了来自CNN的pool5unit的前16个激活,我们对VOC 2007 trainval进行了微调。256个功能独特的单元中有6个被可视化(附录D包括更多)。选择这些单元是为了展示网络学习的代表性样本。在第二排,我们看到一个单位射击狗脸和dotarray。与第三个精灵对应的单位是一个红色斑点探测器。此外,还有用于人脸和文本、带窗户的三角形结构等抽象图案的探测器。该网络似乎学习了一种表示,它将少量的类调优特征与形状、纹理、颜色和材料属性的分布式表示结合在一起。随后的全连接层fc6能够对这些丰富特性的大量组合进行建模。

 图4:6个pool5units的顶部区域。接受区和激活值用白色表示。一些单位与概念对齐,如人(第1行)或文本(4)。其他单位捕获纹理和材料属性,如点数组(2)和镜面反射(6)。

3.2消融研究 

        一层一层的性能,不需要微调。为了理解哪些层对检测性能至关重要,我们分析了VOC 2007数据集上CNN最后三层的每个层的结果。层pool5在3.1节中进行了简要描述。下面总结了最后两层。fc6层已完全连接到pool5。为了计算特征,它将4096×9216权重矩阵乘以pool5特征图(重新塑造为一个9216维的向量),然后添加一个偏差向量。这个中间矢量是分量半波整流(x←max(0, x))。

        fc7层是网络的最后一层。它的实现方法是将fc6计算出的特征与4096 × 4096的权重矩阵相乘,同样添加一个偏差向量并进行半波校正。 

        我们首先查看没有对PASCAL进行微调的CNN的结果,即所有CNN参数仅在ILSVRC 2012上进行了预训练。逐层分析性能(表2的1-3行)显示,fc7的特性泛化得比fc6的特性差。这意味着29%(约1680万)的CNN参数可以在不降低mAP的情况下被删除。更令人惊讶的是,移除fc7和fc6会产生相当好的结果,尽管pool5特征只使用了CNN的6%的参数计算。CNN的大部分表现能力来自于它的卷积层,而不是更大的密集连接层。这一发现表明,仅使用CNN的卷积层,就可以计算任意大小的图像的密集特征图(即HOG)。这种表示方式将支持在pool5特性之上使用滑动窗口检测器(包括DPM)进行实验。

 表2:VOC 2007检测的平均检测精度(%)。第1-3行显示没有微调的R-CNN性能。第4-6行显示CNN在ILSVRC 2012上预先训练,然后在VOC 2007 trainval上微调(FT)的结果。第7行包括一个简单的边界盒回归(BB)阶段,减少了定位误差(C节)。第8-10行提出了DPM方法作为一个强大的基线。第一个只使用HOG,而接下来的两个使用不同的特征学习方法来扩充或替换HOG。

         一层一层地执行性能,并进行微调。我们现在来看一下CNN在调整了VOC 2007 trainval的pa6参数后的结果。改进是惊人的(表2 4-6行):微调使mAP增加了8.0个百分点,达到54.2%。fc6和fc7的优化带来的提升要比pool5大得多,这表明从ImageNet学习到的pool5特性是通用的,而且大部分改进都是通过在这些特性之上学习特定于领域的非线性分类器获得的。

         与最近的特征学习方法的比较。相对较少的特征学习方法用于PASCAL VOC检测。我们来看看最近两种基于可变形零件模型的方法。作为参考,我们还包括了标准的基于hog的DPM[20]的结果。

        与最近的特征学习方法的比较。相对较少的特征学习方法用于PASCAL VOC检测。我们来看看最近两种基于可变形零件模型的方法。作为参考,我们还包括了标准的基于hog的DPM[20]的结果。

        第二种方法DPM HSC[31],用稀疏编码直方图(histogram of sparse codes, HSC)代替HOG。为了计算HSC,使用包含100个7 × 7像素(灰度)原子的学习字典在每个像素处求解稀疏代码激活。由此产生的激活通过三种方式(全波和半波)进行整流,空间池化,单元' 2归一化,然后功率转换(x←符号(x)|x|α)。

        所有的R-CNN变体都优于三个DPM基线(表2第8-10行),包括两个使用特征学习的基线。与只使用HOG特性的最新版本DPM相比,我们的mAP提高了20个百分点:54.2% vs. 33.7%,相对提高了61%。HOG和草图令牌的组合比HOG单独产生2.5个mAP点,而HSC比HOG提高了4个mAP点(与它们的私有DPM基线内部相比——两者都使用了DPM的非公共实现,其性能低于开源版本[20])。这些方法的map分别为29.1%和34.3%。

3.3网络体系结构

        本文的大部分结果使用了Krizhevsky等人的[25]网络架构。然而,我们发现架构的选择对R-CNN的检测性能有很大的影响。在表3中,我们展示了使用Simonyan和Zisserman[43]最近提出的16层深度网络对VOC 2007的测试结果。该网络在最近的2014年ILSVRC分类挑战中表现最佳。该网络是由13层3 × 3的卷积核构成的同质结构,其中5个最大池化层穿插在一起,最上面是3个全连通层。我们称这个网络为“O-Net”(牛津网),基线为“T-Net”(多伦多网)。

         为了在R-CNN中使用O-Net,我们从Caffe model zoo1中下载了VGG ILSVRC 16层模型的公开可用的预先训练的网络权值。然后,我们使用与T-Net相同的协议对网络进行了调整。唯一的区别是,为了适应GPU内存,需要使用更小的迷你批次(24个例子)。Table 3的结果显示,RCNN with O-Net明显优于R-CNN with TNet, mAP从58.5%增加到66.0%。然而,在计算时间方面有一个相当大的缺点,O-Net的前向传递所花费的时间大约是T-Net的7倍。

        3.4检测误差分析

        我们使用了Hoiem等人的[23]优秀的检测分析工具,以便揭示我们的方法的错误模式,了解微调如何改变它们,并查看我们的错误类型与DPM相比如何。对这个分析工具的完整总结超出了本文的范围,我们鼓励读者咨询[23]来理解一些更详细的细节(比如“标准化AP”)。由于分析最适合于相关图的上下文,所以我们将在图5和图6的标题中进行讨论。

 图5:排名靠前的假阳性(FP)类型分布。每个图显示了随着更多FPs按分数递减顺序考虑时FP类型的演变分布。每个FP被分为4种类型中的1种:Loc-poor定位(IoU与正确的类在0.1到0.5之间重叠的检测,或重复);与sim混淆类似的类别;对不同对象范畴的混淆;一个在背景上开火的FP。与DPM(见[23])相比,我们的错误明显更多的是由于定位不好,而不是与背景或其他对象类混淆,这说明CNN feature比HOG更有分辨力。松散的定位可能是由于我们使用了自底向上的区域建议和从CNN预处理中学习到的位置不变性来进行全图像分类。第三列显示了简单的边界框回归方法如何修复许多定位错误。

图6:对对象特征的敏感性。每个图都显示了6个不同对象特征(遮挡、截断、边界盒区域、高宽比、视点、部分可见性)中最高和最低表现子集的平均标准化AP(见[23])。我们展示了我们的方法(R-CNN)有和没有微调(FT)和边界盒回归(BB)以及DPM voc-release5的图。总的来说,微调并没有降低灵敏度(max和min之间的差异),但确实对几乎所有特性的最高和最低性能子集都有显著改善。这表明微调不仅仅是简单地提高高宽比和边界框区域的最低执行子集,就像人们根据我们如何扭曲网络输入推测的那样。相反,微调改进了所有特征的鲁棒性,包括遮挡、截断、视点和部分可见性。

3.5限定框回归 

         在误差分析的基础上,实现了一种减少定位误差的简单方法。受到DPM[17]中使用的边界盒回归的启发,我们训练了一个线性回归模型来预测一个新的检测窗口,给出了一个选择性搜索区域建议的pool5特征。附录c给出了完整的细节。表1、表2和图5的结果表明,这种简单的方法修复了大量的错位检测,将mAP提高了3到4个点。

3.6定性结果

        本文最后对ILSVRC2013的定性检测结果如图8和图9所示。从val2set中随机取样每张图像,并显示精度大于0.5的所有检测器的所有检测结果。请注意,这些不是精心策划的,并给一个实际的印象,探测器的行动。图10和图11展示了更多的定性结果,但是这些结果已经被整理过了。我们选择每张图片是因为它包含有趣的、令人惊讶的或有趣的结果。这里还显示了精度大于0.5的所有检测结果。

 图10:策划的例子。我们之所以选择每张图片,是因为我们觉得它令人印象深刻、令人惊讶、有趣或有趣。推荐使用数字缩放观看。

 图11:更多策划的例子。详情请参见图10的标题。推荐使用数字缩放观看。

 以上均为机器翻译,仅供个人学习笔记使用。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值