Learning Complexity-Aware Cascades for Deep Pedestrian Detection

1.Introduction

       行人检测是计算机视觉中的一个重要问题。其许多应用,例如智能车或监控,需要实时检测。由于在流行的滑动窗口准则下,640×480像素的图像有近百万个窗口,检测复杂度很容易变得难以处理。这是在行人检测领域部署复杂分类器(如深度学习模型)的障碍。用于实时物体检测的最流行的架构是[32]的检测器级联。它利用了大多数图像块可以通过几个简单级联阶段的评估,可以被分配给背景类的事实。这样可以保证计算效率,而不会影响精度,因为在后期级联阶段,由于较复杂的检测器可以拒绝少量产生的false positive。鉴于这些很少使用,它们的复杂度不是高检测速度的障碍。结果上,可能产生高效并且准确的检测器。

      虽然级联检测的原理是直观的,但其实现并不是微不足道的。早期级联设计需要广泛的启发式来确定级联配置[32,35,3],缺乏明确优化精度和复杂度之间权衡的能力。常用的假设是所有特征具有等价的复杂性。这大大简化了设计,减少了选择最大化检测精度的特征。事实上,流行的方法[3,4]简单地使用boosting算法(通常是AdaBoost [8])来设计非级联分类器,然后通过添加阈值将其转换为级联。这些方法有两个主要问题。首先,它们不旨在选择优化检测精度和复杂度之间权衡的特征。第二,“等效特征复杂度”假设仅在应用于确实具有相似复杂度的特征时,才产生明智的级联。然而,这种约束经常被违反[1,23,37]。

       事实上,在级联学习中,难以容纳的特征比常用的要重得多。鉴于最近在物体识别中深度学习的成功,这个问题特别迫切[17,29]。滑动窗口范式下的深度学习模型的棘手计算通常用对象提案机制来解决[31],导致了两级级联,在检测精度和速度权衡方面不是最优的。对于行人检测,通常用弱行人检测器来实施对象建议,有时候是级联检测器本身[15]。由于这些解决方案的特点,深度学习模型对于行人检测并不具有竞争力,与其识别和分类性能相矛盾[17,29]。

       在本文中,我们通过寻求一种用于最佳级联学习的算法来解决这些问题,该算法会对检测错误和复杂度进行一定的惩罚。对于后者,我们引入了实现复杂度的度量,允许定义类似于分类器设计常用的经验风险的复杂性风险。这使得可以定义诸如复杂性裕量和复杂性损失的量化,并在学习过程中对这些量进行说明。我们这样做是通过一种拉格朗日公式来实现的,它可以在复杂性风险约束下优化通常的分类风险。然后推导出最小化该拉格朗日的boosting算法。该算法表示为Complexity-Aware级联训练(CompACT),可以在早期级联阶段选择廉价的特征,将较贵的特征推送到后期阶段。这使得能够在单个检测器中组合具有不同复杂度的特征。通过CompACT成功应用于行人检测的问题,表明,使用从Haar小波到深度卷积神经网络(CNN)的特征池化。
        总的来说,本文做出了三大贡献。首先,它提出了一种用于学习complexity-aware级联的新颖算法,以便在精度和速度之间实现最佳权衡。据我们所知,这是第一个明确说明级联学习中可变特征复杂度的算法,支持不同复杂度的弱学习者。二,CompACT将手工特征和CNN特征无缝集成在统一的检测器中。这包括了对象建议架构,保证了CNN阶段与任何其他复杂性阶段的无缝集成。最后,用于行人检测的ComPACT级联显示,可以以比最接近的竞争对手更快的速度实现Caltech [6]和KITTI [11]的state-of-the-art。

2.Related Work

通过升压学习的检测器级联通常用于检测模板样对象,例如,面[32,3,35,34],行人[4,25]或汽车[26]。早期的方法使用启发式来找到分类精度和复杂度之间良好权衡的级联配置[32,3,35,34]。最近,精度复杂度权衡的优化开始受到关注
[19,25,26,38]。 [38]经验性地增加了RealBoost的目标函数的复杂度。 [19,25,26]介绍了我们采用的拉格朗日公式,但使用整个级联中的单个功能系列。由于早期级联阶段必须非常有效,这意味着采用简单的弱学习者,例如决策树桩。
这激发了高效设计的广泛工作。对于行人检测,[5]的积分通道特征近来变得流行起来。他们将[32]的哈尔像特征扩展为一组颜色和渐变直方图(HOG)通道。最近,在[4]中引入了表示聚合通道特征(ACF)的[32]的计算有效的版本。
[23]用本地二进制模式(LBP)和协方差特征补充ACF,以提高检测精度。
几项作品提出了通过与原始HOG + LUV通道卷积不同滤波器得到的替代特征通道[36,37,1,21]。 [1]的SquaresChnFtrs将[5,32]的大量特征减少到16种不同尺寸的盒状滤镜。 [21]将[13]的本地去相关特征扩展到ACF,从每个ACF通道学习四个5×5个类似PCA的滤波器。 Zhang等人[36]代替经验滤波器设计,利用先前关于行人形状的知识来设计通知滤波器。他们后来发现,实际上这样的过滤器
不需要[37]。相反,过滤器数量似乎是最重要的变量:功能像棋盘样模式一样简单,或纯粹的随机过滤器,只要有足够的功能,就可以实现非常好的性能。虽然达到最先进的表现已经实现[23,37],但由于卷积计算有数百个滤波器,它们相对较慢。
虽然深卷积学习分类器已经取得了令人印象深刻的结果,一般物体检测[12,14],例如在VOC2007或ImageNet上,他们并没有超越行人检测[27,22]。诸如Caltech [6]等基准测试仍然由古典手工制作的功能主导(参见例如[2]最近对行人探测器的全面评估))。最近,[15]转移了RCNN
对行人检测任务的框架,比以前的深度学习检测器有一些改进[27,22]。然而,与现有技术水平的差距仍然很大。对于滑动窗口检测,深度模型也往往太重。通常使用预先选择最有希望的图像补丁的对象提议机制[12,33,15]来解决这个问题。这个两阶段分解(提议生成和分类)是一个简单的级联机制。在这项工作中,我们将这两个阶段的无缝组合考虑在一个级联中,明确地设计为考虑精度和复杂性,从而实现高精度和快速的检测器。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值