How Far are We from Solving Pedestrian Detection?

最新推荐文章于 2023-12-05 22:36:59 发布

小菜鸡拉

最新推荐文章于 2023-12-05 22:36:59 发布

阅读量1k

点赞数

分类专栏：行人检测文章标签：深度学习

本文链接：https://blog.csdn.net/xiaofei0801/article/details/72794485

版权

行人检测专栏收录该内容

10 篇文章 1 订阅

订阅专栏

1. Introduction

近年来，对象检测受到了极大关注。行人检测是一个规范的子问题，由于其多样的应用，仍然是研究的热门话题。
尽管对行人检测进行了广泛的研究，最近的文章仍然显示出显著的改进，表明尚未达到饱和点。在本文中我们分析了state-of-the-art与新创建的human baseline之间的差距（第3.1节）。结果表明，在达到人类表现之前，仍然需要有十倍的改善。我们的目的是调查哪些因素将有助于缩小这一差距。
我们分析顶级性能的行人检测器的错误情况，并诊断应该改变什么以进一步推动性能。我们展示了几个不同的分析，包括human inspection，问题案例的自动分析（例如模糊，对比度）和oracle experiments（3.2节）。我们的研究结果表明，localisation是high confidence false positive的重要来源。我们通过改进训练集对齐质量来解决这一方面，通过手动清理Caltech training annotations和通过算法手段去除剩余的训练样本（3.3和4.1节）。（不懂）
为了解决背景与前景判别问题，我们研究了用于行人检测的卷积神经网络，并讨论了影响其性能的因素（第4.2节）

1.1. Related work

近年来，为提高行人检测的性能做出了很多努力。随着integral channel feature detector（ICF）的成功[6，5]，提出了许多变体[21,23,15,17,22]，并显示出显著的提高。最近对行人检测的综述文章[3]表明，改进的特征一直在推动性能的提升，并可能可以继续这样做。它还表明光流[18]和上下文信息[16]与图像特征互补，可进一步提高检测精度。

通过fine-tuning在外部数据pre-trained的模型，卷积神经网络（convnets）也已经达到了state-of-the-art的表现[14,19]。
最近的论文大多集中在引入新颖性和更好的结果，但忽略了对resulting system的分析。可以找到一些对通用物体检测系统的分析工作[1,13];相比之下，在行人检测领域，这种分析很少。 2008年，[20]对INRIA数据集进行了错误分析，但INRIA数据集比较小。在2012年Caltech数据集调查中[7]最好的方法比在本文考虑的方法在20%的召回率情况下有10倍更多的false positive，而没有方法达到95％。（不懂）

由于近年来行人检测的性能显着改善，对state-of-the-art的检测器的更深入和更全面的分析，从而提供更好地理解，以便知道未来的努力方向。

1.2 Contributions

我们的主要贡献如下：
（a）我们详细分析了state-of-the-art的行人检测器，providing insights into failure cases。
（b）我们为Caltech Pedestrian Benchmark提供human baseline;以及清理后版本的注释，作为benchmark的训练集和测试集的新的高质量的ground truth。这个数据是公开的
（c）我们分析了训练数据质量的影响。更具体地说，我们量化了更好的对齐和更少的注释错误可以提高多少性能。
（d）使用分析的见解，我们探索最佳方法的变体：filtered channel feature detector[23]和R-CNN检测器[12,14]，并显示出对baseline的改善。

2.Prelimiaries

在深入分析之前，让我们来描述使用的数据集，数据集的评价指标和baseline检测器。

2.1 Caltech-USA pedestrian detection benchmark

在现有的行人数据集[4,9,8]中，KITTI [10]和Caltech-USA是目前最受欢迎的。在本文中，我们专注于Caltech-USA benchmark[7]，包括从美国洛杉矶街头的车辆录制的2.5小时的30Hz视频。该视频annotations总共有350 000个bounding box，覆盖约2 300个独一无二的行人。在由4 024帧图像组成的测试集上评估检测方法的性能。基于注释大小，遮挡程度和宽高比，所提供的评估工具箱生成测试集的不同子集。已建立的训练程序是使用每隔30帧的视频帧，共有4 250个帧，约有600个行人切割。最近，可以利用更多数据进行训练的方法已经采取了更精细的视频采样[15,23]，比标准“1×”设置产生高达10倍的训练数据。

MRO，MRN在标准Caltech评估[7]中，missrate（MR）在[10 -2,10 0] FPPI（每个图像的false positive）的低精度范围内的平均。这个指标不能反映很好地改善定位错误（最低FPPI范围）。为了更全面的评估，我们扩展评估FPPI范围从传统的[10 -2,10 0]至[10 -4,10 0]，我们记这些为MRO -2和MRO -4。 O代表“原始注释”。在3.3节，我们介绍新的注释，并标记在那里的评估为MR N -2和MR N -4。我们期望MR -4指标随着检测器变得越强，越来越重要。

2.2 Filtered channel feature detectors

对于本文中的分析，我们考虑了所有在Caltech Pedestrian benchmark中发布的方法，直到上一次大型会议（CVPR2015）。如图1所示，当时最好的方法是Checkerboards，大多数顶级的方法都是同一个系列的。

Checkerboards检测器[23]是一个泛化的Integral Channels Feature Detectors（ICF）[6]，其将HOG + LUV特征通道滤波，然后将其提供给boosted decision forest。

在表1中我们比较ICF系列的几种检测器的性能，通过在特征通道引入滤波器并优化滤波器组，我们可以看到从44.2％到18.5％的MR O -2有很大改善
目前最好的卷积网络方法[14,19]对底层检测proposals敏感，因此我们首先通过优化滤波通道特征检测器来关注proposals（更多关于卷积网络在4.2节中）。
Rotated filters：对于涉及训练新模型的实验（在4.1节中），我们使用我们自己重新实现的Checkerboards [23]，基于LDCF [15]代码库。为了提高训练时间，我们将滤波器数量从原来的Checkerboard中的61个减少到9个。我们所谓的Rotated filters是LDCF的简化版本，适用于三个不同的尺度（与SquaresChnFtrs（SCF）[3]相同）。关于过滤器的更多细节在补充材料中给出。

小菜鸡拉

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
How Far are We from Solving Pedestrian Detection?

1. Introduction 近年来，对象检测受到了极大关注。行人检测是一个规范的子问题，由于其多样的应用，仍然是研究的热门话题。尽管对行人检测进行了广泛的研究，最近的文章仍然显示出显著的改进，表明尚未达到饱和点。在本文中我们分析了state-of-the-art与新创建的human baseline之间的差距（第3.1节）。结果表明，在达到人类表现之前，仍然需要有
复制链接

扫一扫

专栏目录