Abstract
在本文中,我们评估了使用R-CNN方法对行人检测问题的有效性。我们的数据集由ETH视觉实验室的手工注释的视频序列组成。使用selective search作为我们的提案方法,我们评估几个神经网络架构的性能以及基准逻辑回归单元。我们发现最好的结果是在使用在ImageNet上预训练的权重的AlexNet架构与从头开始训练的这个网络的变体之间进行了分割。
1 Introduction
行人跟踪有许多应用,从自动车辆到监控。传统上,许多检测系统是基于手工调整的特征,然后被送到学习算法中。在这里我们利用卷积神经网络最近的工作将问题作为分类和定位任务。
特别是我们将探讨使用R-CNN。该过程开始于将视频分离成将被单独处理的帧。对于每个帧,我们生成类无关的提案框,在本文中,使用一种称为选择性搜索的方法。 然后我们训练一个深层神经网络分类器,将区域建议分类为行人或背景。
2.Related work
本文很多都采用了[6]中介绍的一种称为R-CNN的方法。该方法通过在一系列提案框上运行检测来解决对图像中对象进行分类和定位的问题。这些提案框通常是离线预计算的,使用低级类无关的的分割方法如选择性搜索[12],尽管最近的工作已经将该过程纳入神经网络的流程中[11]。给定区域建议,训练深度卷积神经网络以产生馈送到类特定SVM分类器中的特征。这种方法被证明在PASCAL VOC挑战的定位任务方面取得成功。
对于我们的CNN架构,我们测试了一个基线逻辑方法,并将其与已知的CNN的实现结果进行了比较。这些CNN包括Cifarnet,它在[9]中为cifar-10数据集开发,Alexnet赢得了2012年Imagenet挑战[10]。另外,我们来看一下使用预先训练的权重的Alexnet并微调最后一层的效果。
ETH行人跟踪数据集是通过一系列论文[4] [3] [5]建立的。这些论文使用收集的其他信息,包括立体视觉和口气测量数据作为其模型的其他信息来源。我们只对每个收集的视频序列使用单目相机数据。
ETH行人跟踪数据集是通过一系列论文[4] [3] [5]建立的。这些论文使用收集的其他信息,包括立体视觉和口气测量数据作为其模型的其他信息来源。我们只对每个收集的视频序列使用单目相机数据。