Multispectral Deep Neural Networks for Pedestrian Detection(BMVC 2016)
一、Overview
随着2015年第一个RGB-T行人检测数据集KAIST的提出,多光谱行人检测任务成为了当时的研究热点之一,与此同时2016年何恺明提出的Faster R-CNN模型在单模态(RGB)目标检测领域取得了显著的效果。本文主要受Faster R-CNN启发,设计了四种融合方法,将Faster R-CNN应用在了RGB-T行人检测任务中。实验证明,由于RGB信息与T信息间的互补关系,两者的融合可以有效提升行人检测的精度;同时本文设计的四个模型都取得了比现有方法更好的效果,其中使用中期融合(Halfway Fusion)策略得到的模型是目前最好的方法。
二、Motivations
多光谱行人检测主要应用于昼夜连续的监控以及自动驾驶领域。当前的可见光行人检测技术主要受限于目标较小并存在遮挡、背景杂乱、图片分辨率低以及夜晚能见度差等问题。
在行人检测任务中,T图像通常可以呈现出人体清晰的轮廓但却丢失了可以被RGB相机(依赖于外部光照条件)捕捉到的人体的细节信息。因此如何将RGB图像与T图像融合,通过它们之间的互补关系获取更丰富的信息以提高行人检测精度,是当前的研究热点之一。
三、Contributions
1.设计了四种不同的卷积神经网络融合策略,在不同的阶段(卷积阶段、全连接阶段、决策阶段)将两个分支的卷积神经网络融合在一起,这四种策略分别对应低、中、高、置信层次的信息融合。所有这些模型在KAIST多光谱行人检测数据集上都优于单模态(RGB)的Faster R-CNN(baseline)。
2. 验证了四种策略中Halfway Fusion策略是最好的,这意味着融合方案的最佳选择是在视觉细节和语义信息之间取得平衡。
3. 本文提出的Halfway Fusion模型在KAIST数据集上的总错误率只有37%,比baseline低了11%,同时也比使用其它三种融合策略得到的模型的错误率低了3.5%。
4. 本文提出的模型在Caltech行人检测数据集(RGB)上也达到了当时最好的效果,同时也是第一次将Faster R-CNN用于行人检测任务。(其实就是将现成的单模态Faster R-CNN模型用到了行人检测任务中)
四、Additional Knowledge
1.KAIST数据集
KAIST数据集是第一个也是目前最常用的多光谱行人检测数据集,共包括95328组RGB-T图片对,每张图片的分辨率均为640×480。数据集的标签中包含person、people和cyclist三个类别,其中比较好区分的个体被标注为person,不太好分辨的多个个体则被标注为people,骑行的人则被标注为cyclist。
训练集和测试集划分标准:
(1)训练集和测试集中出现的行人总数量差不多。
(2)训练集和测试集中白天/黑夜的图片数目差不多。
(3)训练集和测试集中的图片没有重叠。
相比于随机划分,使用该标准可以避免数据偏差以及在某些场景中过度拟合。
5. 行人检测中的召回率Recall与检测精度
在行人检测任务中,精度就是检测出来的行人中确实是行人的所占的百分比;Recall就是正确检出的行人数量占行人总数的百分比,Recall=100%表示没有漏检。
五、Models
本文的模型在使用Faster R-CNN时删掉了用于提取特征的VGG16网络中的第四个Maxpooling层,因此得到的feature map分辨率是原来的两倍。这样做是因为更大的feature maps对于小图像尺寸的行人检测更有利;同时还将RPN中尺寸比例为1:2的候选框丢弃。
1.早期融合
实验中使用的模型为Faster R-CNN(RGB)以及Faster R-CNN(T)。表1中GT为Ground Truth,TP代表检测正确,FP代表检测错误或未检测到,角标(C,T)代表Faster R-CNN(RGB)以及Faster R-CNN(T)两者检测结果都为对或错,(C)代表只有Faster R-CNN(RGB)检测结果为对或错,(T)代表只有Faster R-CNN(T)检测结果为对或错。
通过实验结果可以看出,Faster R-CNN(RGB)模型在白天图片中的效果好,但是在夜晚图片中效果差,而Faster R-CNN(T)与之相反。因此两中信息存在互补关系,结合RGB图像和T图像的多光谱检测可能能够改进总体的检测结果(昼夜)。
2.在KAIST数据集中对比