Learning Cross-Modal Deep Representations for Robust Pedestrian Detection
一、Overview
本文设计了一个多光谱行人检测模型,与融合RGB信息和T信息的思路不同的是,本文没有选择在一个模型中融合两种模态的信息,而是先在训练过程中通过一个无监督学习的方法从对应的RGB图像中重建T图像。该模型主要包括两个阶段:首先利用一个CNN学习模态间的非线性映射关系,对RGB数据和T数据间的关系进行建模;之后将学习到的特征表示转移到第二个深度神经网络中,第二个深度神经网络只接收RGB图像以及RGB图像上的候选框作为输入,最后输出检测结果。实验结果表明,本文提出的模型在KAIST数据集(RGB-T行人检测数据集)上得到了当时最好的效果,同时在Caltech数据集(RGB行人检测数据集)上也得到了很好的效果。
二、Motivations
在行人检测任务中,如图1所示,只使用RGB数据或T数据中的一种进行检测时很难分辨Hard positive samples(很难被识别的正样本,即是行人但是由于模糊等情况容易被误判为背景的情况)和Hard negative samples(很难被识别的负样本,即是背景但是由于模糊等情况容易被误判为行人的情况)。通过将RGB数据与T数据相结合,就可以更容易地分辨出行人和背景,有效地解决上述问题。
三、Contributions
1.提出了一种学习和转移跨模态特征表示的行人检测新方法。该方法的优点主要有:在测试阶段不需要使用多光谱数据,只需要使用RGB数据,这在部署机器人和监视系统时是至关重要的,因为只需要传统的可见光摄像机即可,从而大大降低了成本;整个模型在训练时不需要使用T数据的标注信息,这大大减少了人为标记繁重的工作。
2.据我们所知,这是第一项专门针对卷积神经网络在不利的光照条件下进行行人检测问题研究的工作。
3.实验结果表明,本文提出的模型在KAIST数据集和Caltech数据集中都取得了非常好的效果。
四、Models
1.RRN结构(Region Reconstruction Network)
RRN结构是本文提出的模型的第一阶段,该结构只用于训练阶段,通过一个CNN学习模态间的非线性映射关系,对RGB数据和T数据间的关系进行建模,模型结构如图2所示。
五、Experiments
在实验过程中,RRN部分用KAIST数据集训练,MSDN的性能在Caltech测试集和KAIST的RGB测试集上进行了评估。
实验过程中,训练RRN和MSDN都使用ACF提取行人候选框,测试阶段MSDN也使用ACF提取行人候选框
1.KAIST数据集中不同变体对比实验
实验结果如表1所示,其中CMT-CNN-SA表示MSDN结构中只使用Sub-Net A;CMT-CNN-SA-SB(Random)表示Sub-Net B参数初始化方法为随机;CMT-CNN-SA-SB(ImageNet)表示Sub-Net B参数初始化方法为使用ImageNet预训练得到的参数;CMT-CNN为本文提出的方法,即使用RRN得到的参数初始化Sub-Net B。可以看到本文的策略比其他三种方法的错误率都要低,因为使用RRN得到的参数有效地重构了RGB信息与T信息之间的关系。
2.KAIST数据集中与现有方法对比
其中CMT-CNN-SA-SB(RGB-KAIST)表示Sub-Net B初始参数使用在ImageNet预训练并在KAIST的RGB部分进一步训练的结果。实验结果表明使用KAIST数据集中的RGB部分再训练也可以提升一定性能,但是都不如本文的模型,因为其他方法都没有利用T信息。
4.Caltech数据集中与现有方法对比
实验结果曲线如图5所示,在RGB行人检测数据集Caltech中本文提出的模型也取得了很好的效果。
5.与现有方法的推理速度对比
本文的模型不仅取得了更低的错误率,在测试时的推理速度也很快,处理一帧图片只需要0.59秒。