Multispectral Deep Neural Networks for Pedestrian Detection（BMVC 2016）论文解读

最新推荐文章于 2023-06-24 02:38:49 发布

置顶 zhaoshenlu829

最新推荐文章于 2023-06-24 02:38:49 发布

阅读量940

点赞数

分类专栏：多光谱（RGB-T）行人检测论文详解文章标签：计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/zz937211040/article/details/105124353

版权

多光谱（RGB-T）行人检测论文详解专栏收录该内容

4 篇文章 6 订阅

订阅专栏

Multispectral Deep Neural Networks for Pedestrian Detection（BMVC 2016）

一、Overview
随着2015年第一个RGB-T行人检测数据集KAIST的提出，多光谱行人检测任务成为了当时的研究热点之一，与此同时2016年何恺明提出的Faster R-CNN模型在单模态（RGB）目标检测领域取得了显著的效果。本文主要受Faster R-CNN启发，设计了四种融合方法，将Faster R-CNN应用在了RGB-T行人检测任务中。实验证明，由于RGB信息与T信息间的互补关系，两者的融合可以有效提升行人检测的精度；同时本文设计的四个模型都取得了比现有方法更好的效果，其中使用中期融合（Halfway Fusion）策略得到的模型是目前最好的方法。
二、Motivations
多光谱行人检测主要应用于昼夜连续的监控以及自动驾驶领域。当前的可见光行人检测技术主要受限于目标较小并存在遮挡、背景杂乱、图片分辨率低以及夜晚能见度差等问题。
在行人检测任务中，T图像通常可以呈现出人体清晰的轮廓但却丢失了可以被RGB相机(依赖于外部光照条件)捕捉到的人体的细节信息。因此如何将RGB图像与T图像融合，通过它们之间的互补关系获取更丰富的信息以提高行人检测精度，是当前的研究热点之一。
三、Contributions
1.设计了四种不同的卷积神经网络融合策略，在不同的阶段（卷积阶段、全连接阶段、决策阶段）将两个分支的卷积神经网络融合在一起，这四种策略分别对应低、中、高、置信层次的信息融合。所有这些模型在KAIST多光谱行人检测数据集上都优于单模态（RGB）的Faster R-CNN（baseline）。
2. 验证了四种策略中Halfway Fusion策略是最好的，这意味着融合方案的最佳选择是在视觉细节和语义信息之间取得平衡。
3. 本文提出的Halfway Fusion模型在KAIST数据集上的总错误率只有37%，比baseline低了11%，同时也比使用其它三种融合策略得到的模型的错误率低了3.5%。
4. 本文提出的模型在Caltech行人检测数据集（RGB）上也达到了当时最好的效果，同时也是第一次将Faster R-CNN用于行人检测任务。（其实就是将现成的单模态Faster R-CNN模型用到了行人检测任务中）
四、Additional Knowledge
1．KAIST数据集
KAIST数据集是第一个也是目前最常用的多光谱行人检测数据集，共包括95328组RGB-T图片对，每张图片的分辨率均为640×480。数据集的标签中包含person、people和cyclist三个类别，其中比较好区分的个体被标注为person，不太好分辨的多个个体则被标注为people，骑行的人则被标注为cyclist。
训练集和测试集划分标准：
（1）训练集和测试集中出现的行人总数量差不多。
（2）训练集和测试集中白天/黑夜的图片数目差不多。
（3）训练集和测试集中的图片没有重叠。
相比于随机划分，使用该标准可以避免数据偏差以及在某些场景中过度拟合。
5. 行人检测中的召回率Recall与检测精度
在行人检测任务中，精度就是检测出来的行人中确实是行人的所占的百分比；Recall就是正确检出的行人数量占行人总数的百分比，Recall=100%表示没有漏检。
五、Models
本文的模型在使用Faster R-CNN时删掉了用于提取特征的VGG16网络中的第四个Maxpooling层，因此得到的feature map分辨率是原来的两倍。这样做是因为更大的feature maps对于小图像尺寸的行人检测更有利；同时还将RPN中尺寸比例为1:2的候选框丢弃。
1.早期融合

在这里插入图片描述

图1 早期融合策略示意图在浅层融合特征。如图1所示，RGB和T两个支路分别经过预训练好的VGG-16（参数共享）的第一组卷积层，将得到的两个feature map级联，再通过1×1卷积层将通道数修改为128以便于继续输入到剩下的预训练好的VGG-16网络中，最后1×1卷积层的输出经过一个ReLU层送到后续的VGG-16中。图1中红色框代表卷积层组，蓝色框代表级联，绿色框代表1×1卷积层，黄色框代表全连接层。 2. 中期融合

在这里插入图片描述

图2 中期融合策略示意图操作与早期融合类似，唯一的区别就是融合位置的不同，中期融合的位置是VGG-16第四组卷积层之后。 3. 末期融合

在这里插入图片描述

图3 末期融合策略示意图在深层融合特征。将RGB和T两条支路中第二个全连接层FC7的输出结果级联融合。需要注意的是，RPN从两条支路第五组卷积层产生的feature map级联得到的结果中预测行人的候选框。 4. 结果融合

在这里插入图片描述

图4 结果融合策略示意图 RGB图像和T图像分别经过一个完整的Faster R-CNN，再将两个支路的检测结果分别输入到另一个网络中进行检测和回归，最后两个支路的得分结果分别乘0.5然后相加（等权重）。 **五、Experiments** 1．RGB信息与T信息互补性验证实验表1 实验结果统计（图片数量）

在这里插入图片描述
实验中使用的模型为Faster R-CNN（RGB）以及Faster R-CNN（T）。表1中GT为Ground Truth，TP代表检测正确，FP代表检测错误或未检测到，角标（C,T）代表Faster R-CNN（RGB）以及Faster R-CNN（T）两者检测结果都为对或错，（C）代表只有Faster R-CNN（RGB）检测结果为对或错，（T）代表只有Faster R-CNN（T）检测结果为对或错。
通过实验结果可以看出，Faster R-CNN（RGB）模型在白天图片中的效果好，但是在夜晚图片中效果差，而Faster R-CNN（T）与之相反。因此两中信息存在互补关系，结合RGB图像和T图像的多光谱检测可能能够改进总体的检测结果（昼夜）。
2．在KAIST数据集中对比

在这里插入图片描述

图5 KAIST测试集上FPPI-Miss Rate曲线对比图5中从左到右分别是测试集中昼夜图片的丢失率、白天图片的丢失率和夜晚图片的丢失率。实验表明，无论在白天还是黑夜，本文提出的四种融合模型都取得了比单模态更好的效果，说明多光谱信息的融合确实可以提升行人检测的效果，而中期融合（Halfway Fusion）效果最佳，因为在这个阶段融合RGB信息和T信息既包含着一定的语义信息，同时又保留了部分视觉细节。 3．召回率与候选框数量实验

在这里插入图片描述

图6 召回率和候选框数量曲线设定IoU大于0.5为检测正确，从图8中可以看出，再相同数量的候选框中，本文最好的中期融合（Halfway Fusion）模型的召回率最高，说明检测结果最好。中期融合（Halfway Fusion）模型召回率达到90%只需要30个框，而其他模型至少需要50个框甚至更多。 4．召回率与IoU实验

在这里插入图片描述

图7 召回率和IoU曲线实验中设定候选框数量为300，本文的中期融合（Halfway Fusion）模型召回率均高于其他模型，其中在IoU=0.6时召回率为93.9，达到了最好的效果。

zhaoshenlu829

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Multispectral Deep Neural Networks for Pedestrian Detection（BMVC 2016）论文解读

Multispectral Deep Neural Networks for Pedestrian Detection（BMVC 2016）一、Overview 随着2015年第一个RGB-T行人检测数据集KAIST的提出，多光谱行人检测任务成为了当时的研究热点之一，与此同时2016年何恺明提出的Faster R-CNN模型在单模态（RGB）目标检测领域取得了显著的效果。本文主要受Faster...
复制链接

扫一扫

专栏目录