Multispectral Deep Neural Networks for Pedestrian Detection(BMVC 2016)论文解读

Multispectral Deep Neural Networks for Pedestrian Detection(BMVC 2016)

一、Overview
 随着2015年第一个RGB-T行人检测数据集KAIST的提出,多光谱行人检测任务成为了当时的研究热点之一,与此同时2016年何恺明提出的Faster R-CNN模型在单模态(RGB)目标检测领域取得了显著的效果。本文主要受Faster R-CNN启发,设计了四种融合方法,将Faster R-CNN应用在了RGB-T行人检测任务中。实验证明,由于RGB信息与T信息间的互补关系,两者的融合可以有效提升行人检测的精度;同时本文设计的四个模型都取得了比现有方法更好的效果,其中使用中期融合(Halfway Fusion)策略得到的模型是目前最好的方法。
二、Motivations
 多光谱行人检测主要应用于昼夜连续的监控以及自动驾驶领域。当前的可见光行人检测技术主要受限于目标较小并存在遮挡、背景杂乱、图片分辨率低以及夜晚能见度差等问题。
在行人检测任务中,T图像通常可以呈现出人体清晰的轮廓但却丢失了可以被RGB相机(依赖于外部光照条件)捕捉到的人体的细节信息。因此如何将RGB图像与T图像融合,通过它们之间的互补关系获取更丰富的信息以提高行人检测精度,是当前的研究热点之一。
三、Contributions
1.设计了四种不同的卷积神经网络融合策略,在不同的阶段(卷积阶段、全连接阶段、决策阶段)将两个分支的卷积神经网络融合在一起,这四种策略分别对应低、中、高、置信层次的信息融合。所有这些模型在KAIST多光谱行人检测数据集上都优于单模态(RGB)的Faster R-CNN(baseline)。
2. 验证了四种策略中Halfway Fusion策略是最好的,这意味着融合方案的最佳选择是在视觉细节和语义信息之间取得平衡。
3. 本文提出的Halfway Fusion模型在KAIST数据集上的总错误率只有37%,比baseline低了11%,同时也比使用其它三种融合策略得到的模型的错误率低了3.5%。
4. 本文提出的模型在Caltech行人检测数据集(RGB)上也达到了当时最好的效果,同时也是第一次将Faster R-CNN用于行人检测任务。(其实就是将现成的单模态Faster R-CNN模型用到了行人检测任务中)
四、Additional Knowledge
1.KAIST数据集
 KAIST数据集是第一个也是目前最常用的多光谱行人检测数据集,共包括95328组RGB-T图片对,每张图片的分辨率均为640×480。数据集的标签中包含person、people和cyclist三个类别,其中比较好区分的个体被标注为person,不太好分辨的多个个体则被标注为people,骑行的人则被标注为cyclist。
 训练集和测试集划分标准:
(1)训练集和测试集中出现的行人总数量差不多。
(2)训练集和测试集中白天/黑夜的图片数目差不多。
(3)训练集和测试集中的图片没有重叠。
 相比于随机划分,使用该标准可以避免数据偏差以及在某些场景中过度拟合。
5. 行人检测中的召回率Recall与检测精度
 在行人检测任务中,精度就是检测出来的行人中确实是行人的所占的百分比;Recall就是正确检出的行人数量占行人总数的百分比,Recall=100%表示没有漏检。
五、Models
本文的模型在使用Faster R-CNN时删掉了用于提取特征的VGG16网络中的第四个Maxpooling层,因此得到的feature map分辨率是原来的两倍。这样做是因为更大的feature maps对于小图像尺寸的行人检测更有利;同时还将RPN中尺寸比例为1:2的候选框丢弃。
1.早期融合

在这里插入图片描述

图1 早期融合策略示意图
 在浅层融合特征。如图1所示,RGB和T两个支路分别经过预训练好的VGG-16(参数共享)的第一组卷积层,将得到的两个feature map级联,再通过1×1卷积层将通道数修改为128以便于继续输入到剩下的预训练好的VGG-16网络中,最后1×1卷积层的输出经过一个ReLU层送到后续的VGG-16中。图1中红色框代表卷积层组,蓝色框代表级联,绿色框代表1×1卷积层,黄色框代表全连接层。 2. 中期融合

在这里插入图片描述

图2 中期融合策略示意图
 操作与早期融合类似,唯一的区别就是融合位置的不同,中期融合的位置是VGG-16第四组卷积层之后。 3. 末期融合

在这里插入图片描述

图3 末期融合策略示意图
 在深层融合特征。将RGB和T两条支路中第二个全连接层FC7的输出结果级联融合。需要注意的是,RPN从两条支路第五组卷积层产生的feature map级联得到的结果中预测行人的候选框。 4. 结果融合

在这里插入图片描述

图4 结果融合策略示意图
 RGB图像和T图像分别经过一个完整的Faster R-CNN,再将两个支路的检测结果分别输入到另一个网络中进行检测和回归,最后两个支路的得分结果分别乘0.5然后相加(等权重)。 **五、Experiments** 1.RGB信息与T信息互补性验证实验
表1 实验结果统计(图片数量)

在这里插入图片描述
 实验中使用的模型为Faster R-CNN(RGB)以及Faster R-CNN(T)。表1中GT为Ground Truth,TP代表检测正确,FP代表检测错误或未检测到,角标(C,T)代表Faster R-CNN(RGB)以及Faster R-CNN(T)两者检测结果都为对或错,(C)代表只有Faster R-CNN(RGB)检测结果为对或错,(T)代表只有Faster R-CNN(T)检测结果为对或错。
通过实验结果可以看出,Faster R-CNN(RGB)模型在白天图片中的效果好,但是在夜晚图片中效果差,而Faster R-CNN(T)与之相反。因此两中信息存在互补关系,结合RGB图像和T图像的多光谱检测可能能够改进总体的检测结果(昼夜)。
2.在KAIST数据集中对比

在这里插入图片描述

图5 KAIST测试集上FPPI-Miss Rate曲线对比
 图5中从左到右分别是测试集中昼夜图片的丢失率、白天图片的丢失率和夜晚图片的丢失率。实验表明,无论在白天还是黑夜,本文提出的四种融合模型都取得了比单模态更好的效果,说明多光谱信息的融合确实可以提升行人检测的效果,而中期融合(Halfway Fusion)效果最佳,因为在这个阶段融合RGB信息和T信息既包含着一定的语义信息,同时又保留了部分视觉细节。 3.召回率与候选框数量实验

在这里插入图片描述

图6 召回率和候选框数量曲线
 设定IoU大于0.5为检测正确,从图8中可以看出,再相同数量的候选框中,本文最好的中期融合(Halfway Fusion)模型的召回率最高,说明检测结果最好。中期融合(Halfway Fusion)模型召回率达到90%只需要30个框,而其他模型至少需要50个框甚至更多。 4.召回率与IoU实验

在这里插入图片描述

图7 召回率和IoU曲线
 实验中设定候选框数量为300,本文的中期融合(Halfway Fusion)模型召回率均高于其他模型,其中在IoU=0.6时召回率为93.9,达到了最好的效果。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
跨模态融合变压器用于多光谱目标检测是一种先进的目标检测方法。多光谱图像由不同波段的传感器捕获,每个波段提供了目标的不同特征信息。传统的目标检测算法往往局限于单一光谱波段,无法在多光谱图像中有效提取目标信息。而跨模态融合变压器能够将不同波段的光谱信息融合,并在融合后的特征上进行目标检测,从而提高目标检测的准确性和鲁棒性。 跨模态融合变压器结合了Transformer模型和跨模态融合方法。Transformer模型是一种基于自注意力机制的神经网络架构,能够有效地建模长距离依赖关系。它将目标的特征信息转化为一系列的注意力权重,然后利用这些权重来对不同波段的特征进行加权融合。这种融合方式可以将信息从一个波段传递到另一个波段,使得各个波段的特征能够共同影响目标检测结果。 跨模态融合变压器还引入了多尺度的注意力机制,以适应不同尺度目标的检测需求。它通过在特征提取的过程中引入多个不同大小的注意力窗口,来对不同尺度的目标进行建模。通过这种方式,跨模态融合变压器能够在多光谱图像中准确地检测到各种尺度的目标。 总之,跨模态融合变压器是一种能够融合不同波段特征并进行多光谱目标检测的先进方法。它的引入可以提高目标检测的准确性和鲁棒性,适用于各种需要从多光谱图像中提取目标信息的应用场景。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值