文章目录
前言:
本篇文章发表于2019年,来自期刊《Information Fusion》。这里我不作一字一句的翻译,而是尽量将全文以自己的理解表述完整,供大家学习参考。如果有对此感兴趣的同学,可以评论区留言讨论。
摘要
近年来,多光谱行人检测作为一种很有前景的解决方案受到了广泛的关注,它可以为全天候的应用提供鲁棒的行人目标检测。(比如在安全监控和自动驾驶应用方面)
在本文中,我们证明了在多光谱图像中编码的光照信息可以显著提高行人检测的性能。为了准确描述场景的光照状况,提出了一种新的光照感知加权机制。将这些光照信息结合到双流深卷积神经网络中,学习不同光照条件(白天和夜间)下的多光谱人体相关特征。
此外,我们利用光照信息和多光谱数据生成更准确的语义分割,用于监督行人检测器的训练。
综合以上几个方面,我们提出了一种基于光照感知行人检测和语义分割多任务学习的多光谱行人检测框架。我们提出的方法是使用设计良好的多任务损失函数进行端到端训练的,并且在KAIST多光谱行人数据集上的性能优于最新的方法。
关键字:多光谱融合、行人检测、深度神经网络、光照感知、语义分割
一、引言
在过去的几十年里,行人检测成为计算机视觉领域中一个非常重要的研究课题。给出在各种实际监控情况下拍摄的图像,行人检测器应该生成准确的边界框来定位行人目标。它提供了一项基本功能,以促进一系列以人为中心的应用程序,如视频监控和自动驾驶。
虽然近年来已经取得了显著的进步,但开发一种健壮的行人检测器仍然是一项艰巨的任务。值得注意的是,现有的大多数行人检测器都是利用可见光信息来训练的,因此它们的性能对光照、天气和遮挡的变化都很敏感。为了克服上述局限性,许多研究工作都集中在开发多光谱行人检测解决方案,以实现准确和鲁棒的全天候人体检测。基本的直觉是,多光谱图像(例如可见光和热像)包含目标的互补信息,因此对这些数据的有效融合可以导致更准确和稳定的探测。
图1 在(A)白天和(B)夜间场景中捕获的多光谱行人实例的特征。(A)和(B)中的第一行显示了行人实例的多光谱图像。(A)和(B)中的第二行显示了相应行人实例的特征图可视化。可见光和热像的特征图是使用在其相应通道中经过良好训练的深度神经区域建议网络(RPN)来生成的。观察到多光谱行人样本在白天和夜间光照条件下呈现出不同的特征。
在这项工作中,我们提出了一个在不同光照条件下(白天或黑夜)学习多光谱人体相关特征的光照感知深度神经网络。如图1所示,我们观察到,多光谱行人样本在白天和夜间的光照条件下呈现出不同的特征。因此,使用多个内置子网络(每个子网络专门捕捉特定于照明的视觉模式)提供了一种有效的解决方案来处理由照明变化引起的大量类内差异。基于多光谱数据对光照信息进行鲁棒估计,并将其输入到多个光照感知的子网络中,学习多光谱语义特征图,在不同光照条件下同时进行行人检测和语义分割。在给定一对白天拍摄的多光谱图像的情况下,我们提出的光照感知加权机制自适应地为白天照明子网络(行人检测和语义分割)赋予较高的权重,以学习白天与人类相关的特征。相比之下,夜间场景的多光谱图像被用来训练夜间照明子网络。我们在图2中说明了这种光照感知加权机制是如何工作的。检测是通过融合多个光照感知的子网络的输出来产生的,并且对场景光照的大变化保持稳健。这项工作的贡献如下。
首先,我们论证了场景的光照条件可以通过一个全连接网络的体系结构来鲁棒地确定。该神经网络通过考虑多光谱语义特征和估计的光照权重,为提高行人检测的性能提供了有用的信息。
其次,我们在双流深卷积神经网络中引入光照感知机制,学习不同光照条件(白天和夜间)下的多光谱人体相关特征。据我们所知,我们是第一个利用光照信息来训练多光谱行人检测器的。
第三,提出了一个完整的基于光照感知行人检测和语义分割联合学习的多光谱行人检测框架,该框架使用精心设计的多任务loss进行端到端训练,相比于现在一流的行人检测器,获得了更高的准确率和更快的速度。
图2 说明了我们提出的光照感知加权机制。在多光谱图像对准良好的情况下,两流深度神经网络(TDNN)生成多光谱语义特征图。白天照明子网络和夜间照明子网络利用多光谱语义特征图在不同光照条件下进行行人检测和语义分割。通过将白天照明子网络和夜间照明子网络的输出与计算的光照感知权重wd和wn进行融合来生成检测。
二、相关研究
在这一部分中,我们将回顾一些使用可见光、热像仪和多光谱图像的行人探测器,这些都与我们的研究工作相关。
2.1 可见光和热感行人检测
在文献中已经报道了许多成功的利用可见光图像的行人检测解决方案。Piotr等人提出的集成通道特征(ICF)行人检测器。基于特征金字塔和增强型分类器,它的性能通过ACF、LDCF和棋盘等多种技术进一步提高。最近,基于深度神经网络的目标检测模型被用于提高行人检测的准确率。Li等人提出了一个统一的深层网络框架,将尺度感知的子网络结合起来,在不同的尺度上刻画独特的行人特征。蔡等人提出了一种多尺度深度神经网络的统一体系结构,将互补的尺度特征检测器结合在一起。这样的体系结构提供了多个接收域来标识不同尺度的对象。张某等人利用高分辨率卷积特征图进行分类,提出了一种基于区域建议网络(RPN)和Boost树的高效行人检测方法。毛等人提出了一种多任务训练框架,利用给定特征的信息在不增加推理输入的情况下提高检测性能。Brazel等人在目标检测和语义分割的联合监督下,提出了一种提高行人检测准确率的分割融合方案。实验结果证明,弱标注框提供了足够的信息来获得可观的性能提升。戴维斯等人提出了一种基于模板的方法来定位在不同场景下拍摄的热图像中的行人。潜在的人最初使用通用模板进行定位,并通过AdaBoosted集成分类器进一步验证。最近,Biswas等人提出了基于局部导向核(LSK)描述符的多维模板。用于在低分辨率和噪声的红外图像中检测行人。然而,强烈的太阳辐射会造成白天热像的背景杂波和误检。
2.2 多光谱行人检测
多光谱传感器(例如,可见光和热)捕获组成光谱通道中的目标对象的信息。因此,使用多模式数据训练的行人检测器可以产生稳健的检测结果。Hwang等人建立了大尺度多光谱行人基准数据集KAIST,它包含排列良好的可见光/热像仪图像和密集的行人注释。提出了一种新的多光谱聚集特征提取技术(ACF+T+THOG),并将Boosted决策树(BDT)应用于目标分类。Wagner等人首次提出了DNN在多光谱行人检测中的引用,并对两种决策网络(早融合和晚融合)的性能进行了评估。刘等人研究了如何将更快的R-CNN用于多光谱行人检测,并设计了四种ConvNet融合结构,在不同的DNN阶段集成了两个分支ConvNet。最优的结构是中途融合模型,它利用中层卷积特征合并两个分支的ConvNet。König等人提出了一种有效的融合RPN+BDT模型,在中层卷积层融合两个深层次神经网络。许等人提出了一种新的跨通道转换框架,以学习颜色和热数据之间的关系,并提高检测器对光照变化的稳健性。然而,这种多光谱行人探测器在测试阶段只考虑可见光图像。因此,它的性能无法与同时使用颜色和热数据的多光谱检测器(例如,中途融合模型和融合RPN+BDT)相媲美。帕克等人提出了一种三分支DNN结构,能够处理多通道输入。为了提高检测性能,提出了一种信道加权融合(CWF)层,该层综合考虑了每种模式的所有检测概率。最近,Loveday 等人开发了一种正交式双摄像机成像系统来捕捉无视差且排列良好的多光谱图像。实验表明,可见光和红外数据融合比单通道可见光和红外信息更能提高前景目标检测的整体性能。
值得一提的是,我们的方法与上述方法截然不同。通过提出的光照感知多光谱深度神经网络,提出了一个统一的框架来学习不同光照条件(白天和夜间)下的多光谱人体相关特征。据我们所知,这是利用光照信息来提高多光谱行人探测器性能的第一项研究工作。
三、我们的方法
3.1 建议模型概述
图3 提出的光照感知多光谱深度神经网络(IATDNN+IAMSS)的体系结构。请注意,绿色框表示卷积层和完全连通的层,黄色框表示池化层,蓝色框表示融合层,灰色框表示分割层,橙色框表示输出层。
如图3所示,光照感知多光谱深度神经网络的体系结构由三个集成处理模块组成,包括光照全连接神经网络(IFCNN)、光照感知双流深度卷积神经网络(IATDNN)和光照感知多光谱语义分割(IAMSS)。给定对准的可见光和热像,IFCNN计算光照感知权重,以确定它是白天的场景还是夜间的场景。通过提出的光照感知机制,IATDNN和IAMSS利用多个子网络同时生成分类分数(CLS)、边界框(Bbox)和分割掩码(Seg)。例如,IATDNN使用两个单独的分类子网络(D-CLS和N-CLS)来进行昼夜光照下的人类分类。每个子网络的CLS、Bbox和Seg结果被集成,通过在场景的光照条件上定义的门函数来获得最终输出。我们提出的方法是基于光照感知行人检测和语义分割的多任务学习的端到端训练方法。
3.2 光照全连接神经网络(IFCNN)
如图3所示,一对可见光和红外图像被传递到双流深度卷积神经网络(TDNN)的前五个卷积层和池化层中,以提取每个流中的语义特征。TDNN中的每个特征提取层流使用VGG-16中的Conv1-5作为主干。然后,将来自两个通道的特征图进行融合,通过级联层(CONCAT)生成两流特征图(TSFM)。利用TSFM作为IFCNN的输入,计算光照感知权重wd和wn=(1−wd),以确定场景的光照条件。
IFCNN由一个池层(IA-Pool)、三个完全连接层(IA-FC1、IA-FC2、IA-FC3)和Softmax组成。与空间金字塔池(SPP)层类似,IA-Pool去掉了网络的固定大小限制,使用双线性插值将TSFM的特征调整为固定长度的特征图(7×7),并为完全连通的层生成固定大小的输出。IA-FC1、IA-FC2、IA-FC3中的通道数根据经验分别设置为512、64、2。Softmax是IFCNN的最后一层。Softmax输出为wd和wn。我们将光照误差项 L i L_i Li定义为:
wn和wd是估计的日间和夜间场景的照明权重。
w
^
d
\hat{w}_d
w^d 和
w
^
n
=
(
1
−
w
^
d
)
\hat{w}_n=(1-\hat{w}_d)
w^n=(1−w^d)是光照标签。如果训练图像是在日间照明条件下捕获的,我们设置
w
^
d
=
1
\hat{w}_d=1
w^d=1 ,否则
w
^
d
=
0
\hat{w}_d=0
w^d=0。
3.3 光照感知双流深度卷积神经网络(IATDNN)
设计了基于双流深度卷积神经网络(TDNN)的IATDNN结构。RPN模型由于其优越的行人检测性能而被IATDNN采用。在给定一幅输入图像的情况下,通过分类和边界框回归生,RPN输出多个与置信度分数相关的边界框来产生行人候选框。如图4(A)所示,在具有两个1×1卷积层(CLS和Bbox)的并联层之后附加3×3卷积层(Conv-Pro),分别用于类别和边界框回归。TDNN模型为利用TSFM进行鲁棒的行人检测提供了一个有效的框架。
图4 (A)TDNN和(B)IATDNN体系结构的比较。请注意,wd和wn是估计的光照感知权重,绿色框表示卷积层和全连接层,黄色框表示池化层,蓝色框表示融合层,橙色框表示输出层。
我们进一步将光照信息融入到TDNN中,以产生各种光照条件下的分类和回归结果。具体地说,IATDNN包含四个子网络(D-CLS、N-CLS、D-Bbox和N-Bbox),以产生如图4(B)所示的光照感知检测结果。D-CLS和N-CLS计算白天和夜间光照条件下的分类分数,D-Bbox和N-Bbox分别为白天和夜间场景生成边界框。这些子网络的输出使用IFCNN中计算的照明权重进行组合,以产生最终的检测结果。检测损失项
L
D
E
L_{DE}
LDE被定义为:
其中,
L
D
E
L_{DE}
LDE定义分类损失
L
c
l
s
L_{cls}
Lcls和回归损失
L
b
b
o
x
L_{bbox}
Lbbox之和,
λ
b
b
\lambda_{bb}
λbb定义它们之间的正则化参数,S定义了小批量的训练样本集。如果训练样本与一个标签边界框的交集/并集(IOU)比率大于0.5,则该训练样本被认为是正的,否则被认为是负的。这里,训练标签
c
^
i
\hat{c}_i
c^i 对于正样本被设置为1,对于负样本被设置为0。对于每个正样本,其边界框被设置为
b
^
i
\hat{b}_i
b^i,以计算边界框回归损失。在上面等式中,分类损失项
L
c
l
s
L_{cls}
Lcls定义为:
回归损失项
L
b
b
o
x
L_{bbox}
Lbbox被定义为:
其中
c
i
f
c_i^f
cif 和
b
i
f
b_i^f
bif 分别是预测的分类分数和边界框,
s
m
o
o
t
h
L
1
smooth_{L1}
smoothL1用来学习
b
i
f
b_i^f
bif 和
b
^
i
f
\hat{b}_i^f
b^if 之间的变换映射。在IATDNN中,
c
i
f
c_i^f
cif是由日照分类得分
c
i
d
c_i^d
cid 和夜间照明分类得分
c
i
n
c_i^n
cin 的加权和计算:
b
i
f
b_i^f
bif是D-Bbox和N-Bbox子网络分别预测的两个边界
b
i
d
b_i^d
bid和
b
i
n
b_i^n
bin的光照加权组合:
通过上述光照加权机制,日照子网络(分类和回归)将优先学习白天场景中与人相关的特征。另一方面,利用夜间场景的多光谱特征图在夜间光照条件下产生可靠的检测结果。
3.4 光照感知多光谱语义分割(IAMSS)
最近,语义分割掩码被成功地用作强线索来提高基于单通道的目标检测的性能。简单的基于边界框的分割掩码提供了额外的监督,以引导共享层中的特征对于下游行人检测器变得更加独特。本文提出了一种基于双流深卷积神经网络的语义分割方法,实现了多光谱图像中行人的同时检测和分割。
给定两个多光谱通道(可见光和热光)的信息,在不同的阶段(特征阶段和决策阶段)进行融合会导致不同的分割结果。因此,我们希望研究什么是多光谱分割任务的最佳融合架构。为此,我们设计了两种在不同阶段进行融合的多光谱语义分割体系,分别称为特征阶段多光谱语义分割(MSS-F)和决策阶段多光谱语义分割(MSS)。如图5(A)和(B)所示,MSS-F首先将来自Conv5-V和Conv5-T的特征图连接起来,然后应用公共的Conv-Seg层来产生分割掩码。相比之下,MSS使用两个卷积层(Conv-Seg-V和Conv-Seg-T)为单独的信道生成不同的分割图,然后合并两个流的输出以生成最终的分割掩码。
图5 比较了(A)MSS-F、(B)MSS、©IAMSS-F和(D)IAMSS体系结构。请注意,绿色框表示卷积层,蓝色框表示融合层,灰色框表示分割层。
此外,我们还希望研究是否可以通过考虑场景的光照条件来提高语义分割的性能。在MSS-F和MSS体系结构的基础上,我们又设计了两个光照感知的多光谱语义分割网络(IAMSS-F和IAMSS)。使用两个分割子网络(D-Seg和N-Seg)来生成如图5©和(D)所示的光照感知语义分割结果。请注意,IAMSS-F包含两个子网络,而IAMSS包含四个子网络。这些子网络的输出通过光照加权机制进行融合,利用IFCNN预测的光照权重生成多光谱语义分割。在第四节中,我们给出了这四种不同的多光谱分割结构的评估结果。
语义损失项定义为:
其中,
s
i
j
f
s_{ij}^f
sijf定义预测分割,C定义分割流(MS-F和IAMSS-F仅包含一个分割流,而MS和IAMS包含两个流),S定义小批次中的训练样本集。这里,训练分割掩
s
^
j
\hat{s}_j
s^j对于正样本被设置为1,对于负样本被设置为0。
在光照感知多光谱语义分割体系结构IAMSS-F和IAMSS中, s i j f s_{ij}^f sijf是D-Seg和N-Seg子网络分别预测的语义掩码 s i j d s_{ij}^d sijd和 s i j n s_{ij}^n sijn的光照加权组合:
综合上面定义的损失条件,进行光照感知行人检测与分割的多任务学习,多任务损失函数定义为:
其中
λ
i
a
\lambda_{ia}
λia 和
λ
s
m
\lambda_{sm}
λsm 分别是损耗项
L
I
L_I
LI 和
L
S
L_S
LS 的折衷系数。我们按照Brazil 等人提出的方法设置
λ
i
a
\lambda_{ia}
λia=1 和
λ
s
m
\lambda_{sm}
λsm=1。我们利用这个损失函数来联合训练光照感知的多光谱深度神经网络。
四、实验
4.1 Experimental setup
数据集:利用公开的KAIST多光谱行人基准进行了实验。KAIST训练数据集由50172对排列良好的多光谱图像组成,这些图像是在不同的照明条件下使用可见光和红外相机拍摄的。在前人工作的基础上,在训练数据集中每隔两帧对图像进行采样,得到25086对训练图像。KAIST测试数据集由2252对多光谱图像组成,其中1455对是在白天拍摄的。按照中介绍的合理设置,我们使用KAIST测试注释来评估检测性能。值得注意的是,CVC-14是另一个包含可见光-热图像对的多光谱行人基准。然而,这个多模式数据集是使用立体视觉系统获取的,可见图像和热像没有正确对齐。此外,注释是在热通道和可视通道中单独生成的。某些行人注释仅在一个通道中生成,而在另一个通道中不可用。因此,本文仅利用KAIST数据集进行性能评估。
实施细节:我们使用以图像为中心的训练方案来训练所有的多光谱行人检测器。每个小批量包含1个图像和120个Anchors,这些Anchors是随机选择的。如果一个Anchor与一个真实框的IOU比率大于0.5,则该Anchor被视为正,否则被视为负值。使用在大规模ImageNet数据集上预先训练的VGG-16深度神经网络中的前五个卷积层的参数来初始化每个TDNN流中的前五个卷积层。全连通层和所有其他卷积层被初始化为具有标准差的零均值高斯分布。有关各个模块的详细配置,请参见表1。我们提出的模型的源代码和检测结果将会在不久公开。深度神经网络是在Caffe框架下用随机梯度下降训练的,动量为0.9,权值衰减为0.0005。为了避免由爆炸梯度引起的学习失败,使用阈值10来剪裁梯度。
表1 我们建议的IATDNN、IFCNN和IAMSS模块的配置。可见光和热流的输入尺寸均为960×768×3。可见光和热流的前五个对流层(Conv1-V到Conv5-V和Conv1-T到Conv5-T)使用VGG-16的Conv1-5作为主干。
评估标准:利用对数平均错失率(MR)来评估各种多光谱行人检测算法的性能。在以前的工作之后,如果具有基本事实的IOU超过50%,则将检测到的边界框结果视为真阳性。未匹配的检测边界框被计为假阳性,未匹配的地面真实边界框被计为假阴性。根据Dollar等人提出的方法,任何与忽略真实标签匹配的检测边界框将不被视为真正例,任何不匹配的忽略地面真实标签将不被视为假反例。我们通过对在0.01到1之间的对数空间中均匀分布的9个假正例/图像(Fppi)值计算的缺失率求平均值来计算MR。
注:MR(Miss Rate)是机器学习中常用的一种评价标准,等同于False Positive。
4.2 评估IFCNN
图6 (A)IFCNN、(B)IFCNN-V和©IFCNN-T的体系结构。请注意,绿色框表示卷积层和全连接层,黄色框表示池化层,蓝色框表示融合层,橙色框表示Softmax层。
光照加权机制为我们提出的光照感知深度神经网络提供了重要的功能。我们首先评估IAFCNN是否能够准确地计算出为平衡光照感知网络输出提供关键信息的照明权重。我们利用KAIST测试数据集(包含在白天(1455帧)和夜间(797帧)拍摄的多光谱图像)来评估IAFCNN的性能。给出一对排列良好的多光谱图像,IAFCNN将输出一天照度权重wd。如果白天场景的wd>0.5或夜间场景的wd<0.5时,可以正确预测照明条件。此外,我们分别使用可见光图像(IFCNN-V)和热像(IFCNN-T)提取的特征图对光照预测的性能进行了评估,以考察哪个通道提供了最可靠的信息来确定场景的光照条件。图6显示了IFCNN-V、IFCNN-T和IFCNN的结构,表2比较了它们的预测精度。
表2 使用IFCNN-V、IFCNN-T和IFCNN进行光照预测的准确性。 最佳结果以粗体突出显示。
可以观察到,来自可见光通道的信息可以用来为白天和夜间场景生成可靠的光照预测(白天-97.94%,夜间-97.11%)。这是一个合理的结果,因为人类可以很容易地根据肉眼观察来判断这是白天的场景还是夜间的场景。虽然热通道不能单独用于光照预测,但它为可见光通道提供补充信息,以提高光照预测的性能。通过融合可见光和热通道的互补信息,IFCNN比IFCNN-V(仅使用可见光图像)和IFCNN-T(仅使用热像)计算出更精确的照度权重。图7显示了IFCNN失败的一些情况。当白天光照条件不好或夜间路灯照度较好时,IFCNN模型会产生错误的预测结果。总体而言,通过考虑多光谱语义特征,基于IFCNN可以稳健地确定场景的光照条件。
图7 (A)白天和(B)夜间假IFCNN预测结果样本。 当白天照明条件不好或夜间路灯照明良好时,IFCNN模型会产生错误的预测结果。
4.3 评估IATDNN
我们进一步评估了光照信息是否可以用来提高多光谱行人检测器的性能。具体地说,在不考虑语义切分信息的情况下,对TDNN和IATDNN的性能进行了评估。公式中描述的照明损失项(1)和公式中描述的检测损失项(2)联合训练IAFCNN和IATDNN,并利用检测损失项训练TDNN。TDNN模型为利用多光谱特征进行稳健的行人检测提供了一个有效的框架。然而,它不区分白天和夜间光照条件下的人体实例,并且使用共同的CON-PROV层来生成检测结果。相比之下,IATDNN应用光照加权机制自适应地组合多个光照感知的子网络(D-CLS、N-CLS、D-REG、N-REG)的输出以生成最终的检测结果。
以MR作为评价指标,对比结果如 表3 所示。通过光照加权机制,IATDNN显著提高了白天和夜间场景的检测准确率。值得一提的是,这种性能提升(TDNN 32.60%MR、V.S.IATDNN 29.62%MR)是以较小的计算开销为代价实现的。基于单个Titan X GPU,TDNN模型处理一对可见光和热像(640×512像素)**需要0.22s,而IATDNN模型需要0.24s。**第4.5节提供了计算效率的更多比较结果。实验结果表明,光照信息可以融合到多个光照感知的子网络中,从而更好地学习与人类相关的特征图,从而提高行人检测器的性能。
表3 计算了TDNN和IATDNN的MRS。最好的结果用粗体突出显示。
4.4 评估IAMSS
进一步评估了光照感知多光谱分割算法与IATDNN相结合的性能增益。本文考虑了四种不同的多光谱语义分割模型:MSS-F(Feature-Stage MSS)、MSS(Decision-Stage MSS)、IAMSS-F(光照感知特征阶段MSS)和IAMSS(光照感知决策阶段MSS)。这四种模型的体系结构如图5所示。多光谱语义分割模型输出大量基于盒子的分割掩码,这种弱标注的盒子为训练IATDNN中更有特色的特征提供了有用的信息。表4比较了IATDNN、IATDNN+MSS-F、IATDNN+MSS、IATDNN+IAMSS-F和IATDNN+IAMSS的检测性能。
表4 IATDNN、IATDNN+MSS-F、IATDNN+MSS、IATDNN+IAMSS-F、IATDNN+IAMS的检测结果(MR)。 最佳结果以粗体突出显示。
可以观察到,将语义分割模块与光照感知行人检测相结合通常可以实现更好的检测性能。其基本原理是,语义分割掩码提供额外的监督,以便于训练更复杂的特征,从而实现更健壮的检测。另一个重要的观察是,融合方案的选择(特征阶段或决策阶段)将显著影响检测性能。总体而言,决策阶段多光谱语义分割模型(MSS和IA-MSS)比特征阶段模型(MSS-F和IA-MSS-F)要好得多。对这一现象的一种可能的解释是,后期融合(例如,决策阶段融合)是结合高层分割结果的更合适的策略。寻找最优的分割融合策略来处理多光谱数据将是我们未来的研究方向。最后,考虑场景的光照条件,可以进一步提高语义分割的性能。通过光照加权机制对子网络的输出进行自适应融合,在不同光照条件下产生更准确的分割结果。图8显示了使用四种不同的MSS模型的比较静态分割结果。实验结果表明,IATDNN+IAMSS生成的语义分割模板能更准确地覆盖小目标,抑制背景噪声。更准确的分割结果可以为训练更有特色的人类相关特征图提供更好的监督。
图8 在(A)白天和(B)夜间场景中使用四种不同的多光谱语义分割模型的多光谱行人语义分割结果的例子。 前两列分别显示了可见行人实例和热行人实例的图片。第三到第六栏分别显示了MSS-F、MSS、IAMSS-F和IAMSS的语义分割结果。应该注意的是,实线中的绿色边框表示正标签,虚线中的黄色边框表示忽略的边框。
在图9中,我们可视化了TDNN、IATDNN和IATDNN+IAMSS的特征图,以说明不同光照感知模块所获得的改进收益。我们发现,IATDNN通过将光照信息融入到多个光照感知的子网络中,生成比TDNN更清晰的行人特征,从而更好地学习与人类相关的特征地图。IATDNN+IAMSS通过使用光照感知的语义分割掩模来监督特征图的训练的分割注入方案,可以实现进一步的改进。
图9 在(A)白天和(B)夜间场景中捕捉到的由照明感知机制促进的多光谱行人特征地图的例子。 前两列分别显示了可见行人实例和热行人实例的图片。第三到第五列分别显示了从TDNN、IATDNN和IATDNN+IAMSS生成的要素地图可视化。值得注意的是,使用我们提出的光照感知模块(IATDNN和IAMSS),多光谱行人的特征地图变得更加清晰。
4.5 与当前最先进的多光谱行人检测方法的比较
图10 KAIST测试数据集在(A)全天、(B)白天和©夜间的合理设置下的比较。
将本文提出的IATDNN和IATDNN+IAMSS与ACF+T+THOG、Half way Fusion和Fusion RPN+BDT三种多光谱行人检测器进行了比较。为了进行性能比较,我们通过改变检测置信度的阈值,将MR与FPPI进行对比(使用对数-对数曲线)。如图10所示,我们提出的IATDNN+IAMSS在全天场景中获得了最好的检测准确率(26.37%MR),比第二好的解决方案Fusion RPN+BDT(29.68%MR)低11%。此外,我们提出的IATDNN在没有加入语义分词体系的情况下,也可以获得与现有方法相当的性能。我们在图11中可视化了融合RPN+BDT以及我们提出的IATDNN和IATDNN+IAMSS的一些检测结果。实验结果表明,IATDNN和IATDNN+IAMSS在不同光照条件下都能产生更好的检测结果,而IATDNN+IAMSS通过光照感知语义分割的监督能力进一步降低了误报。如图11所示,IATDNN+IAMSS甚至可以成功预测KAIST测试数据集中未标注的行人实例。这些正确检测到的目标被认为是假阳性检测。在我们未来的工作中,我们计划恢复这些遗漏的标签,以便更好地评估多光谱行人检测方法。
图11 与目前最先进的多光谱行人探测器的比较。第一列显示了可见光通道中带有真实标签的输入多光谱图像,其他列显示了热通道中的中途融合、融合RPN+BDT、IATDNN和IATDNN+IAMSS的探测结果。应当注意,实线中的绿色边界框(BBS)表示阳性标签,虚线中的绿色BBS表示忽略的标记,实线中的黄色BBS表示真阳性,虚线中的黄色BBS表示忽略检测,而红色BBS表示假阳性。我们可以观察到,与目前最先进的多光谱行人检测器相比,我们提出的模型可以产生更准确的检测。一些检测到的行人实例甚至没有被人类观察者标记。
我们在 表5 中显示了IATDNN、IATDNN+IAMSS和最先进的方法的运行时。我们将每个方法执行100次,并计算平均运行时间。值得注意的是,IATDNN+IAMSS的效率优于目前最先进的基于DNN的算法。中途融合的体系结构包括一个额外的快速R-CNN模型,这大大降低了计算效率。Fusion RPN+BDT模型利用Boosting树进行分类,将运行时间提高了近3倍。值得一提的是,我们提出的光照感知网络将显著提高检测性能,同时只需要很小的计算开销(TDNN 0.22s vs IATDNN 0.24s vs IATDNN+IAMSS 0.25s)。
表5 IATDNN和IATDNN+IAMSS与当前最先进的多光谱行人探测器的综合比较。使用单个Titan X GPU对计算效率进行了评估。我们将每个方法执行100次,并计算平均运行时间。应该注意的是,DL代表深度学习,BF代表增强型森林。
五、结论
本文提出了一种基于光照感知的多光谱行人检测和光照感知的多光谱语义分割联合学习的多光谱行人检测器。利用多光谱图像中编码的光照信息,通过设计的光照全连接神经网络(IFCNN)精确计算光照感知权重。提出了一种新的光照感知加权机制,将日光照明子网络和夜间照明子网络结合起来。
实验结果表明,光照感知加权机制为改进多光谱行人检测器提供了一种有效的策略。此外,我们设计了四种不同的多光谱分割注入网络,发现光照感知的决策阶段多光谱语义分割(IAMSS)产生的输出是最可靠的。在KAIST公共多光谱行人基准上的实验结果表明,与目前最先进的多光谱检测器相比,本文提出的方法能够以更少的运行时间获得更准确的检测结果。