RGB-T行人检测汇总

RGB-T行人检测汇总

1.介绍
 2015年,第一个RGB-T行人检测数据集KAIST被提出,多光谱行人检测任务逐渐成为计算机视觉领域的研究热点之一。可见光相机可以在光照条件良好的条件下清晰地捕捉到行人的细节信息和颜色信息,但在弱光照甚至黑夜的环境下很难捕捉到有效的目标信息;而红外相机对外部光照变化不敏感,通常可以呈现出人体清晰的轮廓,但会丢失了人体的细节信息和颜色信息。因此,可见光图像和红外图像所提供的信息是互补的,如果可以有效地融合两种不同光谱类型的图像,就能得到更丰富的目标特征,增强行人检测器的辨别力和鲁棒性。如图1所示,只使用RGB图像或T图像中的一种进行检测时很难分辨Hard positive samples(很难被识别的正样本,即是行人但是由于模糊等情况容易被误判为背景的情况)和Hard negative samples(很难被识别的负样本,即是背景但是由于模糊等情况容易被误判为行人的情况)。
在这里插入图片描述

图1 单模态行人检测存在的问题

2 . 挑战及应用
 RGB-T行人检测主要应用于全天候自动驾驶和监控领域,面临的问题主要包括两部分。首先是行人检测共有的问题,主要包括:行人间严重遮挡、背景复杂以及行人尺寸差异(距摄像头的距离远近不同导致行人尺寸不同,较远位置的行人包含像素很少即分辨率很低),想要解决这些问题,就需要检测器有更强的分辨能力和更高的生态效度;其次是多模态任务共有的问题,主要包括:数据集获取和对齐难度大、如何有效地融合多模态信息(减少信息的丢失与冗余)。
3. 相关工作
3. 1 基于RPN结构和Faster R-CNN的多模态行人检测模型
3.1.1 Faster R-CNN早期融合
在这里插入图片描述

图2 早期融合策略示意图
 在浅层融合特征。如图2,RGB图像和T图像两个支路分别经过预训练好的VGG-16(参数共享)的第一组卷积层,之后将得到的两个feature map级联继续输入到剩下的预训练好的VGG-16网络中,接下来的步骤与Faster R-CNN完全相同。图2中红色框代表卷积层组,蓝色框代表级联,绿色框代表1×1卷积层。实验结果表明,这种融合方法是有效的,比单模态的效果要更好。

3.1.2 Faster R-CNN中期融合

在这里插入图片描述

图3 中期融合策略示意图
 操作与早期融合类似,唯一的区别就是融合位置的不同,中期融合的位置是VGG-16第四组卷积层之后。实验结果表明,这种融合方法比单模态的效果要更好,也是早期、中期、末期融合中效果最好的。 3.1.3 Faster R-CNN末期融合

在这里插入图片描述

图4 末期融合策略示意图
 在深层融合特征。将RGB图像和T图像两条支路中第二个全连接层FC7的输出结果级联融合。需要注意的是,RPN从两条支路第五组卷积层产生的feature map级联得到的结果中预测行人的候选框。实验结果表明,这种融合方法比单模态的效果要更好。

3.1.4 Faster R-CNN结果融合

在这里插入图片描述

图5 结果融合策略示意图
  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值