RGB-T行人检测汇总

最新推荐文章于 2024-04-29 11:53:36 发布

置顶

zhaoshenlu829

最新推荐文章于 2024-04-29 11:53:36 发布

阅读量5.4k

点赞数

分类专栏：多光谱（RGB-T）行人检测论文详解文章标签：计算机视觉人工智能深度学习多模态行人检测

本文链接：https://blog.csdn.net/zz937211040/article/details/107207259

版权

RGB-T行人检测汇总

1.介绍
2015年，第一个RGB-T行人检测数据集KAIST被提出，多光谱行人检测任务逐渐成为计算机视觉领域的研究热点之一。可见光相机可以在光照条件良好的条件下清晰地捕捉到行人的细节信息和颜色信息，但在弱光照甚至黑夜的环境下很难捕捉到有效的目标信息；而红外相机对外部光照变化不敏感，通常可以呈现出人体清晰的轮廓，但会丢失了人体的细节信息和颜色信息。因此，可见光图像和红外图像所提供的信息是互补的，如果可以有效地融合两种不同光谱类型的图像，就能得到更丰富的目标特征，增强行人检测器的辨别力和鲁棒性。如图1所示，只使用RGB图像或T图像中的一种进行检测时很难分辨Hard positive samples（很难被识别的正样本，即是行人但是由于模糊等情况容易被误判为背景的情况）和Hard negative samples（很难被识别的负样本，即是背景但是由于模糊等情况容易被误判为行人的情况）。
在这里插入图片描述

图1 单模态行人检测存在的问题

2 . 挑战及应用
RGB-T行人检测主要应用于全天候自动驾驶和监控领域，面临的问题主要包括两部分。首先是行人检测共有的问题，主要包括：行人间严重遮挡、背景复杂以及行人尺寸差异（距摄像头的距离远近不同导致行人尺寸不同，较远位置的行人包含像素很少即分辨率很低），想要解决这些问题，就需要检测器有更强的分辨能力和更高的生态效度；其次是多模态任务共有的问题，主要包括：数据集获取和对齐难度大、如何有效地融合多模态信息（减少信息的丢失与冗余）。
3. 相关工作
3. 1 基于RPN结构和Faster R-CNN的多模态行人检测模型
3.1.1 Faster R-CNN早期融合
在这里插入图片描述

图2 早期融合策略示意图在浅层融合特征。如图2，RGB图像和T图像两个支路分别经过预训练好的VGG-16（参数共享）的第一组卷积层，之后将得到的两个feature map级联继续输入到剩下的预训练好的VGG-16网络中，接下来的步骤与Faster R-CNN完全相同。图2中红色框代表卷积层组，蓝色框代表级联，绿色框代表1×1卷积层。实验结果表明，这种融合方法是有效的，比单模态的效果要更好。

3.1.2 Faster R-CNN中期融合

在这里插入图片描述

图3 中期融合策略示意图操作与早期融合类似，唯一的区别就是融合位置的不同，中期融合的位置是VGG-16第四组卷积层之后。实验结果表明，这种融合方法比单模态的效果要更好，也是早期、中期、末期融合中效果最好的。 3.1.3 Faster R-CNN末期融合

在这里插入图片描述

图4 末期融合策略示意图在深层融合特征。将RGB图像和T图像两条支路中第二个全连接层FC7的输出结果级联融合。需要注意的是，RPN从两条支路第五组卷积层产生的feature map级联得到的结果中预测行人的候选框。实验结果表明，这种融合方法比单模态的效果要更好。

3.1.4 Faster R-CNN结果融合

在这里插入图片描述

图5 结果融合策略示意图

最低0.47元/天解锁文章

zhaoshenlu829

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
RGB-T行人检测汇总

**RGB-T行人检测汇总**1.介绍 2015年，第一个RGB-T行人检测数据集KAIST被提出，多光谱行人检测任务逐渐成为计算机视觉领域的研究热点之一。可见光相机可以在光照条件良好的条件下清晰地捕捉到行人的细节信息和颜色信息，但在弱光照甚至黑夜的环境下很难捕捉到有效的目标信息；而红外相机对外部光照变化不敏感，通常可以呈现出人体清晰的轮廓，但会丢失了人体的细节信息和颜色信息。因此，可见光图像和红外图像所提供的信息是互补的，如果可以有效地融合两种不同光谱类型的图像，就能得到更丰富的目标特征，增强行人检测
复制链接

扫一扫

专栏目录