红外街道图像的目标检测:多尺度 对象级数据增强

红外街道图像的目标识别:多尺度+对象级数据增强

Multiscale Object Detection in Infrared Streetscape Images Based on Deep Learning and Instance Level Data Augmentation

一、背景

1.红外目标检测与本文的目标

​ 红外传感器技术一直在发展,基于红外图像的人脸识别和行人检测也在越来越引人注意。但是红外目标检测面临一些考验:目前对于红外图像的检测方法局限在单分类检测,对于包含许多类以及许多尺度的红外街道图像的研究很少;红外图像的分辨率和对比度很低,高质量红外图像数据的稀少也阻碍了对应目标检测的发展。

​ 作者想要做到的是:

​ 1)提高基于红外图像的神经网络对多尺度目标的检测能力

​ 2)高质量图像少,存在类别不平衡问题,所以设计一种数据增强的方法,更好地利用数据

2.Faster R-CNN对多尺度不友好

​ Faster R-CNN的目标检测能力比较优秀,已经研究人员将Faster R-CNN应用到红外图像进行研究了,而且准确率要优于传统的方法。但是Faster R-CNN对多尺度检测的关注很少,它的一些设计是不利于多尺度检测的:

1)RPN只使用最后一层特征图提取区域建议,对于多尺度检测是不利的,我们虽然可以通过增加anchor的数量提高小目标的检测能力,但是这同时会大幅降低效率。

2)Faster R-CNN值使用最后的感受野最大的特征图进行分类,难以捕获小的目标。

已经有一些对于Faster R-CNN的改进了:

1)将低级特征与高级特征组合,使网络对小目标更敏感,但扩大了特征的维度又会引入计算损失的增加。(SSD系列,FPN, RON, Mask R-CNN)

2)为了平衡性能与计算量,多尺度ROI池化层出现了,将不同级别的输出组合起来,由此网络可以同时获得多尺度的特征。

3)改变特征图的感受野。(DetNet, RFBNet在特征图中增加了空洞卷积)

3.缺少高质量数据

​ 通常数据增强的方法有翻转、改变对比度、剪裁等等,它们的缺点是随机对每一张完整的图片都进行操作,没有考虑到类不均衡问题,并且它们没有考虑到目标的空间关系。也就是说作者想做的是以图像中的目标为单位进行数据增强,这就是基于对象的目标增强。

二、技术点

1.改进Faster R-CNN提高多尺度能力

在这里插入图片描述

1)双层RPN金字塔 Double-Layer RPN Pyramid

​ 将conv3,4,5
层的特征图统一尺度进行拼接,得到特征图1,RPN1在这个特征图上提取候选框,对特征图1使用dilated rate=2的空洞卷积,得到特征图2,使用RPN2在之上提取候选框。所有的候选框通过NMS减少数量,最终输出到池化层中。

2)Multi-Scale Pooling with Inception4 Module and PSalign

2.对象级数据增强

数据源:FILR数据集(包含人、车、自行车、狗、其他交通工具)

实验选取:汽车46692,人28151,自行车4457

目的:弥补自行车过少汽车过多的不平均问题,对于大目标进行数据增强的操作(小目标进行变换会带来扭曲)

在这里插入图片描述

在包含自行车或人的图像中,将2/3的汽车删去,然后判断是否与其他目标重叠,不重叠的直接进行缩放旋转等操作,如果重叠过大会删除一个目标,再创建一张图片放置这个删除的目标。

三、实验节选

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

四、参考

论文:Multiscale Object Detection in Infrared Streetscape Images Based on Deep Learning and Instance Level Data Augmentation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值