TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captu

摘要

针对以下问题:
1、无人机在不同的高度航行,物体的尺度变化很大,这给网络的优化带来了负担
2、高速低空飞行给密集的物体带来了运动模糊,这给物体识别带来了巨大的挑战

提出了TPH-YOLOv5:
1、将原来的检测头换成了TPH(Transformer Prediction Heads)来探索具有自注意力机制的预测潜力
2、添加了CBAM,以在对象密集的场景中找到注意力区域
3、此外,还使用了数据增强、多尺度测试、多模型集成和利用额外的分类器

Introduction

在这里插入图片描述
1、无人机拍的照片尺度不一,且范围广,包含高密度物体,导致物体之间的遮挡,因为覆盖面积大,存在令人困惑的地理因素

为了提高TPH-YOLOv5的性能,采用了一些小技巧:
1、在训练时使用图像增强,促进对图像中物体的显著尺寸变化的适应。
2、在推理过程中同时添加了多尺度测试和多模型集成策略
3、通过对错误案例的可视化,发现提出的架构具有出色的定位能力,但分类能力较差,尤其是一些相似的类别上,比如三轮车和遮阳棚三轮车。为了解决这个问题,提供了一种自训练分类器,使用从训练数据中裁剪的图像块作为分类训练集,使用自训练分类器,在AP上得到了0.8-1.0的提升

本文贡献如下:
1、添加了一个预测头,处理对象的大规模变化问题
2、将TPH集成到YOLOv5中,可以在高密度场景中准确定位对象
3、将CBAM添加到YOLOv5中,可以帮助网络在具有大区域覆盖的图像中找到感兴趣的区域
4、为无人机捕捉场景中的目标检测任务提供了有用的技巧和过滤一些无用的技巧
5、使用自训练分类器来提高对一些混淆类别的分类能力

Method

在这里插入图片描述
1号头是新添加的头

Transformer encoder block
受VIT的启发,将一些卷积块和CSP模块替换成了transformer encoder blocks。在VisDrone2021数据集上,transformer encoder blocks对于被遮挡的高密度物体有着更好的表现,仅在头部和主干尾部添加TPH,因为分辨率低可以减少计算量。

在这里插入图片描述
Ms测试和模型集成
根据模型集成的不同视角训练了五个不同的模型。在推理阶段,第一次使用MS测试策略在单个模型上,
ms测试的实现细节如下:
1、将图像缩放为1.3倍
2、分别将图像缩小到1倍,0.83倍和0.67倍
3、水平翻转图像
最后,将6个不同的缩放图像提供给TPH-YOLOV5,并使用NMS融合测试预测。在不同的模型上,执行相同的ms测试操作,并通过WBF融合最后五个预测,以获得最终结果。

自训练分类器
TPH-YOLOV5定位能力强,分类能力弱,针对这一问题提出自训练分类器,首先通过裁剪GT边界框将每个图像的大小调整为64*64,建立一个训练集,然后选择ResNet18作为分类网络。实验结果显示有0.8-1.0的提升

Experiments

在这里插入图片描述
在这里插入图片描述

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值