YOLOv9来了!实时目标检测新SOTA

本文介绍了可编程梯度信息(PGI)和广义高效层聚合网络(GELAN),提出了一种新的网络架构,用于提高目标检测的效率和参数利用率。YOLOv9结合PGI和GELAN在MSCOCO数据集上表现出色,特别是在小型到大型模型的训练中,能提供更好的结果,且优于深度卷积方法。
摘要由CSDN通过智能技术生成

先上一把网上的测试效果对比:

YOLOv9架构图

速度论文

代码:GitHub - WongKinYiu/yolov9: Implementation of paper - YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

论文:[2402.13616] YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information (arxiv.org)

      我们提出了可编程梯度信息(PGI)的概念,以应对深度网络实现多重目标所需的各种变化。PGI可以为目标任务提供完整的输入信息来计算目标函数,从而获得可靠的梯度信息来更新网络权重。此外,还设计了一种基于梯度路径规划的新型轻量级网络架构——广义高效层聚合网络(GELAN)。GELAN的架构证实了PGI在轻量化模型上取得了优异的成绩。我们在基于MS COCO数据集的目标检测上验证了所提出的GELAN和PGI。结果表明,与基于深度卷积的现有方法相比,GELAN仅使用传统的卷积算子即可实现更好的参数利用。PGI可用于从轻量级到大型的各种型号。它可以用来获得完整的信息,使从头开始训练的模型比使用大数据集预训练的最先进的模型获得更好的结果,比较结果如图1所示。

 信息瓶颈原理图

      在深度网络中,输入数据丢失的现象前馈过程中的信息通常是称为信息瓶颈[59],其原理图如图2所示。

PGI(可编程梯度信息)组件

PGI主要包括三个组成部分,即:

  1. 主分支
  2. 辅助可逆分支
  3. 多级辅助信息

PGI及相关网络架构和方法。(a) 路径聚合网络 (PAN)) [37], (b) 可逆列(修订版)[3],(c)传统的深度监督,以及(d)我们提出的可编程梯度信息(PGI)。PGI主要由以下部分组成
由三个组件组成:(1)主分支:用于推理的架构,(2)辅助可逆分支:生成可靠的梯度以提供
主分支用于反向传输,(3)多级辅助信息:控制主分支学习可规划的多级语义信息。

GELAN模块

我们将可逆支路视为深度监督支路的扩展,然后设计辅助可逆支路,新网络架构——GELAN:

GELAN的架构:(a)CSPNet [64],(b) ELAN [65],(c)提议的GELAN。我们模仿CSPNet并扩展ELAN到可以支持任何计算块的 GELAN。

YOLOv9的网络配置

实验结果

       我们在基于 MS COCO 数据集的目标检测上验证了所提出的 GELAN 和 PGI。 结果表明,与基于深度卷积开发的最先进方法相比,GELAN 仅使用传统的卷积算子即可实现更好的参数利用率。 PGI 可用于从轻型到大型的各种模型。 它可以用来获取完整的信息,从而使从头开始训练的模型能够比使用大型数据集预训练的最先进的模型获得更好的结果。

图5.最先进的实时目标检测器的比较。参与比较的方法都使用 ImageNet 作为预训练权重,包括 RT DETR [43]、RTMDet [44] 和 PP-YOLOE [74] 等。使用从头开始训练方法的 YOLOv9明显超过其他方法的性能。

可视化

图6.PlainNet、ResNet、CSPNet、GELAN在不同时随机初始权重输出的特征图(可视化结果)
深处。100 层后,ResNet 开始产生足以混淆对象信息的前馈输出。我们提议的
GELAN仍然可以保留相当完整的信息,直到第150层,并且仍然有足够的判别力,直到第200层。

图7.GELAN的PAN特征图(可视化结果)和 YOLOv9 (GELAN + PGI) 经过一个时期的偏置预热。GELAN 最初有一些分歧,但在添加 PGI 的可逆分支,它更有能力聚焦在目标物体上。

  • 18
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
旋转目标检测是指在目标检测任务中,对于具有不同角度或旋转姿态的目标进行检测和识别。针对YOLOv8进行旋转目标检测的改进方法可以采用以下策略: 1. 引入旋转框的表示:使用旋转框来表示目标的位置和姿态。旋转框一般由四个坐标值(左上角和右下角)和旋转角度参数组成,可以更准确地描述目标的位置信息。 2. 改进网络结构:对YOLOv8网络结构进行调整,以更好地适应旋转目标的检测。可以在骨干网络中引入旋转卷积层或旋转池化层,用于处理旋转特征。同时,可以考虑调整网络的感受野,使其适应不同角度和旋转姿态的目标。 3. 数据增强:在训练时使用数据增强技术,如旋转、平移和缩放等,来模拟目标的不同姿态和角度变化。通过增加训练数据的多样性,可以提高网络对旋转目标的泛化能力。 4. 损失函数设计:设计适合旋转目标检测的损失函数,可以考虑引入旋转IoU(Intersection over Union)作为目标检测的评价指标。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [YOLOv8/YOLOv7/YOLOv5/YOLOv4/Faster-rcnn系列算法改进【NO.66】改进为旋转目标框检测](https://blog.csdn.net/m0_70388905/article/details/130178537)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *3* [Yolov8 引入ICCV 2023 | 南开大学提出LSKNet:遥感旋转目标检测SOTA | 助力backbone](https://blog.csdn.net/m0_63774211/article/details/131933263)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值