目标检测-YOLOv9之PGI可编程梯度信息

张飞飞飞飞飞

已于 2024-04-22 19:00:34 修改

阅读量1.5k

点赞数 17

分类专栏：目标检测文章标签：目标检测人工智能计算机视觉

于 2024-04-22 18:31:54 首次发布

本文链接：https://blog.csdn.net/weixin_49824703/article/details/138086870

版权

目标检测专栏收录该内容

29 篇文章

订阅专栏

论文链接： YOLOv9: Learning What You Want to Learn Using Programmable Gradient

代码链接：GitHub - WongKinYiu/yolov9: Implementation of paper - YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

YOLOv4-YOLOv7-YOLOv9的作者是同一人，因此YOLOv9是继承的YOLOv7，而不是YOLOv8.

PGI（Programmable Gradient Information）

YOLOv9中的PGI（Programmable Gradient Information，可编程梯度信息）模块是为了解决深度学习目标检测网络在训练过程中遇到的信息丢失问题而设计的。在深度神经网络的训练中，梯度信息对于指导网络参数的更新至关重要，但是随着网络深度的增加，输入数据在前向传播过程中不可避免地会出现信息损失，导致深层特征难以保留浅层特征中的一些重要信息，这被称为信息瓶颈问题。此外，梯度消失问题也会导致深层网络难以得到有效训练。

PGI模块的核心思想是通过引入辅助监督信号，为主干网络提供额外的梯度信息，从而纠正和增强原有的梯度。PGI包含以下几个关键组件：

主干网络：即原始的目标检测网络，如YOLOv9中的GELAN结构，负责提取特征并生成检测结果。
辅助可逆分支：一个附加的网络分支，与主干网络并行。可逆分支的目的是在不增加推理成本的情况下，为主干网络提供额外的梯度信息。可逆分支通过可逆操作（如加法、乘法等）将浅层特征融合到深层特征中，从而缓解信息瓶颈问题。
多级辅助监督：在可逆分支的不同层级上引入辅助监督信号，如FPN loss和PAN loss。这些辅助损失函数提供了额外的梯度信息，帮助模型更好地学习多尺度特征。