yolov9:使用可编程梯度信息学习你想学习的内容

摘要:

    现在的深度学习主要关注于如何设计最合适的目标函数,使得模型的预测结果能够最接近真实情况。同时,必须设计一个适当的架构,可以帮助获取足够的信息进行预测。现在的方法活路了一个事实,当输入的数据经过逐层的特征提取和空间变换之后,大量的信息就会丢失。本文研究数据通过深度网络传输时数据丢失的重要问题,提出可编程梯度信息(PGI)来应对深度网络实现多个目标所需的各种变换。PGI可以为目标任务计算目标函数提供完整的输入信息,从而获得可靠的梯度信息来更新网络权值。此外,还设计了一种基于梯度路径规划的新型轻量化网络架构——高效层聚合网络(GELAN)。GELAN架构证实了PGI在轻量化模型上取得了优异的结果。

  结果表明:与基于深度卷积开发的最先进方法相比,GELAN仅仅使用传统的卷积算子就可以实现更好的参数利用率。PGI可用于从轻型到大型的各种模型,来获取完整的信息。代码可在

https: //github.com/WongKinYiu/yolov9。上获取

1、引言:

    基于深度学习的模型在计算机视觉、语言处理和语音识别等各个领域都表现出了远优于过去人工智能系统的性能。近几年 ,深度学习的研究者都在关注如何开发出更加有力的系统结构和学习方式,例如CNNs、transformer、Perceivers和Mambas。此外还有损失函数,例如损失函数、标签分配和辅助监督。上述研究都试图精确地找到输入和目标任务之间的映射。但是大多数过去的方法都忽略了输入数据在前馈过程中可能产生不可忽略的信息丢失。这种信息丢失可能会导致梯度流有偏差,随后用于更新模型。 上述问题可能导致深度网络在目标和输入之间建立不正确的关联,从而导致训练后的模型产生不正确的预测。

      在深度网络中,输入数据在前馈过程中丢失信息的现象俗称信息瓶颈,其示意图如图2所示。目前可以缓解这种现象的主要方法有: :(1)可逆架构的使用:该方法主要使用重复的输入数据,并以显式的方式维护输入数据的信息; (2)使用masked建模:主要利用重构损失,采用隐式方式最大化提取特征并保留输入信息; (3)引入深度监督概念]:它利用没有丢失太多重要信息的浅层特征来预先建立从特征到目标的映射,以确保重要信息能够被传递 到更深的层次。 然而,上述方法在训练过程和推理过程中都存在不同的缺点。 例如,可逆架构需要额外的层来组合重复馈送的输入数据,这将显着增加推理成本。此外,由于输入数据层到输出层不能有太深的路径,这种限制将导致在训练过程中难以对告诫语义信息进行建模,对于掩膜建模,其重构损失有时与目标损失相互冲突,此外大多数掩码机制还会产生与数据不正确的关联,对于深度监督机制来讲,会产生误差的累积,如果浅层监督在训练过程中丢失信息,后续层将无法检索到所需要的信息。上述问题在困难任务和小模型上面会更加显著。

     为了解决上述问题,我们提出了一个新的概念,即可编​​程梯度信息(PGI)。 其概念是通过辅助可逆分支生成可靠的梯度,使得深层特征仍然能够保持执行目标任务的关键特征。 辅助可逆分支的设计可以避免传统的融合多路径特征的深度监督过程可能造成的语义损失。 换句话说,我们在不同语义层面上编程梯度信息传播,从而达到最佳的训练结果。PGI的可逆架构建立在辅助分支上,因此没有额外的成本。由于PGI可以自由选择适合目标任务的损失函数,因此克服了掩膜建模所遇到的问题。所提出的PGI机制可以应用于各种规模的深度神经网络,并且比仅适用于非常深的神经网络的深度监督机制更加通用。并且基于ELAN设计实现了广义ELAN(GELAN),GELAN的设计同时考虑了参数数量、计算复杂度、准确性和推理速度,这种设计允许用于针对不同的推理设备任意选择合适的计算块,将PGI和GELAN结合在一起,然后设计了新一代YOLO系列物体检测系统,我们称之为YOLOv9。 我们使用MS COCO数据集进行实验,实验结果验证了我们提出的YOLOv9在所有比较中都取得了最佳性能。

    本文的贡献总结如下:
    1、我们从可逆函数的角度对现有的深度神经网络架构进行了理论分析,通过这个过程我们成功地解释了许多过去难以解释的现象。 我们还基于此分析设计了PGI和辅助可逆分支,并取得了优异的结果。

    2、我们设计的PGI解决了深度监督只能用于极深神经网络架构的问题,从而让新的轻量级架构真正应用于日常生活中。

    3、我们设计的GELAN仅仅使用常规卷积来实现比基于最先进的深度卷积设计出更加高效的参数利用率,同时表现出轻、快速、准确的巨大优势。

   4、结合所提出的PGI和GELAN,YOLOv9在MS COCO数据集上的目标检测性能在各个方面都大大超过了现有的实时目标检测器。

2、相关工作

2.1 实时物体探测器

      目前主流的实时目标检测器是YOLO系列,使用CSPNet或者ELAN及其变体作为主要的计算单元,在特征集成方面,使用PAN和FPN。然后使用改进的YOLOv3头部或者Focus作为预测头。

RT-DETR是基于DETR,但是由于DETR系列目标检测器在没有相应领域预训练模型的情况下很难应用于新领域,因此目前应用最广泛的实时目标检测器仍然是YOLO系列。本文选择 YOLOv7 [63] 作为开发该方法的基础,该方法已在各种计算机视觉任务和各种场景中被证明有效。 我们使用 GELAN 来改进所提出的 PGI 的架构和训练过程。 上述新颖方法使所提出的 YOLOv9 成为新一代顶级实时目标检测器。

2.2 可逆架构

     可逆架构的运算单元必须保持可逆转换的特性,因此可以保证每层运算单元的输出特征图都能保留完整的原始信息。之前,RevCol[3]将传统的可逆单元推广到多个层次,这样做可以扩展不同层单元表达的语义层次。 通过对各种神经网络架构的文献回顾,我们发现有许多高性能架构具有不同程度的可逆特性。 例如,Res2Net模块[11]以分层方式将不同的输入分区与下一个分区组合起来,并在向后传递之前连接所有转换后的分区。 CBNet [34, 39]通过复合主干网重新引入原始输入数据以获得完整的原始信息,并通过各种组合方法获得不同级别的多级可逆信息。 这些网络架构通常具有出色的参数利用率,但额外的复合层导致推理速度缓慢。 DynamicDet [36]结合了CBNet [34]和高效实时目标检测器YOLOv7 [63],在速度、参数数量和精度之间实现了非常好的权衡。 本文介绍了 DynamicDet 架构作为设计可逆分支的基础。 此外,可逆信息被进一步引入到所提出的PGI中。 所提出的新架构在推理过程中不需要额外的连接,因此可以充分保留速度、参数量和准确性的优势。

2.3 辅助监管

      深度监督[28,54,68]是最常见的辅助监督方法,它通过在中间层插入额外的预测层来进行训练。 尤其是基于变压器的方法中引入的多层解码器的应用是最常见的一种。 另一种常见的辅助监督方法是利用相关元信息来指导中间层产生的特征图,并使它们具有目标任务所需的属性[18,20,24,29,76]。 这种类型的示例包括使用分割损失或深度损失来提高对象检测器的准确性。 最近,文献[53,67,82]中有许多报告使用不同的标签分配方法来生成不同的辅助监督机制,以加快模型的收敛速度,同时提高鲁棒性。 然而,辅助监督机制通常只适用于大型模型,因此当其应用于轻量级模型时,很容易造成欠参数化现象,从而使性能变差。 我们提出的PGI设计了一种重新编程多级语义信息的方法,这种设计让轻量级模型也受益于辅助监督机制。

3、问题陈述

     深度网络难以收敛的困难归因于是:梯度消失或者梯度饱和。但是现在的神经网络通过设计归一化和激活函数解决了这一问题。但是,深度网络仍然存在收敛速度慢或者收敛结果差的问题。本文通过信息瓶颈分析,推断出这个问题的根本:很深网络的初始梯度在传输后很快就丢失了实现目标所需的大量信息

      为了证实这一推论,我们将不同架构的深度网络前馈了初始权重,然后将其可视化并在图2中进行说明。显然,PlainNet丢失了深层物体检测所需的大量重要信息。 至于ResNet、CSPNet、GELAN能够保留重要信息的比例,确实与训练后能够获得的准确率呈正相关。 我们进一步设计了基于可逆网络的方法来解决上述问题的原因。 本节我们将详细阐述对信息瓶颈原理和可逆函数的分析。

    

 图 2. 不同网络架构的随机初始权重输出特征图的可视化结果:(a) 输入图像、(b) PlainNet、(c) ResNet、(d) CSPNet 和 (e) 提出的 GELAN。 从图中我们可以看到,在不同的架构中,提供给目标函数计算损失的信息都有不同程度的丢失,而我们的架构能够保留最完整的信息,为计算目标函数提供最可靠的梯度信息 。

3.1 信息瓶颈原理

     根据信息瓶颈原理,我们知道数据X在进行变换时可能会导致信息丢失,如式(1)所示。 1 如下:

其中 I 表示互信息,f 和 g 是变换函数,θ 和\Phi 分别是 f 和 g 的参数。

     在深度网络中,f(\Theta )g(\Phi )分别表示深度网络中两个连续层的操作。从1中随着网络深度的逐渐加深原始数据丢失的可能性就会越大但是深度网络的参数是基于网络的输出和给定的目标,通过计算损失函数生成新的梯度来更新网络的。可以想象,更深的神经网络的输出不太能够保留有关预测目标的完整信息。 这将使得在网络训练时使用不完整的信息成为可能,导致梯度不可靠和收敛性差。

     解决上面问题的一种直接的方法是增加网络模型的尺寸,当使用大量的参数来构建模型的时候,它更有能力对数据进行完整的转换。 上述方法使得即使在数据前馈过程中信息丢失,仍然有机会保留足够的信息来执行到目标的映射。 上述现象解释了为什么在大多数现代模型中宽度比深度更重要。 然而,上述结论并不能从根本上解决非常深的神经网络中梯度不可靠的问题。 下面,我们将介绍如何利用可逆函数来解决问题并进行相关分析。

3.2 可逆函数

    当函数r有一个逆变换函数v时,我们称该函数为可逆函数,如式(2)所示:

其中 ψ 和 ζ 分别是 r 和 v 的参数。 数据X通过可逆函数转换而不会丢失信息,如式(3)所示。

     当网络的变换函数由可逆函数组成时可以获得更可靠的梯度来更新模型。 当今流行的深度学习方法几乎都是符合可逆性质的架构,例如式(4):

     其中l表示PreAct ResNet的第l层,f是第l层的变换函数。 PreAct ResNet [22] 以显式方式重复将原始数据 X 传递到后续层。 这样的设计虽然可以让千层以上的深度神经网络收敛得很好,但却破坏了我们需要深度神经网络的一个重要原因。 也就是说,对于困难的问题,我们很难直接找到简单的映射函数将数据映射到目标。 这也解释了为什么当层数较少时,PreAct ResNet 的性能比 ResNet [21] 差。

    此外,我们尝试使用掩模建模,使 Transformer 模型取得重大突破。 我们使用近似方法,例如方程。 5、尝试求r的逆变换v,使得变换后的特征能够利用稀疏特征保留足够的信息。 方程的形式 5如下:

     其中 M 是动态二进制掩码。 其他常用于执行上述任务的方法是扩散模型和变分自动编码器,它们都具有查找反函数的功能。 然而,当我们将上述方法应用于轻量级模型时,就会存在缺陷,因为轻量级模型对大量原始数据的参数化不足。 由于上述原因,将数据X映射到目标Y的重要信息I(Y,X)也会面临同样的问题。 对于这个问题,我们将使用信息瓶颈的概念来探讨它[59]。 信息瓶颈的计算公式如下:

    

     一般来说,I(Y,X)只会占据I(X,X)的很小一部分。 然而,这对于目标任务至关重要。 因此,即使前馈阶段丢失的信息量并不大,只要覆盖了I(Y,X),训练效果就会受到很大影响。 轻量级模型本身处于欠参数化状态,因此在前馈阶段很容易丢失很多重要信息。 因此,我们轻量级模型的目标是如何从 I(X,X) 中准确过滤出 I(Y,X)。 至于完全保留X的信息,这是很难实现的。 基于上述分析,我们希望提出一种新的深度神经网络训练方法,不仅能够生成可靠的梯度来更新模型,而且适用于浅层和轻量级神经网络。

   

图 3. PGI 及相关网络架构和方法。 (a)路径聚合网络(PAN))[37],(b)可逆列(RevCol)[3],(c)传统深度监督,以及(d)我们提出的可编程梯度信息(PGI)。 PGI主要由三个部分组成:(1)主分支:用于推理的架构,(2)辅助可逆分支:生成可靠的梯度,为主分支提供向后传输,(3)多级辅助信息:控制主分支 学习可规划的多层次语义信息。

4 方法

4.1 可编程梯度信息

     为了解决上述问题,我们提出了一种新的辅助监督框架,称为可编程梯度信息(PGI),如图3(d)所示。 PGI主要包括三个组成部分,即(1)主分支,(2)辅助可逆分支,(3)多级辅助信息。 从图3(d)中我们可以看出,PGI的推理过程仅使用主分支因此不需要任何额外的推理成本。 至于其他两个组件,它们用于解决或减缓深度学习方法中的几个重要问题。 其中,辅助可逆分支是为了处理神经网络加深带来的问题而设计的。 网络加深会造成信息瓶颈,导致损失函数无法生成可靠的梯度 对于多级辅助信息旨在处理深度监督带来的误差累积问题,特别是针对多个预测分支的架构和轻量级模型。 接下来我们将逐步介绍这两个组件。

  4.1.1 辅助可逆分支

     在PGI中,我们提出了辅助可逆分支生成可靠的梯度并更新网络参数。 通过提供从数据映射到目标的信息,损失函数可以提供指导并避免从与目标不太相关的不完整前馈特征中发现错误相关性的可能性。我们通过引入可逆架构来维护完整的信息,但是在可逆架构中添加主成分分支会消耗大量的推理成本。我们分析了图3(b)的架构,发现当添加从深层到浅层的额外连接时,推理时间将增加20%。 当我们反复将输入数据添加到网络的高分辨率计算层(黄色框)时,推理时间甚至超过了两倍。

     由于我们的目标是使用可逆架构来获得可靠的梯度,因此“可逆”并不是推理阶段的唯一必要条件。 鉴于此,我们将可逆分支视为深度监督分支的扩展,然后设计辅助可逆分支,如图3(d)所示。 对于由于信息瓶颈而丢失重要信息的主分支深度特征,它们将能够从辅助可逆分支接收可靠的梯度信息。 这些梯度信息将驱动参数学习来协助提取正确且重要的信息,上述动作可以使主分支获得对目标任务更有效的特征。 此外,可逆架构在浅层网络上的表现比在一般网络上差,因为复杂的任务需要在更深的网络中进行转换。 我们提出的方法并不强迫主分支保留完整的原始信息,而是通过辅助监督机制生成有用的梯度来更新它。 这种设计的优点是所提出的方法也可以应用于较浅的网络。

    最后,由于在推理阶段可以去除辅助可逆分支,因此可以保留原始网络的推理能力。 我们也可以选择PGI中的任意可逆架构来起到辅助可逆分支的作用。

4.1.2 多级辅助信息

    在本节中,我们将讨论多级辅助信息如何工作。 包括多个预测分支的深度监督架构如图 3 (c) 所示。 对于目标检测,不同的特征金字塔可用于执行不同的任务,例如它们一起可以检测不同大小的目标。 因此,连接到深度监督分支后,会引导浅层特征学习小物体检测所需的特征,此时系统会将其他尺寸的物体的位置视为背景。 然而,上述行为会导致深层特征金字塔丢失大量预测目标对象所需的信息。 关于这个问题,我们认为每个特征金字塔都需要接收所有目标对象的信息,以便后续的主分支可以保留完整的信息来学习对各种目标的预测。

       多级辅助信息的概念是在辅助监督的特征金字塔层次层和主分支之间插入一个集成网络,然后用它来组合来自不同预测头的返回梯度,如图3(d)所示。 多级辅助信息则是将包含所有目标物体的梯度信息聚合起来,传递给主分支,然后更新参数。 此时,主分支特征金字塔层次结构的特征将不再受某些特定对象信息的支配。 因此,我们的方法可以缓解深度监督中的信息损坏问题。 此外,任何综合网络都可以用于多级辅助信息。 因此,我们可以规划所需的语义级别来指导不同规模的网络架构的学习。

4.2 GELAN

       在本节中,我们将描述所提出的新网络架构——GELAN。 通过结合采用梯度路径规划设计的两种神经网络架构CSPNet [64]和ELAN [65],我们设计了兼顾轻量级、推理速度和准确性的广义高效层聚合网络(GELAN)。 其整体架构如图 4 所示。我们将最初仅使用卷积层堆叠的 ELAN [65] 的功能推广到可以使用任何计算块的新架构。

5 实验

5.1 实验设置

     我们使用 MS COCO 数据集验证了所提出的方法。 所有实验设置均遵循 YOLOv7 AF [63],而数据集为 MS COCO 2017 分割。 我们提到的所有模型都是使用从头开始训练策略进行训练的,总训练次数为 500 epoch。 在设置学习率时,我们在前三个epoch中使用线性预热,随后的epoch根据模型规模设置相应的衰减方式。 至于最后 15 个时期,我们关闭马赛克数据增强。 更多设置请参考附录。

5.2 部署细节

        我们分别基于YOLOv7 [63]和Dynamic YOLOv7 [36]构建了YOLOv9的通用版本和扩展版本。 在网络架构的设计中,我们使用 CSPNet 块 [64] 和计划的 RepConv [63] 作为计算块,用 GELAN 替换了 ELAN [65]。 我们还简化了下采样模块并优化了无锚预测头。 至于PGI的辅助损失部分,我们完全遵循YOLOv7的辅助头设置。 详情请参阅附录。

5.3 与最先进的技术相比较

        表 1 列出了我们提出的 YOLOv9 与其他从头开始训练的实时目标检测器的比较。 总体而言,现有方法中性能最好的方法是用于轻量级模型的 YOLO MS-S [7]、用于中型模型的 YOLO MS [7]、用于通用模型的 YOLOv7 AF [63] 和用于大型模型的 YOLOv8-X [15]。 与轻量级和中型模型YOLO MS[7]相比,YOLOv9的参数减少了约10%,计算量减少了5∼15%,但AP仍然有0.4∼0.6%的提升。 与 YOLOv7 AF 相比,YOLOv9-C 的参数减少了 42%,计算量减少了 22%,但达到了相同的 AP(53%)。 与YOLOv8-X相比,YOLOv9-E参数减少16%,计算量减少27%,AP显着提升1.7%。 上述对比结果表明,我们提出的YOLOv9与现有方法相比在各方面都有显着改进。

        另一方面,我们也将ImageNet预训练模型纳入对比,结果如图5所示。我们分别根据参数和计算量进行比较。 就参数数量而言,性能最好的大型模型是 RT DETR [43]。 从图5中我们可以看到,使用传统卷积的YOLOv9在参数利用率上甚至比使用深度卷积的YOLO MS还要好。 至于大型模型的参数利用率,也大大超过了使用ImageNet预训练模型的RT DETR。 更棒的是,在深度模型中,YOLOv9展示了使用PGI的巨大优势。 通过准确保留和提取将数据映射到目标所需的信息,我们的方法仅需要 66% 的参数,同时保持 RT DETR-X 的精度。

 图 5. 最先进的实时物体检测器的比较。 参与对比的方法均采用ImageNet作为预训练权重,包括RT DETR [43]、RTMDet [44]、PP-YOLOE [74]等。采用train-from-scratch方法的YOLOv9明显超越了 其他方法的性能。

        至于计算量,现有最好的模型从最小到最大依次是YOLO MS [7]、PP YOLOE [74]和RT DETR [43]。 从图5中我们可以看到,YOLOv9在计算复杂度方面远远优于从头开始训练的方法。 另外,如果与基于深度卷积和基于ImageNet的预训练模型相比,YOLOv9也很有竞争力。

5.4 消融实验

5.4.1 广义ELAN

        对于 GELAN,我们首先对计算模块进行消融研究。 我们分别使用Res块[21]、Dark块[49]和CSP块[64]进行实验。 表2表明,用不同的计算块替换ELAN中的卷积层后,系统可以保持良好的性能。 用户确实可以自由更换计算块并在各自的推理设备上使用它们。 在不同的计算块替换中,CSP 块的性能特别好。 它们不仅减少了参数量和计算量,而且将 AP 提高了 0.7%。 因此,我们选择CSPELAN作为YOLOv9中GELAN的组成单元

       接下来,我们对不同尺寸的GELAN进行ELAN块深度和CSP块深度实验,并将结果显示在表3中。我们可以看到,当ELAN的深度从1增加到2时,精度显着提高。 但当深度大于等于2时,无论是提高ELAN深度还是CSP深度,参数数量、计算量和精度总是呈现线性关系。 这意味着 GELAN 对深度不敏感。 也就是说,用户可以任意组合GELAN中的组件来设计网络架构,无需特殊设计即可拥有性能稳定的模型。 在表3中,对于YOLOv9-{S,M,C},我们将ELAN深度和CSP深度的配对设置为{{2, 3}, {2, 1}, {2, 1}}。

5.4.2 可编程梯度信息

       在PGI方面,我们分别对脊柱和颈部的辅助可逆分支和多级辅助信息进行了消融研究。 我们设计了辅助可逆分支ICN来使用DHLC[34]链接来获取多级可逆信息。 对于多级辅助信息,我们使用FPN和PAN进行消融研究,PFH的作用相当于传统的深度监督。 所有实验的结果列于表4中。从表4中我们可以看出,PFH仅在深度模型中有效,而我们提出的PGI可以在不同组合下提高精度。 尤其是使用ICN时,我们得到了稳定且更好的结果。 我们还尝试将YOLOv7[63]中提出的lead-head指导分配应用于PGI的辅助监督,并取得了更好的性能。

       我们进一步将PGI和深度监督的概念应用到不同规模的模型上,并比较结果,结果如表5所示。正如一开始分析的那样,深度监督的引入会导致浅层模型精度的损失。 对于一般模型来说,引入深度监督会导致性能不稳定,而深度监督的设计理念只能在极深的模型中带来收益。 所提出的PGI可以有效处理信息瓶颈和信息破碎等问题,并且可以全面提高不同规模模型的准确性。 PGI 的概念带来了两个宝贵的贡献。 第一个是让辅助监督方法适用于浅层模型,第二个是让深层模型训练过程获得更可靠的梯度。 这些梯度使深度模型能够使用更准确的信息来建立数据和目标之间的正确相关性。

        最后,我们在表中显示了从基线 YOLOv7 到 YOLOv9E 逐渐增加组件的结果。 我们提出的GELAN和PGI给模型带来了全面的改进。

5.5 

       本节将探讨信息瓶颈问题并将其可视化。 此外,我们还将可视化所提出的 PGI 如何使用可靠的梯度来找到数据和目标之间的正确相关性。 在图6中,我们展示了在不同架构下使用随机初始权重作为前馈获得的特征图的可视化结果。 我们可以看到,随着层数的增加,所有架构的原始信息逐渐减少。 例如,在PlainNet的第50层,很难看到物体的位置,并且所有可区分的特征将在第100层丢失。 对于ResNet,虽然在第50层仍然可以看到物体的位置,但边界信息已经丢失。 当深度达到第100层时,整个图像变得模糊。 CSPNet 和提出的 GELAN 都表现得非常好,并且它们都可以保持支持清晰识别对象的特征直到第 200 层。 其中GELAN的结果更稳定,边界信息更清晰。

图 6. PlainNet、ResNet、CSPNet 和 GELAN 在不同深度处随机初始权重输出的特征图(可视化结果)。 100 层后,ResNet 开始产生足以混淆对象信息的前馈输出。 我们提出的 GELAN 直到第 150 层仍然可以保留相当完整的信息,并且直到第 200 层仍然具有足够的辨别力。

图 7. 经过 1 个周期的偏置预热后,GELAN 和 YOLOv9 (GELAN + PGI) 的 PAN 特征图(可视化结果)。 GELAN原本有一定发散性,但加入PGI的可逆分支后,更能聚焦目标物体。

       图7用于展示PGI是否可以在训练过程中提供更可靠的梯度,使得用于更新的参数能够有效捕获输入数据与目标之间的关系。 图7显示了GELAN和YOLOv9(GELAN + PGI)的特征图在PAN偏置预热中的可视化结果。 从图7(b)和(c)的比较中,我们可以清楚地看到PGI准确而简洁地捕获了包含对象的区域。 对于不使用PGI的GELAN,我们发现它在检测物体边界时存在发散,并且在某些背景区域也产生了意想不到的响应。 这个实验证实了PGI确实可以提供更好的梯度来更新参数,并使主分支的前馈阶段能够保留更重要的特征。

6 结论

       在本文中,我们提出使用PGI来解决信息瓶颈问题以及深度监督机制不适合轻量级神经网络的问题。 我们设计了 GELAN,一个高效、轻量级的神经网络。 在物体检测方面,GELAN在不同的计算块和深度设置下都具有强大且稳定的性能。 它确实可以广泛扩展为适合各种推理设备的模型。 针对以上两个问题,PGI的引入使得轻量级模型和深度模型都获得了精度的显着提升。 PGI和GELAN相结合设计的YOLOv9已经展现出强大的竞争力。 其出色的设计使得深度模型相比YOLOv8减少了49%的参数数量和43%的计算量,但在MS COCO数据集上仍然有0.6%的AP提升。

7 致谢

     作者衷心感谢国家高性能计算中心 (NCHC) 提供的计算和存储资源。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值