mAPm: multi-scale Attention Pyramid module forEnhanced scale-variation in RLD detection【文献自读】

摘要:检测不同尺度的物体是计算机视觉的一个重要挑战,特别是在水稻叶病(RLD)检测等任务中,物体表现出相当大的尺度变化。传统的目标检测方法往往难以解决这些变化,导致漏检或精度下降。在这项研究中,我们提出了多尺度注意金字塔模块(mAPm),这是一种将扩张卷积集成到特征金字塔网络(FPN)中以增强多尺度信息提取的新方法。此外,我们结合了全局多头自注意力(MHSA)机制和反卷积层来细化上采样过程。我们使用 MRLD 和 COCO 数据集评估 YOLOv7 上的 mAPm。与普通FPN、BiFPN、NAS-FPN、PANet和ACFPN相比,mAPm在平均精度(AP)方面取得了显著的改进,MRLD数据集上比基线FPN方法提高了+2.61%。这证明了它在处理尺度变化方面的有效性。此外,mAPm的多功能性使其能够集成到各种基于fpn的目标检测模型中,展示了它推进目标检测技术的潜力。

关键词:注意力机制、特征金字塔网络、目标检测、尺度变化。

1.introduction

尽管目标检测在计算机视觉(CV)中取得了成功,但在任务目标和约束方面仍然面临着一些真正的挑战。一个这样的问题是尺度变化,因为对象检测器需要检测不同尺度的对象[1]。尺度变化可以是对象大小或框纵横比的变化。例如,对象在来自不同距离的相机中查看,这会导致对象边界框的变化,而一些对象可能非常平坦或薄(叶子、刀、叉、水墨棒等)。本质上,对象以任意大小出现,从整个图像到几个像素。即使在最有效的对象检测器[2]中,在这个范围内对对象的广泛搜索也提出了重大挑战。这一挑战在我们的特定场景中尤为明显,其中目标检测必须识别水稻叶病(RLD),特别是开放的领域。为了以简单性和特异性解决这个问题,我们集中精力来增强 YOLOv7 [3] 对象检测尺度变化。如果 RLD 检测中没有正确解决尺度变化,则会导致漏检、误报并降低整体精度 [4]。例如,如果一个对象检测器被设计为只检测一定大小的对象,它可能会错过检测器接受域之外更小或更大的对象。或者,如果检测器被设计为检测不同大小的对象,则检测特定形状的对象可能不太准确。为了增强RLD检测对象的尺度变化,我们的目标是提高目标检测算法的精度和鲁棒性,使我们能够准确地检测和分类图像中不同大小和形状的对象。这具有重要的实际应用,例如农业疾病监测、遥感、监视和灾害响应,其中准确的目标检测对于决策和响应规划至关重要。

图1所示。显示了由于对象特征的变化而面临基线FPN的挑战,导致漏检,如(a)所示。相比之下,我们的方法增强了缩放变化,在检测中实现了 25% 的平均精度,如 (b) 所示。在图中,白色锚点代表ground-truth注释,红色锚点表示预测边界框。

图 2 显示了基线 FPN 的准确性降低,如 (a) 所示。然后,我们的方法提高了尺度变化,从而提高了精度,如 (b) 所示。请注意,白色锚点代表ground-truth注释,而红色锚点表示预测的b-box。

以前的FPN模块已经被提出来处理目标检测早期尺度变化的挑战,一种方法是在不同的尺度上使用图像pyram-mid[5]来检测对象,但由于大量的图像,它是内存和计算消耗的。另一种方法是使用特征金字塔 [6],由于特征图更接近具有低级结构的图像,在实践中对于准确检测无效。更先进的方法是使用YOLOv3中引入的特征金字塔网络(FPN)[7]来提高尺度变化,该方法作为能够生成多尺度特征图的特征提取器,然后将信息与相应的特征级别相结合,形成输出特征映射。这种重复的过程

结合浅层和深层的位置和丰富的语义信息,显著提高了YOLOv3[8]、Faster R-CNN[9]和SSD[10]在一定尺度上的性能,但在极小或更大的尺度上表现不佳。这是因为FPN的工作机制不能有效地利用其特征映射来预测ap-propriate对象大小。这导致了PANET[11]、NeuralArchitecture Search Feature Pyramid Network (NAS-FPN)[12]、双向特征金字塔网络(BiFPN)[13]和ASPP[14]等进一步增强的设计。虽然这些以前的设计是为通用应用程序开发的,但我们的方法是独特的,以解决 RLD 检测中尺度变化的问题。多尺度注意金字塔模块(mAPm)的设计是必不可少的,因为它使我们能够利用FPN的全部潜力来解决一个仍然具有挑战性的问题

mAPm通过在FPN自顶向下路径的横向连接中以不同的比率用扩展卷积替换传统的卷积来增强特征映射提取。这种修改有效地捕获了不同尺度的特征。此外,我们通过集成两个关键组件来细化上采样过程:全局 MHSA [15] 机制和反卷积层。虽然MHSA机制通过关注重要特征来提高网络性能,同时淡播放不太重要的特征[15],但反卷积层有助于提高空间分辨率,从而保留细粒度的信息。

本研究引入了mAPm,一种新颖的自注意FPN模块,旨在增强RLD检测的尺度变化,主要用于YOLOv7[3]架构,尽管适用于Faster R-CNN[9]、SSD[10]和retinaNet[16]等其他框架。通过集成自注意力机制和空洞卷积,该模块有效地捕获全局上下文,解决了在 RLD 场景中遇到的不同尺度的检测对象的挑战。通过定性和定量评估,与最先进的 FPN 模块相比,我们提出的模块展示了 han-dling 尺度变化的显着改进。

本文的贡献总结如下:

• 我们提出了一种新的 FPN 设计,称为 mAPm,它利用自注意力机制来增强自上而下路径中特征图上采样期间语义信息的保存。

• 我们巧妙地将空洞卷积集成到横向连接中,使用膨胀率在多个尺度上捕获特征。这种方法有助于在更大的上下文中同时捕获细粒度的细节,使mAPm模块能够有效地解决尺度变化。

•在使用RLD数据集进行测试时,mAPm显著提高了目标检测模型的检测性能。结果表明,定性和定量评价后性能有了显著提高。

•mAPm模块是通用的,可以集成到各种对象检测架构中,这些架构使用FPN,而不需要重大的架构更改。这种兼容性可以使研究人员或开发人员轻松增强现有模型。

2.Related work

在本节中,我们探讨了用于目标检测的多尺度变化技术的演变和最新进展。我们回顾了随着时间的推移而演变的各种方法,每种方法在适应计算机视觉的动态景观的同时提供了明显的优势和应用。

单层方法。这些方法涉及在对象检测中进行预测的所有级别上独立处理尺度变化。在本节中,我们概述了这些方法

饱和图像金字塔(FIP)广泛应用于手工设计的特征时代,用于多尺度目标检测[7]。它构建了一个分层图像表示,每个金字塔级别代表不同尺度的图像。使用尺度不变特征变换 (SIFT) [17] 或定向梯度直方图 (HOG) [18] 等算法从每个级别中提取特征,并用于训练特定于尺度的对象检测器。这种方法使检测器能够搜索不同尺度和方向的物体,提高精度,但鲁棒性较差,计算效率低,速度慢。虽然随着深度学习的兴起,它在很大程度上被数据驱动技术所取代,但它在特定场景中仍然相关。

单特征图 (SFP) [5] 方法,它是 FIP 方法的扩展,旨在使用单个特征图在多个尺度上检测对象。它通过使用卷积滤波器和池化操作来逐步降低特征图的分辨率来实现这一点。随后,针对不同尺度的专门对象检测器在此地图上操作以识别不同大小的对象。SFP 因其简单性和效率而被识别,与 FIP 方法相比需要更少的计算资源。这种效率源于它对单个特征图的操作,促进了与深度学习架构的无缝集成。然而,SFP 需要仔细调整过滤器和池化操作以确保适当的分辨率和感受野。这一要求使其不太适合高度可变的尺度场景,例如大型开放农场,其中不同大小的对象很普遍。

另一种方法,金字塔特征层次结构 (PFH) 方法 [6] 通过分层神经网络架构解决尺度变化。PFH 分层学习特征,高级特征源自较低级别的特征。它由多层组成,每一层都负责在不同抽象级别提取特征。在最低级别,卷积神经网络 (CNN) 处理输入图像,提取低级特征,例如边缘和角落。然后,这些特征通过池化层,逐步降低分辨率并增加网络的感受野。这种分层过程在较高的级别上继续,从而能够学习对尺度、旋转和平移不变的特征。PFH 使用交叉熵损失等目标进行端到端训练,并表现出卓越的性能,在各种计算机视觉任务中。此外,空间Py-amid Pooling (SPP)[19]和FPN等扩展及其变体进一步扩大了其能力。

多层方法。值得注意的是,这些方法结合了多个检测层来提高目标检测的尺度变化。通过将低分辨率特征与更高分辨率的地图合并,它创建了一个特征金字塔,其中包含所有级别的有价值的语义内容。该方法无需牺牲信息、处理速度或内存使用太多即可有效地构建图像金字塔。

特征金字塔网络(FPN)。为了提高尺度变化,Lin等人[7]提出了一种用于多尺度目标检测的FPN多层方法,证明了它在处理尺度变化和增强检测精度方面的有效性。多层FPN设计的最新进展引入了几种创新的方法来提高尺度变化,提高目标检测精度。Tan等人介绍了BiFPN[13],它有效地解决了计算成本,提高了EfficientDet体系结构中多尺度特征图的融合,实现了精度和计算效率之间的平衡[20]。同时,通过自动架构搜索技术开发的 NAS-FPN [12] 提出了一种新颖的特征金字塔结构,可以提高性能,尽管内存需求增加 [21]。PANet,特别是在实例分割的背景下,被识别用于FPN内的自底向上路径增强,将低级信息流增强到高级阶段,导致更精确的对象定位[22]。

最近出现的自我注意促使研究人员探索这种机制,以提高尺度变化,因为它在捕获远程和全局上下文方面的优势。这导致了一些工作。Hu等人[23]提出了一种基于意图聚合的特征金字塔网络A2-FPN实例分割。通过解决传统FPN的局限性,A2-FPN通过注意力引导聚合技术改进了多尺度特征学习。他们的方法始终如一地增强了各种框架的性能,在集成到 Mask R-CNN 和其他强大的基线模型时,maskAP 的显着改进。曹等人。 [24] 引入了 ACFPN,这是一种注意力引导的上下文特征金字塔网络,用于对象检测。它通过整合注意力引导的多路径特征来解决在高分辨率输入上平衡特征图分辨率和感受野的挑战。ACFPN 由两个模块组成:上下文提取模块 (CEM) 和注意力引导模块 (AM),显着提高了目标检测和实例分割性能。

虽然已经有一些工作集成了自我注意机制来改进fpn,但探索受到了限制。我们的目标是通过展示它们在与扩张卷积集成时的潜力来探索增强 FPN 中尺度变化的注意力机制。具体来说,我们将增强 YOLOv7 中的尺度变化以进行 RLD 检测。

3.Method and Tools

3.1yolov7

YOLO是一种典型的单阶段目标检测方法,即同时执行定位和分类,与使用RPN(RegionProposal Network)的两阶段方法相比,该方法显著提高了计算成本。这种独特的设计选择使得 YOLO 在训练和推理时间更快,因此非常适合实时目标检测任务。在实时检测中,YOLO 使用 FPN 在三个级别检测各种尺度的目标对象,每个级别分别使用位置和语义信息执行定位和分类。我们使用了 YOLOv7 [3],它利用 CSPDarknet-53 [3] 作为其骨干网络,具有 52 个卷积和跳跃连接。该骨干网负责从输入图像中提取特征。随后,模型学习根据提取的特征生成预测的边界框。最后,应用非最大抑制(non-Maximum Suppression, NMS)产生最终结果,图3。

回顾一下,YOLO 擅长实时检测,并且由于它在单次传递中有效地处理各种对象大小,因此很容易适应尺度变化,这使得它非常适合 RLD 检测任务等实时应用。使用锚盒及其集成FPN等增强能力,在保持速度的同时,进一步提高了其在处理尺度变化方面的性能。

3.2 mAPm Architectural Design

受注意力机制在 CV 中最近成功的启发,我们提出了 mAPm,这是一种新颖的注意力模块,旨在增强 RLD 检测中的尺度变化。它通过利用注意力机制和空洞卷积的组合来实现这一点。该模块集成了一个全局MHSA组件,以提高FPN自顶向下路径中上采样造成的信息丢失。通过结合全局注意力,该模块确保重要的上下文信息在不同的尺度上被保留。然后,我们用尺度 {1, 2, 3} 的并行空洞卷积替换了 FPN 横向连接中显着的 3 × 3 卷积层。这种修改使模块通过扩展接受域来捕获不同尺度的对象,而不会显著增加计算开销。总体而言,这些设计选择增强了 YOLOv7 框架内检测 RLD 的固有尺度变化,从而提高了目标检测任务的准确性和鲁棒性。

3.3mAPm Architectural Components

横向连接:RLD 图像本质上是复杂的,具有表现出广泛尺度变化的兴趣对象,从极小到大。这对大多数通用对象检测系统提出了重大挑战,通常会导致误报检测和漏检。这种不准确可能会产生令人讨厌的后果,特别是在植物病害检测等领域,对物体的吸收率检测至关重要。因此,我们打算提高语义信息对横向连接的捕获能力

YOLOv7 FPN 包含三个横向连接 C3、C4 和 C5 从自下而上的路径处理特征图,在增强语义丰富度的同时逐步减少空间尺度维度。在每个横向连接中,有两个块,每个块最初由一个 (Conv 3 × 3, C, 2C) 层和一个 (Conv 1 × 1, 2C, C) 层组成,类似于深度卷积。

为了改进不同尺度的捕获对象,我们通过扩张卷积扩展了感受野。感受野是指网络中特定神经元可以“看到”的输入图像区域,或者在进行预测时考虑。感受野在等式 1 中计算。

增加扩大了网络中每个神经元的푡(푡),使其能够从输入图像的更大区域捕获信息。这有助于通过允许网络从更广泛的上下文中考虑细节,从而检测不同尺度的对象。这种重新设计为捕捉复杂尺度变化提供了增强的能力

通过促进多尺度特征提取、保留精细细节和有效适应可变植物结构,如RLD的植物图像,将其与正常卷积区分开来。在我们的修改中,我们将 FPN 横向连接中的 3×3 卷积层替换为并行空洞卷积 (PAC),其尺度比为 {1, 2, 3} 平行(图 4),我们的目标是保留不同尺度的信息。设푡(푡)表示从푡ℎ比例因子Arous卷积在层푡获得的特征地图。然后从不同膨胀率获得的这些特征图的串联如公式 2 所示。

注意上采样:在香草FPN设计中,利用骨干网不同层的特征映射传播语义信息。虽然深度神经网络的较低层通常捕获低级特征,但较高层捕获更多关于图像内容的抽象语义信息。为了利用低层和高层之间值的这些差异,FPN将两层融合在一起,在技术上将信息从低层传递到高层。这种融合增强了目标定位和理解,因为网络可以在每一层都使用细粒度和高级信息。在融合之前,由于低层和高层之间的空间分辨率不相等,需要对高层特征进行上采样,从而导致信息丢失。为了增强这一限制,我们将全局MHSA集成到上采样操作中,以减轻信息的损失。

4.experiment

在本节中,我们定性和定量地评估 MRLD [25] 数据集上的 mAPm 模块。然后我们使用 COCO [26] 数据集评估其泛化。我们的方法与其他最先进的模型进行了比较,以验证它在提高 RLD 尺度变化方面的有效性。

数据集和指标。我们对 MRLD 进行了实验,其中包含四个疾病类别的 5,932 张图像:Blast、细菌枯病、Tungro 和 Brown Spot。然后,我们利用 COCO 数据集,该数据集包含 80 个对象类的 330,000 张图像。我们使用平均精度 (AP) 和平均平均精度 (mAP) 来评估我们模型的性能。AP 和 mAP 表示为等式 (5) 和 (6) 所示。

实验装置。我们将默认的YOLOv7网络设置初始化,CSPDarknet-53网络作为骨干。检测头中分类层和局部化层的偏差值分别设置为 0.01 和 0.1。所有层都使用了 σ = 0.01 的高斯权重,包括所提出的特征选择网络。我们使用了初始学习率为 0.001 的 AdamW 优化器,权重衰减为 0.0009,动量为 0.9。我们的实现是在基于 Linux 的系统上进行的,该系统具有 Intel Core i7 8700k 处理器、2 个 NVIDIA Titan XP 12GBGPU 和 32GB RAM。为了公平起见,我们在相同的环境和从头开始训练了比较模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值