【目标检测论文阅读笔记】Adaptive Anchor Networks for Multi-Scale Object Detection in Remote Sensing Images

ABSTRACT

        遥感图像中准确有效的目标检测在海洋运输、环境监测和军事行动中具有极其重要的作用。由于强大的特征表示能力,基于区域的卷积神经网络(RCNN)被广泛应用于该领域,它首先通过提取的特征图生成候选区域,然后对目标进行分类和定位。然而,大多数现有方法通常使用传统的骨干网络来提取 空间分辨率降低的特征图,因为 连续的下采样会削弱从小目标检测到的信息。此外,这些方法 采用 滑动窗口策略 在特征图上生成具有预设比例的固定锚点,这不适合遥感图像中的多尺度目标检测。为了解决上述问题,本文提出了一种新颖有效的目标检测框架 DetNet-FPN(特征金字塔网络),其中通过组合不同空间分辨率的特征图来创建具有强特征表示的特征金字塔,在同时,通过 涉及扩张卷积来保持特征图的分辨率。此外,为了匹配提出的主干,改进了 GA(引导锚定)-RPN 策略以生成自适应锚点,该策略 同时预测 目标中心可能存在的位置 以及 不同位置的尺度和纵横比。广泛的实验和综合评估证明了所提出的框架在 DOTA 和 NWPU VHR-10 数据集上的有效性。


I. INTRODUCTION

        随着遥感技术的快速发展,遥感图像的数量急剧增长,遥感图像中的目标检测因其在 城市规划、环境监测 和 精准农业等领域的广泛应用而受到越来越多的关注。同时,由于深度卷积神经网络的快速发展,目标检测的性能得到了显著提高。然而,当将通用目标检测方法用于遥感图像时,检测精度会减弱。与自然图像相比,遥感图像具有以下特点:(1)目标具有多种比例和纵横比。遥感图像通常是从高空拍摄的,从数百米到数千米不等,传感器的分辨率也有明显的差异,因此遥感图像中目标尺度的变化比自然场景中的更明显。对于不同的飞机(图1(a,b)),由于拍摄高度的变化,目标的大小可能会有很大的差异,飞机在画面中可能只占很小的比例,而地面田径场可能占据最大的比例总图像的一部分(图1(a,c))。此外,桥梁/港口和飞机之间的长宽比存在显著差异(图 1(d/f 和 a))。

107f587a43504079a7a5dc042ae5711b.png

        (2) 小目标问题。遥感图像中存在大量小物体(图1(e)),经过特征提取网络后,特征图的空间分辨率逐渐降低,小物体的信息容易被削弱,难以识别让网络注意到小物体。

        (3) 视角特异性。大多数自然图像是从地面的水平视图拍摄的,而 遥感图像是从高空空间拍摄的。向下视角导致遥感图像中物体所包含的特征信息较少,不利于目标检测,因此特征提取网络需要更强的特征提取能力,在自然数据集下训练的检测器可能在遥感图像上表现不佳。

        鉴于上述特点,迫切需要探索提高遥感图像目标检测精度的有效方法。众所周知,提取判别性的特征图是至关重要的,因为它将直接影响目标检测的最终结果。因此,许多方法[1-3]被提出用于有效的特征提取。例如,Zhang 等人 [2] 提出了一种双重多尺度特征金字塔网络来提取多尺度特征图,用于遥感图像中的精确目标检测。 Fu 等人 [3] 使用 双自顶向下模块和密集连接的inception模块来生成更强大的功能。尽管这些方法可以提高特征表示能力,但它们使用典型的骨干网络通过连续的下采样来提取空间分辨率降低的特征图[4, 5],这将导致在连续下采样过程中丢失原始信息,所以小目标将是看不见的。此外,传统方法采用滑动窗口策略来生成固定尺度和纵横比的锚点[6],它们不适用于尺寸或纵横比存在显著差异的物体,遥感图像中多尺度物体检测的有效方法是仍然缺乏。

        在本文中,我们提出了一个有效的目标检测框架,该框架由两种结构组成:DetNet-FPN 和改进的 GA-RPN。首先,为了有效地检测多尺度和小物体,构建了一个有效的金字塔结构来生成具有更强特征表示能力和更有效感受野的特征图。此外,与许多使用滑动窗口策略生成固定大小的锚点的方法不同,探索了一种自适应锚点生成方法。此外,为了进一步提高模型的准确性,解决邻近物体漏检的问题,在分类过程中采用了SoftNMS(非最大值抑制)[7]策略。综上所述,本文的主要贡献如下:

        (1) 我们提出了一种特征提取能力更强的特征提取网络:DetNet-FPN。在特征提取阶段,输入图像 仅在前四个阶段进行下采样,而不是连续下采样。DetNet-FPN 在 stage 4 之后保持 16x 下采样以保证特征图的分辨率,并通过引入空洞卷积 来扩大感受野,有利于遥感图像中的多尺度目标检测。

        (2) 考虑到遥感图像物体位置和形状的非均匀分布引入自适应anchor生成方法GA-RPN开发更高效的anchoring方案来 安排具有可学习形状的anchor,使得该算法适用于任意纵横比的对象

        (3)在分类和回归阶段采用Soft-NMS方法 代替原来的NMS算法,提高了对遮挡和密集物体的检测能力,减少了漏检问题。

        本文的其余部分组织如下:第 2 节回顾了有关目标检测的相关工作。在第 3 节中,详细介绍了所提出的方法,第 4 节分析并报告了实验结果。最后,第 5 节总结全文并展望未来的研究方向。


II. RELATED WORK

        近年来,遥感图像目标检测研究取得了显著突破,提出了许多策略来解决各种问题。

手工设计的特征和卷积神经网络。

        在过去的几十年中,手工设计的特征被许多学者广泛用于目标检测[8-15]。例如,Tuermer 等人 [15] 使用 定向梯度直方图 (HOG) 特征 和 快速区域增长算法 来检测密集城市地区的车辆。 Paul等人[8]使用 尺度不变特征变换(SIFT)从图像中提取特征,然后将 稀疏编码特征 转化为 特征矩阵,并采用机器学习算法对目标进行分类。尽管这些方法在某些任务中取得了令人瞩目的成功,但它们无法表示高级语义信息,而高级语义信息是准确识别复杂遥感图像所必需的

        最近,由于深度卷积神经网络 (CNN) 在提取低级和高级特征方面的强大能力,CNN 模型被广泛应用于目标检测和识别领域。大多数现有的基于 CNN 的目标检测方法可以分为两类:一类是两阶段检测,例如 Faster R-CNN [16] 和 其他基于区域的目标检测器 [17, 18];另一种是单阶段检测,如SSD [19]、DSSD [20]和YOLO [21]。通常,两阶段方法首先生成候选框,然后这些proposals区域 被分类器评估并区分为特定类别。与两阶段方法相比,一阶段检测方法计算量较小,因为它们能够将目标检测问题转化为回归问题,并直接确定目标位置和相应的类别。

        基于区域的卷积神经网络是基于 CNN 的目标检测方法的基石。随后,许多改进的目标检测算法,如 Fast R-CNN [18]、Faster R-CNN [16]、YOLO [22]、SSD [19] 和 Mask R-CNN [23] 被提出用于通用目标检测和取得了令人瞩目的成果。此外,研究人员已经做了大量工作 [24-26] 来检测遥感图像中的目标并取得积极成果。例如,Tang 等人 [24] 使用 超区域建议网络 (HRPN) 结合分层特征图来提取类似车辆的对象,之后他们使用 级联的 增强分类器 来验证候选区域。 Long 等人 [25] 提出了一种新的目标定位框架,该框架基于 二维reduction缩减卷积神经网络 (CNN) 的组合模型,以获得每个候选框对应的特征。 Yang 等人 [26] 使用级联策略,包括基于 FCN 的粗略候选提取阶段、基于 多马尔可夫随机场 (multiMRF) 的候选框生成阶段 和 最终分类阶段 来检测飞机。现有算法虽然取得了一些令人满意的结果,但表示图像多尺度信息的能力仍然有限。针对多尺度目标检测,一般主要有三类方法 来进一步提高检测精度。

        对于第一类方法,一些学者 利用 多层特征的融合 来检测不同尺度的目标。这些方法的基本思想是 通过 结合低级和高级特征 来增强特征的表示能力。他们的目标是 生成一个具有精细分辨率的单个高级特征图,以便对其进行预测。例如,ION [27]采用skip pooling在多个尺度上提取和融合特征信息,然后使用融合后的特征来检测物体,这种方法取得了很好的效果。 HyperNet [28] 融合了图像的高级语义和低级局部信息以生成proposals和检测对象。 YOLOv2 [22] 通过 pass-through layers直通层 将高分辨率特征与低分辨率特征结合起来,并在集成特征图之上运行检测。

        第二种方法 使用 不同的层特征 来预测不同尺度的目标。例如,SSD [19]、MS-CNN [29] 和 DSOD [30] 结合多个特征图来预测各种大小的对象。他们对小物体使用浅层特征,对大物体使用深层特征,问题是由于缺乏语义信息,浅层特征可能不适用于小目标检测,并且这些方法错过了重用高分辨率映射图的机会,这对于检测小目标很重要。

        最后一类方法同时结合了上述两种方法。多个预测层用于预测不同尺度的物体,每个预测层的特征通过融合不同深度的特征图得到。例如,FPN [23] 通过自上而下的架构获取高级语义信息,以获取有关小对象的更多有用信息。为了提取更高级的上下文信息,DSSD [20]将预测层放在一系列反卷积层之后,形成沙漏模型来传递上下文信息以进行更准确的预测。然而,这些方法通常使用额外的层来获得多尺度特征,这增加了计算成本。另外,在卷积过程中 连续下采样 导致特征图中的小目标分辨率不够,不利于物体检测。


目标检测中的锚点生成。

        生成合理的锚点是目标检测的基本任务。流行的目标检测框架,包括两阶段和一阶段方法,主要依赖于预先安排的统一锚点。使用 滑动窗口策略 生成锚点已被许多 基于锚点的检测器 广泛采用。例如,Faster R-CNN [16] 提出区域生成网络(RPN)通过滑动窗口方法在特征图上生成区域提议,这种设计也被采用在以下两阶段方法中 [17, 23]。与两阶段策略相比,单阶段方法跳过目标建议生成 并在一次评估中预测边界框和对象类别。虽然region proposal是不必要的,但单阶段方法仍然使用滑动窗口产生的锚框。例如,YOLOv2 [22] 采用滑动窗口进行空间位置预测,并实现了比其前身更高的召回率。

        上面介绍的方法 根据预设规则生成anchors,具体来说,就是通过滑动窗口的方法在特征图上开发出一组具有预定义尺度和纵横比的anchors。然而,这种方案 效率低下,因为许多锚点都放置在不太可能存在目标的区域。在这项工作中,考虑到目标大小 和 纵横比的不均匀分布,采用更有效的锚点生成策略 来安排具有可学习形状的锚点。


III. PROPOSED METHOD

A. ARCHITECTURE

3e5c547f4515442a803bef5849201498.png

        如图2所示,网络结构由两部分组成:多尺度特征提取网络DetNet-FPN和自适应锚点生成网络GA-RPN。首先,给定一幅遥感影像,采用多尺度特征融合网络提取出特征表示能力强、分辨率高的特征图。此外,使用GA-RPN在融合的多尺度特征图上生成大量不同尺度的region proposals,与滑动窗口方法不同,GA-RPN可以生成与物体形状匹配的自适应锚点,有利于不同尺度物体的准确回归。最后,采用 Soft-NMS 策略更准确地检测相邻位置的相似对象。众所周知,NMS可以有效抑制冗余anchors,但典型的NMS只针对同一区域中置信度最高的目标,附近且重叠区域大于一定阈值的目标将被抑制,在本文中,我们使用 Soft-NMS 而不是 NMS 来实现更高的召回率。


B. DETNET-FPN 框架

        两阶段目标检测模型通常使用具有五个阶段的 FPN 或 ResNet 作为主干来提取特征图,在每个阶段之后通过步长为 2 的卷积进行下采样,因此特征图将在第 5 阶段进行 32x 下采样。 深层特征图基于大的下采样因子会获得更高的感受野,但同时特征图的空间分辨率会受到影响,信息不可避免地被削弱,不适合小目标检测。遥感图像上的目标一般很小,所以这些骨干不适用于遥感图像。为此,我们在这个名为 DetNet-FPN 的框架中提出了一种改进的主干,它可以有效地增强特征表示能力。

ecb1219f6c1d4942971789ec279bc903.png

        与 FPN 中的工作不同,我们 应用 DetNet [5] 中提出的想法 来构建多尺度目标检测网络,涉及 DetNet-FPN 中的第 6 阶段,用于各种尺寸的目标检测。结构如图3(b)所示。 Stage 1,2,3,4和ResNet-50一样,每个stage都通过stride 2的卷积进行下采样,但是在stage 4之后空间大小固定,以保持特征图的大分辨率,然后 在阶段 5 和阶段 6 的开始 使用膨胀卷积 [31-33] ,以扩大感受野。最后,如图 4 所示,我们 通过横向连接融合了高层语义信息和低层位置信息,但上采样操作仅从 p1 到 p4 执行。 DetNet-FPN与FPN的区别如图3所示。

023f419ef9c441229d851dab7b80c18f.png

        DetNet-FPN的详细结构如图4所示。整个网络框架由三部分组成:自下而上的路径、R-CNN_latlayer(横向连接层)和 自上而下的路径。自下而上的部分有六层,从 C1 到 C6。在C1-C4卷积过程中,特征图通过2x 下采样 在每一阶段后 变成原始特征图的一半。 C5 和 C6 层保留 16x 下采样的特征图以获得更大的感受野。每层的输出步幅和输出通道如图4所示。自上而下的部分有从P1到P6的六层。如果一个层与对应的自下而上层大小相同,直接通过R-CNN_latlayer相加,否则通过1*1卷积 改变 自上而下的路径的通道,保持相似的通道再相加。为了降低计算成本,输出通道从头到尾设置为256。最终的特征图被发送到 GA-RPN 以提取感兴趣的区域。(图4我感觉画的不对)

        [34]中提出的扩张卷积 将空洞注入标准卷积特征图中 以增加感受野。在网络结构的stage 5和stage 6中,引入了两个结构相同的膨胀卷积。表 1 显示了该结构每个阶段的参数。由于扩张卷积仍然很耗时,我们的第 5 阶段和第 6 阶段保持与第 4 阶段相同的通道,这与传统的骨干网不同,后者将在下一阶段增加一倍的通道数。得益于高分辨率的特征图和扩大的感受野,DetNet-FPN 在定位大目标边界 和 识别小目标时更加强大。

b3a2f20700164d33b53a0edeaf80a55b.png


C. GUIDING ANCHORS FRAMEWORK

        anchor的合理设置是现代目标检测流水线的基础。目前主流框架,包括one-stage和two-stage方法,大多依赖于滑动窗口策略来生成固定尺度和纵横比的anchors。具体来说,一组具有预定义尺度和纵横比的锚点将在大小为 W × H 且步长为 s 的特征图上生成,该策略被认为是无效的,因为在目标似乎不存在的区域中生成了大量锚点。此外,先验尺度排列不切实际地为不同尺度的目标假设了一组固定的锚点,这使得 anchor-based基于锚点的方法 乏味且效率低下。 

        在这项工作中,给定遥感图像的长宽比分布,我们引入了一种更实用的锚框生成策略来引导具有可学习形状的锚定。我们的方法在两个分支中生成锚点:位置预测分支和形状预测分支。具体结构如图5所示。

4179c3abf5b14ef8a95efc7d074e686a.png

        位置预测分支的目的是 预测锚点的中心。给定图像 I,我们使用 DetNet-FPN 得到特征图 Fi,然后位置预测分支使用 Fi 上的 1 × 1 卷积得到目标得分图,然后使用逐元素的 sigmoid 函数将其转换为概率图 P(·|Fi ) 。基于概率图,将整个特征图 根据阈值分为 目标中心区域(CR)、忽略区域和 外部区域。我们通过选择其对应概率值高于预定义阈值 Φt 的位置来选择目标可能存在的中心区域,并在训练过程中将中心区域用作正样本。

        形状预测分支的目标是 预测合适的锚点宽度和高度,然后确定不同位置的锚点形状。根据通常的做法,首先 计算锚框的最优宽度和高度,然后 利用L1 / L2损失函数 监测锚框的损失。但是 这对我们的方法来说并不实用,因为锚框的形状没有定义,所以我们 直接使用 锚框 与 真值框 之间的IOU 作为监督 来学习锚框的宽度和高度。典型的基于滑动窗口策略的锚框在整个特征图上是均匀的,每个位置的形状和比例都是相同的。但是 我们的方法中 锚框的形状变化明显,因此使用[6 Regional Proposals by Guided Anchoring] 中提出的特征自适应策略,根据公式(1)根据锚点的形状变换每个位置的特征。

b15f8a2320604f2b970ffc0f781b4a2a.png

其中Fi为第i个位置的特征,(wi;Hi)为对应的锚框。对于这种位置相关的变换,使用一个3 × 3的可变形卷积层[17]进行Nt。

        为了减少冗余,在分类和回归过程中,基于它们的置信度得分采用Soft-NMS。最后,将剩余的区域及其分数 作为分类器的初始数据。将所有的正、负候选框 及其相应的标签 输入到损失函数中,构造一个多任务损失函数来更新网络的参数,DetNet-FPN和分类器使用相同的损失函数,定义为:

e71cea7bf0594d36aabbb6b05e55e944.png

其中N代表锚的数量,i 表示mini-batch中锚框的索引,pi是第i个锚框的预测置信度,Pi * 是它的真值二元标签,和 ti 是锚框边界框参数向量的预测,, ti *为实际锚框的边界框参数向量;Lcls是分类成本,Lrreg表示边界回归损失函数,其中分类代价和回归代价由参数λ3加权。除了上述损失外,还引入了两个额外的损失函数Lloc 和 Lshape,用于锚定位和形状预测。利用Focal Loss[35]来训练定位分支,定义Lshape为:

5a88f231bb8a478285d068ec11f5eee1.png

式中(w,h)为预测的锚框的形状,(wg,hg)为相应地真值边界框形状。L1表示光滑L1损失函数。得益于锚框形状的可学习性,我们的方法对任意形状的目标具有更好的检测性能。 


IV. 实验分析

        本节介绍并讨论了该方法在两个遥感图像数据集上的评估结果。所有实验均采用12G内存的NVIDIA Titan X GPU,操作系统为Ubuntu 16.04。使用ResNet-50模型初始化网络的骨干权重。此外,学习率为0.0025,批大小为2,权重衰减设置为0.0001,动量为0.9。在这些实验中,除非另有说明,否则不使用数据增强策略


A. DATASETS

        我们提出的方法在两个公共数据集上进行了性能评估:DOTA数据集[36] 和 NWPU VHR-10数据集[37,38],这两个数据集都具有多类目标注释。

1) DOTA DATASET

        这是一个用于航拍图像中目标检测的大规模数据集,包含2806张航拍图像,范围从约800 × 800到约4000 × 4000。这些DOTA图像由航空图像解译专家使用15种常见目标类别进行注释:飞机、棒球场(BD)、桥梁、地面跑道(GTF)、小型车辆(SV)、大型车辆(LV)、船舶、网球场(TC)、篮球场(BC)、储罐(SC)、足球场(SBF)、环形交叉路口(RA)、游泳池(SP)、直升机(HC)和港口。对于DOTA,有1411张图像用于训练,458张用于验证,937张用于测试。

2) NWPU VHR-10 DATASET

        这是一个公共数据集,包括800幅图像(约1000 × 1000),其中650个正样本和150个负样本来自谷歌Earth和Vaihingen数据集。它包括十大类:飞机,船舶,储罐(ST),港口,桥梁,棒球场(BD),车辆,田径场(GTF),网球场(TC)和篮球场(BC)。在本文中,我们将数据集随机分为三部分:训练集、验证集和测试集,比例分别为50%、20%、30%。


B.评价标准

        我们采用F-measure 和 Precision (P)和recall (R)得到的mean Average Precision (mAP)来评价目标检测的性能。精确度和召回率定义为:

7fcf456aa85e4a1d80f66b28623516a5.png

式中TP、FP、TN、FN分别代表真正样本、假正样本、真负样本、假负样本。在测试阶段,如果候选框与匹配的真值边界框之间的IOU大于0.5,则认为检测结果为真。IOU比率定义如下:

723cbdc08e4848c5b5aefa9a50af6768.png

式中,area(BP∩BG)表示候选框与真值框的交集,area(BP∩BG)表示二者的并集。mAP表示所有类别AP的平均值:

329712e323e14c09bf56c07c57521c0e.png

其中n表示类别的数量。F-Measure又称F-score,是准确率和召回率的加权调和平均值,常用于评价分类模型的质量。当F1越大,则认为该方法越有效。F-measure可以通过下式计算,

1618dfb4b6ba4f39b11fe91684fa82e3.png

其中β是一个可变参数,可以根据偏好进行更改,P是精度,R是召回率。


C.结果和分析

        本节通过消融实验验证了DetNet-FPN和GA-RPN的有效性,并在NWPU VHR-10数据集上与一些基线方法进行对比,展示了所提方法的可视化结果。此外,为了证明该方法的鲁棒性,在不同的数据集上进行了对比实验。

1) ABLATION EXPERIMENTS

b80464058fe44753892bbca291dd8d0d.png

        以Faster R-CNN[16]为基准,进行了消融实验,验证了本文提出的各项技术的有效性。mAP如表2所示。FPN算法结合多尺度特征得到有效的特征表示,可以在一定程度上提高检测精度,但连续降采样不利于小目标的准确检测结果。可以看出,采用 DetNet-FPN 策略后,检测精度得到了较大的提高。然而,传统的锚框生成方法 无法有效检测 大尺度变化 的遥感图像,GA-RPN的引入有效地解决了这一问题,实现了更高的精度提升。为了解决密集遥感图像的漏检问题,采用Soft-NMS算法进一步提高检测精度。实验结果表明,该框架能显著提高遥感图像中目标检测的性能。


2) NWPU VHR-10 数据集上的结果

        为了评估该方法的有效性,图6展示了在NWPU VHR-10数据集上获得的一些检测结果。如图所示,我们的模型对于复杂场景中的多尺度物体表现良好


3) 与最先进的方法比较

        为了进一步说明所提方法的有效性。我们 将我们的框架与NWPU VHR-10数据集上的其他最先进的目标检测网络(包括Faster R-CNN[16]、FPN[23]、RetinaNet[35]、Grid R-CNN[39]和Cascade R-CNN[40]) 进行了比较,如图7和8所示。从图中可以看出,我们的方法在两个公认的评价指标PR曲线和F-measure上取得了具有竞争力的检测结果

        为了更详细地对比我们的方法与其他最先进的方法,在NWPU VHR-10数据集上获得的部分检测结果如图9所示。可以看出,现有方法对于背景简单的船舶都有很好的性能。然而,它们中的大多数都不能准确地检测到 尺寸或长宽比有显著差异 的物体。如图9(b)所示,许多篮球场和桥梁的检测都不成功,草坪被错误地检测为地面跑道。综上所述,与其他五种方法相比,我们的方法能够自适应选择合适尺度和纵横比的锚框,从而获得更准确的目标检测结果。

91a2a5f98d0f401ea170f7337e5f4ff3.png

        我们还在不同的遥感数据集上将所提出的方法与其他最先进的算法进行了比较,以验证其通用性和有效性。在表3中,评估了其他五种方法在NWPU VHR-10数据集上的性能,包括基于ResNet-50的RetinaNet[35]、Grid R-CNN[39]、Faster R-CNN和Cascade R-CNN[40],以及Faster R-CNN的FPN。在表4中,我们将本文方法与另外六种算法[16、17、19、22、41、42]在DOTA数据集上进行了对比,实验结果表明本文方法的有效性和鲁棒性。

6865583dabe4439b870611a752a72616.png

ef0ec418a8414487ba7fa8f1be891843.png

        从表3和表4中我们可以发现,与现有工作相比,本文提出的方法可以将 NWPU VHR-10 和DOTA 的mAP性能 分别提高2.98%和3.75%。在NWPU VHR-10数据集上,除了Harbor 和 Baseball Diamond外,我们的方法显著提高了每种类型样本的AP。在DOTA数据集上,除了Plane和TC之外,我们的方法的AP也有了明显的改进,这进一步证实了我们提出的框架在检测小目标和大目标方面都有令人印象深刻的性能。主要原因是DetNet-FPN可以在保持分辨率的情况下提取具有更强特征表示能力的特征图,并且生成的锚框具有可学习的大小和形状。


V. CONCLUSION

        针对遥感图像中多尺度目标的检测问题,提出了一种有效的基于区域的目标检测框架。该框架由三部分组成。第一个模型是DetNet-FPN,这是一个金字塔网络,使用多种技术,能够提取遥感图像的多层次特征描述,同时保持特征图的分辨率。第二个是GA-RPN策略,该策略根据物体的形状生成锚框,然后利用所提出的区域检测不同尺度的物体。第三部分介绍了soft-nms策略,解决了相邻目标的漏检问题。实验结果表明,该方法对多尺度的遥感图像具有满意的检测性能。在未来的工作中,可以通过结合上下文信息和一些图像增强策略来进一步提高性能

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值