Fine-Grained Recognition for Oriented Ship Against Complex Scenes in Optical Remote Sensing Images


Complex Scenes in Optical Remote Sensing Images)

Fine-Grained Recognition for Oriented Ship Against Complex Scenes in Optical Remote Sensing Images

1.Introduction

1.1Background

随着遥感技术的发展,遥感舰船识别已经被广泛应用到海洋应用,比如,国防建设,渔业管理,海洋管理和海上救援。不行的是,大量研究只关心舰船检测任务,也就是关心有船还是没有船目标。很少有关心更加精细的识别任务。有些识别任务只把船分成2到5类。而为什么不能将舰船进行更加精确的识别呢?这是因为现在公开的数据集没有足够的细节进行这一类的支撑。

1.2红外图像的特征与舰船检测的难点

于是乎,相比于一般的目标识别任务,这里有三个主要的困难在红外图像领域。1.红外图像有由于干扰造成的图像质量较低。2.在舰船检测任务中目标很复杂。主要有小场景、密集场景、杂乱场景和大规模变换场景。而且许多场景都并不是单独出现的。比如,舰船在很多图像中是小而且密集的。3.在很多场景里面舰船是方向任意、纵横比过大、分布密集、规模外观变化巨大。
这些独特的特征代表着对局更加精细的网络区分有如下的困难:
(1)对于方向任意的问题,从天上往低下看,舰船通常方向是任意,这意味着传统的水平框不在有作用了。
(2)纵横比过大:根据图像展示,在搞比例的例子中,predicted 和 GT主要有一个很小的偏移,那么会导致网络iou的急速的下降。而iou总所周知是NMS的主要依据。
(3)分布稠密:在大多数稠密场景中,多个船会被识别为一个船。
(4)巨大的外观和规模的变化:在更加精细的舰船检测中,许多船的种类有许多共性。而在相同的船中也会存在着许多区别由于各个国家对海船政策的的规定,而这也会困扰网络的鉴别

1.3红外舰船检测的传统方法和深度方法的简介

和很多其他CV领域一样,目前舰船检测主流有两种方法,分别是基于特征的检测方法和基于传统的检测方法。
在基于特征的检测方法中,主要使用的方法从粗糙到一般。一般分成两步:首先,将海域分割为感兴趣的区域来排除虚警,然后,在候选区域里面进行识别。主要的方法是基于统计数据数据,基于视觉显著性,基于频率分析和反射差异的。第二个阶段是提取特征并且识别潜在的候选区域。一般使用的是SVM和Adaboost。一般来讲手工特征包括有LBP特征、Harr特征和其提升特征。基于特征的模型在简单场景中表现很好。但是在复杂场景中作用比较差。
基于深度的方法。特征提取和识别在这总方法中是通过大量的数据驱动的训练完成的,而不是依靠先验的专家知识,这让模型在网络中更加鲁棒。本文的贡献如下,提出了一个新的修复端到端的reuse network-EIRNet。本网络是双阶段检测网络,同时采用了最新的特征融合和注意力机制。

1.4文章的创新点

1)为了最大的利用各层信息,使用特征融合
2)对于稠密分布和复杂背景,本文提出了监督的像素级别的双面罩注意力模块-DMAM。作用:1.降低噪声。2.标明目标。
3)使用了旋转框来对目标进行预测,同时使用smooth L1损失函数来计算loss。
4)建立了有20类目标的公共数据集,DOSR。

2.Methodology

本文提出的EIRNet在如下图所示。
在这里插入图片描述
本网络主要分成了三个部分。
在第一部分中,特征图被提取后,首先使用DFF-Net对特征进行混合,然后使用DMAM网络进行微调与提炼,最后使用Mask-RPN得到目标。
在第二部分中,每个proposals被提取得到目标的四个信息。分别是cls(种类),upper-Level cls(上一位的种类)、H-Reg(水平boxes回归框)、R-Reg(boxes旋转的相关参数)。
在第三部分中,每个proposals通过算法将其过滤掉。也就是非极大值抑制。本文使用的方法是R-NMS。

2.1 Dense Feature Fusion Network

总所周知,对于深度网络而言,网络层数越高,网络的语义越丰富,但是位置信息越缺乏。同时对于浅层网络而言,因为有更高的分辨率所以位置信息更加明确。而对于网络来说,使用特征融合可以实现网络的语义信息和位置信息的平衡。
DFF-Net进行特征融合进行的公式如下:
F 4 = C o n v 1 × 1 ( C 4 ) + U p s a m p l e ( C A [ C o n v 1 × 1 ( C 3 ) + U p S a m p l e ( C A ( C 2 ) ) ] ) F 3 = D o w n S a m p l e ( F 4 ) + C o n v 1 × 1 ( C 3 ) + U p S a m p l e ( C A ( C 2 ) ) F 2 = D o w n S a m p l e ( F 4 ) + C o n v 1 × 1 ( F 3 ) + C 2 F 5 = M a x P o o l ( F 4 ) F_4=Conv_{1\times1}(C_4)+Upsample(CA[Conv_{1\times1}(C_3)+UpSample(CA(C_2))])\\ F_3=DownSample(F_4)+Conv_{1\times1}(C_3)+UpSample(CA(C_2))\\ F_2=DownSample(F_4)+Conv_{1\times1}(F_3)+C_2\\ F_5=MaxPool(F_4) F4=Conv1×1(C4)+Upsample(CA[Conv1×1(C3)+UpSample(CA(C2))])F3=DownSample(F4)+Conv1×1(C3)+UpSample(CA(C2))F2=DownSample(F4)+Conv1×1(F3)+C2F5=MaxPool(F4)
通过1*1的卷积对网路进行降维。与FPN只合并两个相邻的层不同。DFF-Net生成所有层通过合并现在网络层的所有的层。由于特征层只有三个输入,而本文中需要第四个输出,用来作为预测网络的head of the prediction network(???神马玩意?有什么作用)。其中CA代表通道注意力网络,本文中使用的是CBAM中所使用的通道注意力网络。通道注意力网络突出重点信息,削弱冗余信息。在DFF-Net中,每一个输出的特征图将每一个特征层的信息结合起来。这种全新的交互提高了识别多尺度物体的精确度,特别是小目标。同时特征融合加强了细节信息。这样在细节的舰船分类任务中,细节是十分重要的。所以,本文中使用细节特征来进行更加精细的网络的识别,能够得到更好的效果。

2.2 Dual-Mask Attention Module(双掩膜注意力模块)

复杂且稠密的场景是遥感舰船识别的罪魁祸首。由于复杂的背景会影响到周围的事物。这些问题将不断为最后的识别提供阻碍。组多注意力机制,已经提出来去处理这个问题。但是大多数方法是无监督。而无监督的方法对网络并不能提出一个明确的引导。但是大多数方法无法知道网络去学习为了一个明确的目标,引导网络去学习。本文中提出了一个有监督的双掩膜的注意力网络-DMAM。本网络主要关注的是空域注意力。模型的流程图如下:
在这里插入图片描述
这些网络都是由F3得到的,Mask-1和Mask-2能够指导网络学习相应的两个掩膜,Mask-1和Mask-2。而得到这些网络的激活函数是Softmax。这是得到两个对应的网络分别是 M 1 M_1 M1 M 2 M_2 M2。然后,我们使用线性相加的方法将两个掩膜融合起来,公式如下:
A i = F i + F i × ( α 1 M 1 + α 2 M 2 ) A_i=F_i+F_i\times (\alpha_1M_1+\alpha_2M_2) Ai=Fi+Fi×(α1M1+α2M2)
其中 α 1 \alpha_1 α1 α 2 \alpha_2 α2分别代表的是对 M 1 M_1 M1 M 2 M_2 M2施加的权重。用于监督学习的两个掩膜Mask-1和Mask-2是由ground truth产生的二值图像。其中Mask-1是用于ground truth用于明确目标的位置。Mask-2的设计是让网络能够重点观察网络的船头和船尾细节。对于Mask-2的作用图下图所示:
在这里插入图片描述
可以看出没有使用Mask-2的掩膜(d)当船聚集的时候并不能区分出到底有多少条船。但是在使用了Mask-2网络的(g)图很容易区分出船与船的差别。

2.3 Prediction Network(预测网络)

1)Mask-RPN:由于特征层越高,特征层的语义信息越强,而与此同时网络的位置信息越弱。与此同时,随着网络的深度加深,网络的位置信息也随之减弱。对于多尺度识别任务,我们运用一种提升的RPN网络来进行网络识别,这个网络叫做Mask-RPN.
本方法与传统rpn不同点是,将之前得到的双掩膜注意力模块的结果。所以本文的输出有两个分别是1)由传统RPN产生的目标。2)由增加的掩膜得到的mask M。对于基础的目标,我们使用水平锚框在RPN中,因为如果在此时引入旋转锚框会严重增加锚框的数目,但是此时准确率的提升无法和角度选择的计算成本匹配。在此时我们使用大小分别为{64,128,256,512}大小的锚框,而长宽比{1:1,1:2,2:1,1:3,3:1,1:4,4:1}。同时NMS为0.7。在使用NMS的前后目标框的大小分别为12000和2000。
除了传统的通过特征层选取目标点,我们同样引入了额外的目标提升RPN网络的表现。通过观察,我们发现DMAM网络产生的掩膜能够很好 地满足ground truth。因此,我们需要通过额外的maskM产生额外的目标。而这个过程一般需要由两步组成:1.首先运用阈值分割技术对单通道的网络分割,将其分割为一个二值图片。2.计算二进制映像中的连接域。输出他们的最小值作为额外的目标。3.将得到的目标和输入进行映射,并得到输出。同时根据网络的大小进行回归和区分。对于检测头网络的选择,我们替代两个全连接层被用于许多算法中。
2)prediction Branches作用:
a)regression
在这里插入图片描述
b)classification使用分级标签的方式。
c)损失函数
在这里插入图片描述
对与类别的样本平衡使用的方法如下:
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值