本文是对《EFCOMFF-Net: A Multiscale Feature Fusion Architecture With Enhanced Feature Correlation for Remote Sensing Image Scene Classification》一文的总结,如有侵权即刻删除。
文章目录
Title
《EFCOMFF-Net: A Multiscale Feature Fusion Architecture With Enhanced Feature Correlation for Remote Sensing Image Scene Classification》
——IEEE Transactions on Geoscience and Remote Sensing (TGRS) 2023
Author: Junsong Chen
总结
本文提出了一种增强特征相关性的多尺度特征融合网络(EFCOMFF-Net),探索降低多尺度特征差距和融合多尺度特征来提高网络对遥感图像场景的表示能力。考虑到浅层特征和深层特征之间的差异,提出了与浅层特征关联的EFCOMFF-Net-v1和与深层特征关联的EFCOMFF-Net-v2的不同结构。为了研究深度特征相关性对分类性能的影响,对EFCOMFF-Net-v2提出的FCEM进行了改进。与EFCOMFF-Net-v1相比,不同之处在于来自“Layer1”、“Layer2”和“Layer3”的输出特征的相关性得到了加强。FAAM和FRM在结构设计上与EFCOMFF-Net-v1相同。提出的方案有效解决了类内差异性和类间相似性问题以及加强局部语义信息的提取。

1. 贡献
1) 为了探索加强多尺度特征相关性对于提高分类性能的影响,提出FCEM来实现多层特征之间信息交互,缩小多尺度特征之间的差距,能够嵌入到现有主干网络中,表现出优异的特征提取能力。
2) 为了准确编码深层特征空间信息,设计了FAAM以衡量骨干网络最后一层的输出,来进一步汇聚空间特征。
3) 由于融合后FCEM和FAAM输出多尺度特征在空间分布上是不同的,提出FRM对空间信息重新编码,通过平滑的过渡减小特征之间的差异性,得到更加可靠的预测效果。
2. 模型设计
2.1 特征相关性增强模块
由于随着网络深入,网络感兴趣的区域逐渐从局部纹理到全局轮廓,浅层所包含的局部语义信息对提高模型对场景中关键信息的准确定位同样重要。与以往多尺度特征简单融合不同,所提出FCEM发掘浅层特征相关性,以提高网络表示能力。两种FCEM的算法如下图。


得到 “Layer1” 到 “Layer4”的多尺度特征图作为FCEM的输入。由于低层感受很小,采用提议的空洞卷积分为三个分支a、b和c提取特征。在与深层特征合并之前,通过卷积将通道数量增加一倍,再通过双线性插值方法压缩特征图。其中采用由Dosovitskiy等人1 提出的Conv卷积(核大小为3×3,填充和步幅为3,丢弃率设置为0.5)。Dp代表下采样,
P
e
n
P_{en}
Pen代表分支
e
n
=
a
,
b
,
c
en={a,b,c}
en=a,b,c 输出特征图。在EFCOMFF-Net-v1中,只实现实现 “Layer1”和“Layer2”之间信息共享。算法4则探索 “Layer1”、“Layer2”和 “Layer3”之间的信息共享,为了使 “Layer2”和“Layer3”信息进行交互,将“Layer3”的特征传递到“Layer2”进行处理,具体操作是将“Layer3”的输出特征经过卷积核为3×3的卷积将通道倍数降低,由于特征尺寸由低层往深层逐渐增大,所以需要再对压缩通道之后的特征图进行上采样,最后,融合这两层特征。公式如下:
其次,通过把低层的“Layer2”输入进“Layer3”以此来实现两层的特征信息共享,具体的实现如下:
最后将减小特征差距的三层特征经过融合得到FCEM模块的输出。
2.2 特征聚合注意模块
原始图像通过骨干网络后,感兴趣区域成为全局轮廓信息一部分,这使得后者对分类效果至关重要。为了压缩空间信息以聚合特征,编码更准确空间信息,并过滤深层语义信息,本文提出了一种新注意力结构,名为FAAM。为了减少网络中参数数量,输入特征图被1×1卷积层压缩,通道压缩率设置为4;之后,利用平均池和最大池对输入特征空间维度进行压缩,以聚合特征空间信息,提高网络表示能力。最终生成两种不同的空间上下文描述符。与卷积块注意力模块(CBAM)2 不同是,本文引入了参数较少、操作成本较低深度分离卷积,以聚合从两个池中获得特征并生成每个通道注意图。在归一化之后,每个通道值通过一个Sigmoid函数在0和1之间映射,以对原始输入进行加权,如下式实现:
其中
F
A
v
g
F_{Avg}
FAvg和
F
M
a
x
F_{Max}
FMax分别代表自适应平均池化和自适应最大池化。DSC指深度分离卷积。

2.3 特征细化模块
然而,融合前面两者后特征仍然比较粗糙,浅层和深层特征之间空间差异需要通过平滑过渡过程来消除。所以设计如下图的FRM结构。先将上一步融合的输出送入到1×1卷积对通道压缩以减小参数量,标准化之后经过SiLU 激活函数将特征矩阵中的值限制在[-0.28,+
∞
\infty
∞ ],与 ReLU激活函数相比曲线更加平滑,并且存在值为负数的情况保留更多信息值。然后利用扩展率为3的卷积核为3×3的分组卷积在压缩特征图汇聚特征的同时可以获取广泛的空间信息,此外,为了在降低参数量的同时提高分类精度,将分组数量设置为
C
/
r
C/r
C/r 。最后,特征图被送入到1×1卷积将通道数进一步压缩,再归一化后得到在位置
l
l
l的特征图。
其中,
φ
\varphi
φ 代表具有批量归一化和𝑆𝑖𝐿𝑈()激活函数的卷积层;ϑ代表具有批量归一化和𝑆𝑖𝐿𝑈()激活函数的分组卷积层。对所有𝐿层特征图展开得到特征向量 。最后,通过全连接层生成最后的预测输出。
3. 实验结果
3.1 消融
为了研究设计FRM合理性,本文探究了不同组合方法的一些卷积块,讨论逐渐增加网络深度和并联方式融合特征。由实验结果显示,Standard-Model的结构设计达到最好的分类精度。由此表明随着网络加深,参数量增加的同时,分类精度不会线性增加。
此外,研究设计模块的合理性,采用t分布随机邻居嵌入 (t-SNE)技术,将高维空间中网络分类结果映射到二维特征中进行可视化。如下图所示,可视化基准网络以及增加不同特征提取块的结果。图(b) 代表在主干网络上添加FAAM模块的可视化结果。与图(a)相比,分类误差减少了,类内聚集度提高了,这意味着分类效果更好。图©表示加入了FAAM和FCEM网络。与图(b)结构相比,分类错误率降低,而类间距离较大,类间距离大说明不同类相关性较低,对分类更有利。图(d)显示了本文所选方法EFCOMFF-Net,相比于基准网络,无论是分类准确率、类内聚合度和类间距离都达到了最好的效果。
3.2 与最新方法比较
文章利用网络EFCOMFF-Net两个变体EFCOMFF-Net-v1和EFCOMFF-Net-v2,使用ResNet50、ResNet152和DenseNet121作为骨干网络,与最新方法进行比较。比较的网络模型如下。
在UCM数据集的实验OA结果显示。以ResNet152为骨干网络EFCOMFF-Net-v1在训练率为50%和80%UCM数据集上分别取得了99.35%和99.85%最佳分类精度。与骨干网络相比,OA结果分别提高了1.16%和1.00%。在AID数据集上,以ResNet152 为骨干网络EFCOMFF-Net-v1取得了最好分类结果。在训练率为20%和50%的训练率下,分类精度分别为96.44%和98.70%,比骨干网络高1.88%和2.1%。此外,在NWPU和OPTIMAL-31数据集上也取得不错效果,实验表明,通过整合加强信息交互多尺度特征,并通过使用注意力机制消除深度特征冗余信息,可以获得更多判别特征。此外,文章还对最新方法的缺陷进行了分析。 部分实验结果如下:




4. 论文的结论
总结:本文设计了两种网络模型结构,EFCOMFF-Net-v1和EFCOMFF-Net-v2,以探索缩小多尺度特征间相关性是否能提高遥感图像场景分类性能。EFCOMFF-Net-v1侧重于建立浅层特征之间相关性,而EFCOMFF-Net-v2则是为了探索深层特征相关性是否会提高网络表示能力。从实验结果分析,随着从浅层与深层建立特征相关性和伴随着参数量的增加的同时,除了在50%训练率的UCM和80%训练率的OPTIMAL-31两个数据集上分别以Resnet50和Densenet121为主干网络的方法EFCOMFF-Net-v2的OA值比EFCOMFF-Net-v1好之外,其它组合方式中EFCOMFF-Net-v1都比EFCOMFF-Net-v2的效果更好。这是由于深层特征与浅层特征之间的差距过大,而强行缩小局部轮廓信息和深层语义信息之间差距会造成由于空间分布差异丢失低层的细节信息,从而影响分类效果。其次,为了挖掘深层特征含有的全局信息,提出FAAM汇聚特征和编码更精确的空间信息。最后,提出FRM解决由于深层特征与浅层特征之间差异,通过重新编码空间信息,进一步缩小两者之间差异,从而平滑过渡融合特征。由实验结果可知,提出的EFCOMFF-Net在利用三种主干网络在几个数据集上的表现验证了我们方法的优越性且具有较好的鲁棒性。
未来方向:这项研究仍有一些不足之处。由于所提出 EFCOMFF-Net涉及到多尺度特征提取和融合,这就不可避免地伴随着图像尺度和通道数量的变化,因此与现有一些主流网络相比,参数增加会导致训练速度变慢。在未来,我们将试图改进卷积的参数配置和减少尺度变化来优化网络结构,降低网络参数量和提高运算速度,利用提出的方法在处理多尺度特征方面的优势可以很容易将其应用到图像分割和目标检测中。
参考文献
🤞🤞🤞
创作不易,请伸出您发财的小手,打赏下博主,谢谢。
🤞🤞🤞