Multi-scale Interactive Network for Salient Object Detection
现有问题:
一、显著目标的可变尺度和未知类别一直时一个巨大的挑战,这些都与多尺度、多层次特征的利用密切相关。
二、此外,可变尺度带来的类(前景背景)不平衡问题会削弱二值交叉熵的影响,并且会导致预测的空间不一致。
文章解决思路:
一、针对问题一,作者提出了聚合交互模块aggregate interaction module(AIM)来整合相邻层之间的特征;
作者通过在每个解码器快嵌入自互模块self-interaction module(SIM),从整合的特征中获得更有效的多尺度特征。
二、针对问题二,作者提出了一致性增强损失consistency-enhanced loss(CEL),强调背景前景的差异并且保持了类内一致性。
整体网络结构图:
作者提出了交互整合网络来融合多层次、多尺度特征信息,进而处理显著目标检测任务中相关的尺度变化问题。
AIM旨在实现**层间卷积特征的有效利用,SIM旨在从层内特征中产生多尺度表征。
一、模型建立在FCN架构上,预训练的VGG-16和ResNet-50作为骨干网,两者仅仅保留了特征提取网络。具体是,移除了VGG-16最后的max-pooling层来保留最后卷积层的细节。
FU包含了一个卷积层,一个BN层,一个ReLU激活层。
二、Aggregate Interaction Module(AIM)
多层的整合可以增强不同分辨率特征的表征能力。
(1)浅层中,可以进一步增强细节信息,抑制噪音。
(2)在中间层中,同时考虑了语义和细节信息,并且特征中不同抽象信息的比例可以根据网络本身的需要自适应的调整,因此实现了更灵活的特征利用。
(3)在高层中,当考虑相邻分辨率时,可以挖掘更丰富的语义信息。
整体的处理过程如下:
三、Self-Interaction Module(SIM)
损失函数:Consistency-Enhanced Loss
最终的预测如下:
二值交叉熵损失函数如下:
交叉熵损失函数如下:
总损失函数如下:
评价指标:
PR曲线
F-measure
MAE
S-measure :Sm = α·So+(1 α)·Sr, where α is set to 0.5 。
E-measure
实施细节
epoch:50
mini-batch:4
optimizer:SGD with a wight decay of 0.0005 momentum=0.9 initial lr=0.001
input size:320*320