EGNet:用于显著目标检测的边缘制导网络

EGNet:用于显著目标检测的边缘制导网络

#摘要

全卷积神经网络(FCNs)在显著目标检测任务中已显示出其优越性。然而,大多数现有的基于FCNs的方法仍然存在对象边界粗糙的问题。为了解决这一问题,本文将重点放在显著边缘信息和显著目标信息之间的互补性上。因此,我们提出了一个用于显著目标检测的边缘引导网络(EGNet),该网络由三个步骤组成,在一个网络中同时对这两种互补信息进行建模。在第一步中,我们采用渐进融合的方法提取显著的目标特征。第二步,将局部边缘信息和全局位置信息相结合,得到显著的边缘特征。最后,为了充分利用这些互补特征,我们将相同的显著边缘特征与不同分辨率的显著对象特征相结合。利用显著边缘特征中丰富的边缘信息和位置信息,融合后的特征可以更准确地定位显著目标,特别是其边界。实验结果表明,该方法在不需要任何预处理和后处理的情况下,在6个广泛使用的数据集上的性能优于目前最先进的方法。
源代码可从以下网址获得:

1.引言

显著物体检测(SOD)的目标是在图像中找到视觉上最鲜明的物体。最近,它已广泛地用于视觉和图像处理相关领域,例如内容感知图像编辑[6],对象识别[42],光合作用4,非照片写实渲染[41],弱监督语义分割[19]和图像检索[15]。此外,还有许多工作着重于视频显着目标检测[12,54]和RGB-D显着目标检测[11,66]。
  受视觉注意的认知研究启发[7,21],早期的工作主要是基于对比度在显著性检测中起着最重要的作用。这些方法主要受益于全局或局部对比度线索及其学习的融合权重。不幸的是,这些手工制作的特征虽然有时可以定位最显著的对象,但由于分割方法不理想,生成的显著图形状不规则,当前景和背景之间的对比度不足时,生成的显著图不可靠。
  最近,卷积神经网络(CNNs)[25]成功地突破了传统手工特征的限制,特别是在出现了完全卷积神经网络(FCNs)之后[34]。这些基于CNN的方法极大地刷新了几乎所有广泛使用的基准的排行榜,并以其高效和高性能逐渐取代了传统的显著目标检测方法。在基于CNNs结构的SOD方法中,大多数以图像块[64,65]为输入,利用多尺度或多上下文信息来获得最终的显著图。由于全卷积网络被提出用于像素标记问题,出现了几种端到端的深度结构[17,18,23,28,31,50,60,67]用于显著目标检测。输出显著图的基本单位从图像区域变为每个像素。一方面,结果会突出细节,因为每个像素都有其显著值。但另一方面,它忽略了对SOD起重要作用的结构信息。
  随着网络接收范围的增大,显著物体的定位变得越来越精确。然而,与此同时,空间连贯也被忽略了。近年来,一些基于SOD U-Net[40]的工作[32,33,59,61]为了得到精细的边缘细节,采用双向或递归的方式,利用局部信息对高层特征进行细化。但是,突出对象的边界仍未显式建模。没有注意到显著边缘信息和显著对象信息之间的互补性。此外,还有一些方法使用预处理(超像素)[20]或后处理(CRF)[17,28,33]来保持对象边界。这些方法的主要不便是推理速度慢。
  本文重点研究了显著边缘信息和显著目标信息之间的互补性。我们的目标是利用显著的边缘特征来帮助显著的对象特征更准确地定位对象,特别是它们的边界。综上所述,本文主要做了以下三个方面的工作:
  ·提出了一种EGNet,对网络中互补的显著对象信息和显著边缘信息进行显式建模,以保持显著对象边界。同时,显著的边缘特征也有助于定位。
  ·我们的模型通过允许这两个互补任务相互帮助来联合优化这两个任务,从而显著改善了预测的显著图。
  ·在6个广泛使用的数据集上,我们将所提出的方法与15种最新的方法进行了比较。在没有花哨的情况下,我们的方法在三个评价指标下都取得了最好的性能。
  我们方法的可视化示例。在对显著边缘信息进行建模和融合后,显著对象边界变得更加清晰。

2. 相关工作

在过去的几年里,人们提出了一些方法来检测图像中的显著目标。早期的方法根据手工特征采用自下而上的模式预测显著图,如对比度[5]、边界背景[57,68]、中心优先[24,44]等[22,44,51]。更多细节在[1,2,9]中介绍。
  近年来,卷积神经网络(CNNs)发挥其优势,刷新了计算机视觉多个领域的最新记录。
  Li等人[27]将图像区域调整到三个不同的尺度,提取多尺度特征,然后聚合这些多个显著图,得到最终的预测图。Wang等人[45]设计了一个神经网络来提取输入斑块的局部估计,并将这些特征与全局对比度和几何信息相结合来描述图像斑块。然而,在这些方法中,图像拼接的效果受到图像拼接性能的限制。在[34]中,Long等人首先提出了一种预测每个像素语义标签的网络(FCN)。受FCN的启发,越来越多的像素级显著性检测方法被提出。Wang等人[47]提出了一种用于显著目标检测的递归FCN结构。侯等人在HED[55]的基础上提出了一种短连接[17,18]来整合低层特征和高层特征,解决了尺度空间问题。在[62]中,Zhang 等引入了重新定义的丢弃和有效的混合上采样来学习深度不确定卷积特征,以增强鲁棒性和准确性。在[61]中,Zhang等,将多层次特征显式聚合成多分辨率,然后采用双向聚合的方法对这些特征图进行组合。张某等人[59]提出了一种融合多层次特征的双向消息传递模型,用于显著目标检测。Wang等人[53]利用固定地图帮助模型更准确地定位显著对象。在[35]中,Luo等提出了一种基于U-Net的结构,该结构包含IOU边缘丢失,以利用边缘线索来检测显著对象。在其他与显著相关的任务中,出现了一些使用边缘线索的方法。在[26]中,Li等生成对象的轮廓以获得显著的实例分割结果。在[29]中,Li等利用训练有素的轮廓检测模型来生成显著掩模,以克服人工标注带来的限制。
  与大多数基于SOD U-Net的方法[32,33,59,61]相比,我们显式地对网络中的边缘信息进行建模,以利用边缘线索。与使用边缘线索的方法[14,58,69]相比,主要区别在于我们使用单一的基网络,联合优化显著边缘检测和显著目标检测,允许它们相互帮助。这会带来更好的性能。与NLDF[35]相比,他们实现了受MumfordShah函数[38]启发的损失函数,以惩罚边缘上的错误。由于显著边缘是通过固定清醒算子从显著对象导出的,因此该惩罚实质上仅影响特征地图上显著边缘邻域中的梯度。这样在一定程度上优化了边缘细节,但没有充分利用显著边缘检测和显著目标检测之间的互补性。在我们的方法中,我们设计了两个模块来独立提取这两种特征。然后,我们通过一对一的指导模块融合这些互补的特征。这样,突出的边缘信息不仅可以提高边缘的质量,而且可以使定位更加准确。实验部分验证了我们的说法。

3.显著边缘制导网络

总体架构如图2所示。在本节中,我们首先在3.1节描述动机。然后介绍了采用的显著对象特征提取方法。3.2部分提出的非局部显著边缘特征提取模块,最后在3.3中介绍了提出的一对一引导模块。
图2.建议方法的管道。我们使用棕色粗线来表示刻度之间的信息流。PSFEM:渐进式显著目标特征提取模块。NLSEM:非局部显著边缘特征提取模块。O2OGM:一对一指导模块。FF:特征融合。SPV.:监督。

3.EGNet网络

EGNet网络,该网络由三个部分组成,NLSEM(边缘提取模块)、PSFEM(目标特征提取模块)、O2OGM(一对一指导模块),原始图片通过两次卷积输出图片边缘信息,与此同时,对原始图像进行更深层次的卷积操作提取salient object,让后将边缘信息与不同深度提取出来的显著目标在一对一指导模块中分别FF(融合),再分别经过卷积操作得到不同程度的显著性图像,最终输出了一张融合后的显著性检测图像。

3.1 Motivation

与基于区域的方法相比,基于像素的显著目标检测方法显示了其优越性。然而,它们忽略了图像的空间相干性,导致目标边界不能令人满意。大多数方法[17,18,31,33,59,61]都希望通过融合多尺度信息来解决这一问题。一些方法[17、28、33]使用诸如CRF之类的后处理来细化显著的对象边界。在NLDF[35]中,他们提出了借条损失来影响边缘周围位置的梯度。它们都没有注意到显著边缘检测和显著目标检测之间的互补性。一个好的显著边缘检测结果可以帮助显著目标检测任务进行分割和定位,反之亦然。基于这一思想,我们提出了一种EGNet来对单个网络中互补的显著边缘信息和显著对象信息进行端到端的建模和融合。

3.2.互补信息建模

我们建议的网络是独立于主干网的。在这里,我们使用其他基于深度学习的方法[17,35]提出的VGG网络来描述所提出的方法。首先,我们截断最后三个完全连接的层。在DSS[17,18]之后,我们将另一条边路径连接到VGG中的最后一个池层。因此,从骨干网络中,我们得到了Conv1-2、Conv2-2、Conv3-3、Conv4-3、Conv5-3、Conv6-3六个侧面特征。因为Conv1-2离输入太近,并且接收字段太小,所以我们丢弃了这条侧路S(1)。在我们的方法中,还有五条旁路S(2)、S(3)、S(4)、S(5)、S(6)。为简单起见,这五个特征可以由骨干特征集合C:C={C(2)、C(3)、C(4)、C(5)、C(6)}、(1)来表示,其中C(2)表示Conv2-2特征,依此类推。Conv22保留了更好的边缘信息[61]。因此,我们利用S(2)来提取边缘特征和其他边路径来提取显著的目标特征。

3.2.1渐进式显著目标特征提取

如图2的PSFEM所示,为了获得更丰富的上下文特征,我们利用广泛使用的体系结构UNET[40]来生成多分辨率特征。与原UNET不同的是,为了获得更鲁棒的显著目标特征,我们在每条边路径上增加了三个卷积层(图2中的Conv),并且在每个卷积层之后增加了一个RELU层来确保非线性。为简单起见,我们使用(Tab.1)表示这些卷积层和重叠层。此外,在每条侧路上都使用了深度监控。我们采用卷积层将特征映射转换为单通道预测掩码,并使用D(Tab.1)表示它。卷积层的详细信息可以在Tab1中找到。

3.2.2非局部显著边缘特征提取

在这个模块中,我们的目标是对显著的边缘信息进行建模,并提取显著的边缘特征。如上所述,Conv2-2保留了更好的边缘信息。因此,我们从Conv22中提取局部边缘信息。然而,要想得到显著的边缘特征,仅有局部信息是不够的。还需要高级语义信息或位置信息。就像U-Net架构一样,从顶层逐渐返回到底层,高层位置信息逐渐淡化。此外,顶层的接受范围最大,位置也最准确。因此,我们设计了一种自上而下的位置传播机制,将顶层位置信息传播到侧路S(2),以抑制不明显的边缘。融合特征C(2)可以表示为:
在这里插入图片描述
在这里插入图片描述

3.3.一对一制导模块

在获得互补的显著边缘特征和显著目标特征之后,我们的目标是利用显著边缘特征来引导显著目标特征在分割和定位方面都有更好的表现。简单的方法是融合FE和ˆF(3)。充分利用多分辨率显著对象特征将会更好。然而,自下而上渐进式融合显著边缘特征和多分辨率显著对象特征的缺点是显著边缘特征在融合显著对象特征时会被稀释。此外,目标是融合显著的目标特征和显著的边缘特征,以利用互补信息来获得更好的预测结果。因此,我们提出了一对一的指导模式。此外,实验部分验证了我们的观点。
具体地说,我们为S(3)、S(4)、S(5)、S(6)添加子侧路径。在每条子路径中,通过将显著边缘特征融合到增强的显著目标特征中,使得高层预测的定位更加准确,更重要的是使得分割细节变得更好。显著边缘引导特征(S特征)可以表示为:在这里插入图片描述
然后,与PSFEM相似,在每个子侧路径中采用一系列卷积层T进一步增强s特征,并采用过渡层D将多通道特征映射转换为单通道预测映射。为了说明清楚,在本模块中,我们将T和D表示为T‘和D’。按公式。(3),我们得到了增强的s-特征ˆG(I)。
在这里,我们还为这些增强的sFeature添加了深度监控。对于每个子侧输出预测图,损失可以计算为:
在这里插入图片描述
然后对多尺度精化预测图进行融合,得到融合图。融合映射的损失函数可以表示为:
在这里插入图片描述
其中,σ(∗,∗)表示预测图和显著地面事实之间的交叉熵损失,其形式与公式q相同。(5)。因此,该部分的损失和拟议网络的总损失可以表示为:
在这里插入图片描述

4.实验

4.1实施细节

我们在DUTS[46]数据集上训练我们的模型,随后是[33,49,59,63]。为了进行公平比较,我们分别使用VGG[43]和ResNet[16]作为主干网络。我们的模型在PyTorch中实现。用截断法线(σ=0.0 1)随机初始化新增加的卷积层的所有权重,并将偏差初始化为0。超参数设置如下:学习率=5e5,权重衰减=0.0005,动量=0.9,每侧输出的损失重量等于1。对十幅图像中的每一幅图像进行反向传播处理。我们在培训期间不使用验证数据集。我们训练我们的模型24个周期,并在15个周期后将学习率除以10。在推理过程中,我们能够得到预测的显著边缘图和一组显著图。在我们的方法中,我们直接使用融合后的预测图作为最终的显著图。

4.2.数据集和评估指标

我们已经在六个广泛使用的公共基准数据集上对所提出的体系结构进行了评估:ECSSD[56],PASCAL-S[30],DUT-OMRON[57],SOD[36,44],HKUIS[27],DUTS[46]。ECSSD[56]包含1000幅具有各种复杂场景的有意义的语义图像。PASCALS[30]包含从PASCAL VOC分割数据集[8]的验证集中选择的850个图像。DUT-OMRON[57]包含5168幅高质量但具有挑战性的图像。此数据集中的图像包含一个或多个具有相对复杂背景的显著对象。SOD[36]包含300幅图像,并被提出用于图像分割。显著对象的像素级注释由[44]生成。它是目前最具挑战性的数据集之一。HKU-IS[27]包含4447幅具有高质量注释的图像,其中许多图像具有多个不相连的显著对象。该数据集被分成2500个训练图像、500个验证图像和2000个测试图像。DUTS[46]是最大的显著对象检测基准。它包含10553个用于训练的图像和5019个用于测试的图像。对于不同的位置和比例,大多数图像都是具有挑战性的。在最近的工作[33,49,52]之后,我们使用DUTS数据集来训练所提出的模型。
我们使用三个广泛使用的标准度量,F度量,平均绝对误差(MAE)2,以及最近提出的基于结构的度量,即S-度量[10],来评估我们的模型和其他最先进的模型。F MEASURE是平均查准率和平均查全率的调和平均值,公式如下:
11
我们按照[5]中的建议,将β2=0.30设置为比召回率更重要的精确度。精度表示在预测的显著图中检测到的显著像素的比率。调用表示地面真实地图中检测到的显著像素的比率。精确度和召回率是在二值图像上计算的。因此,我们应该首先将预测图阈值化为二值图。不同的阈值有不同的准确率和召回率。我们可以绘制不同阈值下的精确度-召回率曲线。这里我们使用[17,18]提供的代码进行评估。遵循最重要的目标检测方法[17,18,32,59],我们报告了所有查准率-召回率对的最大F-测度。
MAE是评估预测图和地面实况图之间平均差异的指标。设P和Y表示显著图和归一化为[0,1]的基本事实。我们通过以下方式计算MAE分数:
在这里插入图片描述
其中W和H分别是图像的宽度和高度。
S-MEASURE侧重于评价显著图的结构信息,比F-MEASURE更接近人类视觉系统。因此,为了更全面的评估,我们加入了S-MEASURE。S-MEASURE可以计算为:
在这里插入图片描述
表2.六个广泛使用的数据集上的定量比较,包括最大F测量、MAE和S测量。‘-’表示在该数据集上训练相应的方法。↑&↓分别表示越大越好,∗表示使用预处理或后处理的方法。最好的三个结果分别标记为红色、蓝色和绿色。在三种评价指标下,我们的方法在这六个广泛使用的数据集上达到了最先进的水平。
表3.对SOD[36]和DUTS-TE[46]的消融分析。这里,B表示基线模型。SEC中介绍了EDGE PROG、EDGE TDLF、EDGE NLDF、MRF PROG、MRF OTO。见4.3.
其中,So和Sr表示区域感知结构相似度和对象感知结构相似度,γ默认设置为0.5。更多细节可以在[10]中找到。

4.3烧蚀实验与分析

在本节中,以DUTS-TR[46]作为训练集,我们探索所提出的网络中的不同组件在相对困难的数据集SOD[36]和最近提出的大数据集DUTS-TE[46]上的影响。

4.3.1互补信息建模

在这一小节中,我们将探讨显著边缘信息的作用,这也是我们的基本思想。基线是U-Net体系结构,它以PSFEM(图2)的方式集成了多尺度特征(从Conv2-2到Conv6-3)。我们去除基线中的侧路径S(2),然后将最终的显著特征ˆF(3)(Conv3-3的侧路径)和局部Conv2-2特征进行融合以获得显著的边缘特征。最后,将显著边缘特征和显著目标特征ˆF(3)相结合得到预测掩模。我们将这种使用边的策略称为边编程。结果显示在选项卡的第二行中。表3.证明了显著边缘信息对显著目标检测任务非常有用。

4.3.2自上而下的位置传播

在本小节中,我们将探讨自上而下位置传播的作用。与上一小节SEC中提到的EDGE程序相比。见4.3.1,我们利用自上而下的位置传播从顶层而不是侧路S(3)提取更准确的位置信息。我们称这种以边为边的策略为边TDLP。通过比较Tab 3的第二行和第三行,证明了自上而下位置传播的效果。此外,对Tab 3的第一行和第三行进行了比较,通过对网络内这两种互补信息的显式建模,在不增加时间和空间消耗的情况下,在数据集上(F测度下分别为3.1%和2.4%)上的性能有了很大的提高。

4.3.3边缘线索的使用机制

为了展示与NLDF[35]相比的优势,NLDF[35]在网络末端添加IOU损失以惩罚边的错误。我们将相同的欠条损失添加到基线中。这种策略称为EDGE NLDF。性能显示在选项卡的第4行。3.与基线模型相比,改进幅度有限。这也说明了本文提出的利用边缘信息的方法更加有效。可视化结果如图4所示。与没有边缘约束的基线模型相比,在加入了NLDF[35]中使用的边缘惩罚后,边缘信息只能帮助细化边界。特别地,这种惩罚不能帮助去除显著性预测掩码中的冗余部分,也不能弥补丢失的部分。相比之下,本文提出的互补信息建模方法考虑了显著边缘信息和显著目标信息之间的互补性,在分割和定位方面都有较好的效果。
此外,为了进一步证明显著边缘检测和显著目标检测是相辅相成的。我们将NLDF生成的显著边缘与我们生成的显著边缘进行比较。预先训练的模型和代码均由作者提供。如选项卡中所示。4、实验结果表明,在查全率和F-测度下,我们的方法生成的显著边缘要好得多,尤其是在召回率和F-测度下。结果表明,该方法的边缘精度更高。
在这里插入图片描述

4.3.4互补特征融合

在得到显著边缘特征和多分辨率显著目标特征之后。我们的目标是融合这些互补的功能。这里我们比较了三种融合方法。第一种方式是缺省方式,它集成了显著边特征(FE)和显著对象特征ˆF(3),该特征位于U-Net体系结构的顶层。第二种方法是逐步融合多分辨率特征ˆF(3)、ˆF(4)、ˆF(5)、ˆF(6),称为MRF prog。第三种方式是建议的一对一指导,称为MRF OTO。这里的MRF指的是多分辨率融合。结果显示在选项卡的第三、第五、第六行。分别为3。由此可见,我们提出的一对一指导方法最适合我们的整个架构。

4.4.与最先进的比较

在本节中,我们将我们提出的EGNet与以前的15种最先进的方法进行比较,包括DCL[28]、DSS[17,18]、NLDF[35]、MSR[26]、ELD[13]、DHS[32]、RFCN[48]、UCF[62]、Amulet[61]、PAGR[63]、PICANet[33]、SRM[49]、DGRL[52]、RAS3和C2S。请注意,上述方法的所有显著图都是通过运行源代码或由作者预先计算生成的。评估代码在[10,17,18]中提供。
F-measure, MAE, and S-measure.我们从F-measure, MAE, and S-measure三个方面对我们提出的方法进行了评估,并与其他显著目标检测方法进行了比较,如Tab2所示。我们可以看到不同的方法可以使用不同的主干网。为了进行公平的比较,我们分别在VGG[43]和ResNet[16]上训练我们的模型。可以看出,在所有比较的数据集上,我们的模型在所有评估度量下都比最新的方法表现得更好,特别是在相对具有挑战性的数据集SOD36,44和最大的数据集DUTS46上。具体地说,与当前的最佳方法[33]相比,在六个数据集上的平均FMeasure改进为1.9%。请注意,这是在没有任何预处理和后处理的情况下实现的。
精确召回曲线。除了选项卡中显示的数字比较之外。2,我们在三个数据集上绘制了所有比较方法的查准率-召回率曲线。图3.可以看出,表示所提出的方法的实红线在大多数阈值上都优于所有其他方法。由于互补的显著边缘信息的帮助,结果产生了清晰的边缘信息和准确的定位,从而得到了更好的PR曲线。
视觉对比。在图5中,我们显示了一些可视化结果。可以看出,我们的方法在显著目标分割和定位方面有更好的表现。值得一提的是,由于突出的边缘特征,我们的结果不仅可以突出显著的区域,而且可以产生连贯的边缘。例如,对于第一个样本,由于受复杂场景的影响,其他方法不能准确地定位和分割显著对象。然而,受益于互补的显著边缘特征,我们的方法表现得更好。对于第二个样本,其中显著的对象相对较小,我们的结果仍然非常接近地面事实。

5.结论

在本文中,我们的目标是很好地保持显著的对象边界。不同于其他融合多尺度特征或利用后处理的方法,我们关注的是显著边缘信息和显著目标信息之间的互补性。基于这一思想,我们提出了EGNet来对网络中的这些互补特征进行建模。首先,基于UNET提取多分辨率显著目标特征。然后,提出了一种融合局部边缘信息和全局位置信息的非局部显著边缘特征提取模块。最后,我们采用一对一的引导模块来融合这些互补的特征。在显著边缘特征的帮助下,改进了显著对象边界和定位。在六个广泛使用的数据集上,我们的模型在没有任何预处理或后处理的情况下,相对于最先进的方法表现出了良好的性能。我们还对EGNet的有效性进行了分析。
在这里插入图片描述

  • 2
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值