U2-Net: Going Deeper with Nested U-Structure for Salient Object Detection

医学分割哇哇哇哇哇哇哇哇哇

已于 2024-05-24 10:53:45 修改

阅读量504

点赞数

文章标签：目标检测目标跟踪人工智能 1024程序员节

于 2023-10-20 11:30:18 首次发布

本文链接：https://blog.csdn.net/weixin_45622568/article/details/133940290

版权

u2net:使用嵌套u结构进行显著目标检测

摘要：在本文中，我们设计了一个简单而强大的深度网络架构，U2-Net，用于显著目标检测(SOD)。我们的u2net架构是一个两层嵌套的u结构。该设计具有以下优点:(1)由于在我们提出的残差u块(RSU)中混合了不同大小的接受域，它能够从不同尺度捕获更多的上下文信息;(2)由于在这些残差u块中使用池化操作，它增加了整个架构的深度，而不会显著增加计算成本。这种架构使我们能够从头开始训练深度网络，而无需使用图像分类任务中的主干。我们实例化了两种模型，U2Net (176.3 MB, GTX 1080Ti GPU上的30 FPS)和U2Net†(4.7 MB, 40 FPS)，以方便在不同环境中的使用。两种模型在6个SOD数据集上都取得了具有竞争力的性能。

1 介绍

显著目标检测(SOD)旨在分割图像中最具视觉吸引力的目标。它广泛应用于视觉跟踪和图像分割等领域。近年来，随着深度卷积神经网络(cnn)的发展，特别是全卷积网络(FCN)[24]在图像分割中的兴起，显著目标检测得到了显著提高。人们自然会问，还缺少什么?让我们后退一步，看看剩下的挑战。

大多数SOD网络的设计都有一个共同的模式[18,27,41,6]，即注重充分利用现有主干提取的深度特征，如Alexnet[17]、VGG[35]、ResNet[12]、ResNeXt[44]、DenseNet[15]等。然而，这些主干最初都是为图像分类而设计的。它们提取的特征是语义的代表，而不是局部细节和全局对比信息，这是显著性检测所必需的。它们需要是在ImageNet[5]数据上预训练，这是数据效率低下的，特别是如果目标数据遵循与ImageNet不同的分布。这就引出了我们的第一个问题:我们是否可以为SOD设计一个新的网络，允许从头开始训练，并获得与基于现有预训练主干的网络相当或更好的性能?关于SOD的网络架构还有一些问题。首先，它们往往过于复杂。这部分是由于在现有主干中添加了额外的特征聚合模块，以从这些主干中提取多级显著性特征。其次，现有主干通常通过牺牲特征图的高分辨率来实现更深层次的体系结构。为了在可承受的内存和计算成本下运行这些深度模型，特征图在早期阶段被缩小到较低的分辨率。例如，在ResNet和DenseNet[15]的早期层，使用步幅为2的卷积，然后使用步幅为2的maxpooling，将特征映射的大小减少到四分之一输入映射。然而，除了深度结构外，高分辨率在分割中也起着重要的作用。

因此，我们接下来的问题是:我们能否在保持高分辨率特征图的同时，以较低的内存和计算成本进行更深入的研究?我们的主要贡献是一个新颖而简单的网络架构，称为U2-Net，它解决了上面的两个问题。首先，U2-Net是为SOD设计的两层嵌套u结构，不使用任何来自图像分类的预训练主干。它可以从零开始训练，以获得有竞争力的表现。其次，这种新颖的架构可以在不显著增加内存和计算成本的情况下，使网络更深入，获得高分辨率。这是通过嵌套的u结构实现的:在底层，我们设计了一种新的残差u块(RSU)，它能够在不降低特征映射分辨率的情况下提取阶段内的多尺度特征;在顶层，有一个类似U-Net的结构，其中每个阶段都由一个RSU块填充。两级配置导致嵌套的u结构(见图5)。我们的U2-Net (176.3 MB)在六个公共数据集上实现了与最先进(SOTA)方法的竞争性能，并在1080Ti GPU上实时运行(30 FPS，输入大小为320×320×3)。为了便于在计算和内存受限的环境中使用我们的设计，我们提供了一个小版本的u2net，称为u2net†(4.7 MB)。U2Net†在40 FPS下与大多数SOTA模型(见图1)相比取得了具有竞争力的结果。

图1所示。我们的U2-Net模型的大小和性能与其他最先进的SOD模型的比较。maxFβ测量在数据集ECSSD[46]上计算。红星表示我们的U2-Net (Ours) (176.3 MB)，蓝星表示我们的小版本U2-Net†(Ours†)(4.7 MB)。

2 相关工作

近年来，人们提出了许多深度显著目标检测网络[22,33]。与基于前景一致性[49]、高光谱信息[20]、超像素相似度[55]、直方图[26,25]等手工特征的传统方法[2]相比，深度显著目标检测网络表现出更强的竞争力。

多层深度特征集成:最近的研究[24,45]表明，来自多个深层的特征能够产生更好的结果[50]。在此基础上，提出了多层次深度特征集成和聚合的策略和方法。Li等人(MDF)[18]提出将目标像素周围的图像patch馈送到网络中，然后获得描述该像素显著性的特征向量。Zhang等人(Amulet)[53]通过将多层次特征聚合成不同的分辨率来预测显著性地图。Zhang等人(UCF)[54]提出通过引入重新制定的dropout和混合上采样模块来减少反卷积算子的棋盘伪影。Luo等人[27]设计了一种采用4×5网格结构的显著性检测网络(NLDF+)，其中深层特征与浅层特征逐步融合

特性。Zhang等人(LFR)[52]通过从原始输入图像和具有兄弟结构的反射图像中提取特征来预测显著性图。Hou等(DSS+)[13]提出通过引入深层到浅层的短连接来整合多层次特征。Chen等人(RAS)[4]通过使用骨干网络的侧输出显著性作为特征注意指导，迭代地预测和改进显著性图。Zhang等(BMPM)[50]提出了一种受控的双向传递策略来整合浅层和深层特征。Deng等人(R3Net+)[6]交替合并浅层和深层特征，以改进预测的显著性图。Hu等人(RADF+)[14]提出通过循环聚合多层次深度特征来检测显著目标。Wu等人(MLMS)[42]通过开发一种新的互学习模块来更好地利用边界和区域的相关性，从而提高了显著性检测的准确性。Wu等人提出使用级联部分解码器(cascading Partial Decoder, CPD)框架快速准确地检测显著目标。这类深度方法利用了骨干网络提取的多层次深度特征，与传统方法相比，显著目标检测的门槛大大提高。

多尺度特征提取:如前所述，显著性检测需要局部和全局信息。3 × 3滤波器可以很好地提取每一层的局部特征。然而，简单地增大滤波器的尺寸很难提取全局信息，因为这样会大大增加参数的数量和计算成本。许多作品更注重提取全局语境。Wang等人(SRM)[40]采用金字塔池模块[57]来捕获全局上下文，并提出了一种多阶段的显著性图细化机制。Zhang等(PAGRN)[56]开发了空间型和通道型的注意模块来获取各层的全局信息，并提出了一种渐进式的注意引导机制来细化显著性图。Wang等人(DGRL)[41]开发了一个类似于初始化的[36]上下文加权模块来全局定位显著性对象，然后使用边界细化模块来局部细化显著性图。Liu等人(PiCANet)[23]反复捕获局部和全局像素级上下文关注，并通过将其与UNet体系结构结合来预测显著性图。Zhang等(CapSal)[51]设计了局部和全局感知模块，从骨干网提取的特征中提取局部和全局信息。Zeng等人(MSWS)设计了一个注意力模块来预测前景物体在图像区域上的空间分布，同时对其特征进行聚合。Feng等(AFNet)[9]开发了全局感知模块和注意反馈模块，以更好地探索显著对象的结构。Qin等人(BASNet)[33]通过堆叠两个不同配置的u - net提出了一个预测定义模型等效和混合损失用于边界感知显著目标检测。Liu等人(PoolNet)[22]通过引入用于提取全局定位特征的全局引导模块和用于融合全局和精细特征的金字塔池化模块的多尺度特征聚合模块，开发了用于显著目标检测的编码器-解码器架构。在这些方法中，提出了许多启发模块，从现有主干中提取的多层次深度特征中提取多尺度特征。这些新模块引入了多样化的感受野和更丰富的多尺度上下文特征，显著提高了显著目标检测模型的性能。

图2。现有卷积块和我们提出的残差u块RSU的说明:(a)普通卷积块PLN， (b)类残差块RES， (c)类稠密块DSE， (d)类初始块INC和(e)我们的残差u块RSU。

综上所述，多层次深度特征集成方法主要侧重于开发更好的多层次特征聚合策略。另一方面，多尺度特征提取方法的目标是设计新的模块，从骨干网获得的特征中提取局部和全局信息。我们可以看到，几乎所有的上述方法都试图更好地利用现有图像分类主干生成的特征映射。本文提出了一种新颖、简单的结构，直接分阶段提取多尺度特征，用于显著目标检测，而不是开发和添加更复杂的模块和策略来利用这些骨干特征。

3 提出的方法

首先，我们介绍了我们提出的残差u块的设计，然后描述了用该块构建的嵌套u架构的细节。本节最后介绍了网络监控策略和训练损失。

3.1 残差U型模块

局部和全局上下文信息对于显著目标检测和其他分割任务都非常重要。在现代CNN设计中，如VGG、ResNet、DenseNet等，尺寸为1×1或3×3的小卷积滤波器是最常用的特征提取组件。它们之所以受欢迎，是因为它们需要更少的存储空间，而且计算效率高。图2(a)-(c)显示了具有小接受域的典型现有卷积块。浅层的输出特征图只包含局部特征，因为1×1或3×3过滤器的接受域太小，无法捕获全局信息。为了在高分辨率的浅层特征图中获得更多的全局信息，最直接的方法是扩大接受域。图2 (d)显示了一个类似于初始块[50]的初始块，它试图通过使用扩张卷积[3]来扩大接受域，从而提取局部和非局部特征。然而，在原始分辨率的情况下对输入特征映射进行多次扩展卷积(特别是在早期)需要太多的计算和内存资源。为了降低计算成本，PoolNet[22]采用并行配置

从金字塔池模块(PPM)[57]中提取，它在下采样特征映射上使用小核滤波器，而不是在原始大小的特征映射上进行扩展卷积。但是，通过直接上采样和级联(或相加)来融合不同尺度的特征可能会导致高分辨率特征的退化。

受U-Net[34]的启发，我们提出了一种新的残差u块RSU来捕捉阶段内的多尺度特征。RSU-L(Cin, M, Cout)结构如图2(e)所示，其中L为编码器层数，Cin, Cout为输入输出通道，M为RSU内层通道数。因此，我们的RSU主要由三个部分组成:(i)输入卷积层，它将输入特征映射x (H ×W ×Cin)转换为通道为Cout的中间映射F1(x)。这是一个用于局部特征提取的普通卷积层。

(ii)高度为L的类似U- net的对称编码器-解码器结构，以中间特征映射F1(x)为输入，学习提取和编码多尺度上下文信息U(F1(x))。U表示U- net型结构，如图2(e)所示。L越大，剩余u块(RSU)越深，池化操作越多，接受域范围越大，局部和全局特征越丰富。

配置此参数可以从任意空间分辨率的输入特征映射中提取多尺度特征。从逐渐下采样的特征图中提取多尺度特征，通过逐级上采样、级联和卷积编码成高分辨率特征图。这个过程减轻了大尺度直接上采样造成的精细细节损失。

(iii)残差连接，通过求和F1(x) + U(F1(x))融合局部特征和多尺度特征。

为了更好地说明我们设计背后的直觉，我们将剩余u块(RSU)与图3中的原始剩余块[12]进行比较。残差块中的操作可以总结为H(x) = F2(F1(x))+x，其中H(x)表示输入特征x的期望映射;F2 F1代表权值层，它们是卷积此设置下的操作。RSU与残差块在设计上的主要区别在于，RSU用类似U- net的结构代替了普通的单流卷积，并用权值层变换后的局部特征代替了原始特征:HRSU(x) = U(F1(x)) +F1(x)，其中U表示图2(e)所示的多层U结构。这种设计变化使网络能够直接从每个残差块中提取多个尺度的特征。更值得注意的是，由于u结构的计算开销很小，因为大多数操作都应用在下采样的特征映射上。如图4所示，其中我们展示了RSU与图2 (a)-(d)中其他特征提取模块的计算成本比较。密集块(DSE)、起始块(INC)和RSU的FLOPs都随内部通道m的数量呈二次增长，但RSU的二次项系数要小得多，从而提高了效率。其计算开销与纯卷积(PLN)和残差块(RES)块(均为线性w.r.t. M)相比并不显著。

3.2. u2net体系结构

为不同的任务堆叠多个类似u - net的结构已经探索了一段时间。，例如用于姿态估计的堆叠沙漏网络[31]、DocUNet[28]、CU-Net[38]等。这些方法通常依次堆叠类似U-Net的结构以构建级联模型，可以总结为“(U×n-Net)”，其中n是重复U-Net模块的数量。问题是计算和内存成本被放大了n倍。

在本文中，我们提出了一种不同的公式，UnNet，用于显著目标检测的堆叠u结构。

我们的指数符号是指嵌套的u型结构，而不是级联堆叠。理论上，指数n可以设置为任意正整数，实现单级或多级嵌套u型结构。但是，嵌套层次太多的体系结构将过于复杂，难以在实际应用程序中实现和使用。

这里，我们设置n为2来构建我们的u2net。我们的U2-Net是一个两层嵌套的u型结构，如图5所示。它的顶层是一个由11级组成的大u型结构(图5中的立方体)，每个级都由一个配置良好的剩余u块(RSU)填充(底层u型结构)。因此，嵌套的u型结构使得阶段内多尺度特征的提取和阶段间多层次特征的聚合更加高效。

如图5所示，U2-Net主要由三部分组成:(1)六级编码器，(2)五级解码器，(3)与解码器级和最后一个编码器级相连的显著性图融合模块。(i)在编码器级En 1、En 2、En 3和En 4中，我们分别使用残差u块RSU-7、RSU-6、RSU-5和RSU-4。如前所述，“7”、“6”、“5”和“4”表示RSU块的高度(L)。L通常根据输入特征图的空间分辨率进行配置。对于高度和宽度较大的特征图，我们使用更大的L来捕获更多的大比例尺信息。En 5和En 6中特征图的分辨率相对较低，进一步降低这些特征图的采样会导致丢失有用的上下文。因此，在en5和en6阶段，RSU-

使用4F，其中“F”表示RSU是一个扩展版本，其中我们将池化和上采样操作替换为扩展卷积(见图5)。这意味着RSU-4F的所有中间特征映射与其输入特征映射具有相同的分辨率。

(ii)对于En 6，解码器级具有与其对称编码器级相似的结构。在de5中，我们还使用了扩展版剩余u块RSU-4F，这与编码器阶段En 5和En 6中使用的相似。

每个解码器级都将其前一级和对称编码器级的上采样特征映射的拼接作为输入，如图5所示。

(iii)最后一部分是显著性图融合模块，用于生成显著性概率图。与HED[45]类似，我们的U2-Net首先通过一个3 × 3卷积层和一个S型函数，从En 6、De 5、De 4、De 3、De 2和De 1阶段生成6个侧输出显著性概率图S(6)侧、S(5)侧、S(4)侧、S(3)侧、S(2)侧、S(1)侧。然后，它将侧输出显著性映射的logits (sigmoid函数之前的卷积输出)上采样到输入图像大小，并通过连接操作将它们融合，然后使用1×1卷积层和sigmoid函数生成Sf使用的最终显著性概率图(见图5右下角)。

总之，我们的u2net的设计允许具有丰富的多尺度特征和相对较低的计算和内存成本的深度架构。此外，由于我们的u2net架构只建立在我们的RSU块上，而不使用任何从图像分类中适应的预训练主干，因此它很灵活，很容易适应不同的工作环境，而性能损失很小。在本文中，我们通过使用不同的过滤器编号配置提供了我们的U2-Net的两个实例:一个正常版本的U2-Net (176.3 MB)和一个相对较小的版本的U2-Net†(4.7 MB)。表1的最后两行给出了详细的配置。

图4。不同块的计算成本(GFLOPS千兆浮点运算)如图2所示:计算成本是基于将尺寸为320× 320× 3的输入特征图转换为320× 320×64的输出特征图。“PLN”、“RES”、“DSE”、“INC”和“RSU”分别表示普通卷积块、残差块、稠密块、初始块和我们的残差u块。

图5。我们提出的u2net架构的说明。主要架构是一个类似u网的编码器-解码器，其中每个阶段由我们新提出的残差u块(RSU)组成。例如，en1基于图2(e)所示的RSU块。表1最后两行给出了各阶段RSU模块的详细配置。

表1。消融研究中不同结构的详细配置。“PLN”、“RES”、“DSE”、“INC”、“PPM”和“RSU”分别表示普通卷积块、残差块、稠密块、初始块、金字塔池模块和残差u块。“NIV U2-Net”表示U-Net，它的每个阶段都被一个幼稚的U-Net块所取代。“I”、“M”、“O”表示每个块的输入通道数(Cin)、中间通道数和输出通道数(Cout)。“En i”和“De j”分别表示编码器和解码器级。“NIV -L”和“RSU-L”中的数字“L”表示原始u块高度和剩余u块高度。

3.3 监督

在训练过程中，我们使用类似于HED b[45]的深度监督。其有效性已在HED和DSS中得到了验证。我们的训练损失定义为:

其中，，M = 6，代表图中的六个部分（Sup1, Sup2, · · · , Sup6），'ᵢde(m) 是边缘输出显著性图 S(m)side 的损失，而 Lfuse 是最终融合输出显著性图 Sfuse 的损失。w(m)side 和 wfuse 是每个损失项的权重。对于每个损失项 L，我们使用标准的二元交叉熵来计算损失：

其中，(r, c) 是像素坐标，(H, W) 是图像的尺寸（高度和宽度）。PG(r,c) 和 PS(r,c) 分别表示地面实况和预测的显著性概率图的像素值。训练过程旨在最小化方程（1）中的总体损失 L。在测试过程中，我们选择融合输出 Lfuse 作为最终的显著性图。

4 实验数据

4.1 数据集

训练数据集:我们在DUTS- tr上训练我们的网络，DUTS- tr是DUTS数据集[39]的一部分。DUTS-TR共包含10553张图像。目前，它是最大和最常用的显著目标检测训练数据集。

我们通过水平翻转来增强这个数据集，以获得21106张离线训练图像。

评估数据集:使用六个常用的基准数据集来评估我们的方法，包括:DUTOMRON [47]， DUTS-TE [39]， HKU-IS [18]， ECSSD [46]， PASCAL-S [19]， SOD[30]。DUT-OMRON包含5168张图像，其中大多数包含一两个结构复杂的前景物体。DUTS数据集由DUTS- tr和DUTS- te两部分组成。如上所述，我们使用DUTS-TR进行培训。因此，我们选择包含5019张图像的DUTS-TE作为我们的评估数据集之一。HKU-IS包含4447幅具有多个前景目标的图像。ECSSD包含1000张结构复杂的图像，其中许多包含大型前景对象。

PASCAL-S包含850张具有复杂前景对象和杂乱背景的图像。SOD只包含300张图像。但这是非常具有挑战性的。因为它最初是为图像分割而设计的，并且许多图像对比度低或包含复杂的前景对象与图像边界重叠。

4.2 评价指标

深度显著目标方法的输出通常是具有相同空间分辨率的概率图

输入图像。预测的显著性图的每个像素的值在0和1(或[0,255])的范围内。

ground truth通常是二进制掩模，其中每个像素为0或1(或0和255)，其中0表示背景像素，1表示前景突出对象像素。

为了综合评价这些概率图与地面真实情况的质量，使用了6个度量，包括:(1)Precision-Recall (PR)曲线，(2)最大F测度(maxFβ)[1]，(3)平均绝对误差(M AE)[23,33,22]，(4)加权F测度(F wβ)[29]，(5)结构测度(Sm)[8]和(6)边界松弛F测度(relaxF bβ) [33]: (1) PR曲线是基于一组Precision-Recall对绘制的。给定一个预测的显著性概率图，其精度和召回分数是通过比较其阈值二值掩码与真实掩码来计算的。数据集的查准率和查全率是通过对这些显著性图的查准率和查全率平均分来计算的。通过改变阈值从0到1，我们可以得到一组数据集的平均精度-召回对。

(2)采用f -测度f - β对精密度和召回率进行综合评价:

我们将β2设置为0.3，并报告每个数据集的最大Fβ (maxFβ)，类似于先前的工作[1,23,50]。

(3) MAE是平均绝对误差(Mean Absolute Error)，表示预测的显著性图与其真实掩模之间的平均每像素差。定义为:

其中P、G分别为显著目标检测的概率图和相应的地面真值，(H、W)和(r、c)分别为(高、宽)和像素坐标。

(4)利用加权F测度(F wβ)[29]作为maxFβ的补充测度，克服了“插值缺陷、依赖缺陷和等重要缺陷”[23]可能造成的不公平比较。定义为:

(5)利用s测度(Sm)评价预测的非二值显著性图与地面真值的结构相似度。s测度定义为区域感知Sr和对象感知So结构相似度的加权和:

其中α通常设置为0.5。

(6)松弛边界F-measure relaxF bβ[7]用于定量评价预测显著性图[33]的边界质量。给定显著性概率映射P∈[0,1]，通过简单的阈值运算(阈值设为0.5)得到其二值掩码Pbw。然后，进行XOR(Pbw, Perd)运算，得到其1像素宽的边界，其中，Perd表示Pbw的侵蚀二进制掩膜[11]。用同样的方法得到了地面真值掩模的边界。松弛边界F-measure relaxF bβ的计算与式(3)相似。不同之处在于，在式(3)中使用了松弛边界精度(relaxP recisionb)和松弛边界精度(relaxP recisionb)而不是P精度和Recall。松弛边界精度(relaxP recisionb)的定义是在ρ像素范围内预测边界像素与地面真实边界像素的比例。松弛边界召回(relaxRecallb)被定义为在预测边界像素的ρ像素内的真实边界像素的分数。松弛参数ρ设为3，与前面的工作[33]一样。给出了一个数据集，报告了其所有预测显著性图的平均松弛f bβ。

4.3. 实现细节

在训练过程中，每个图像首先调整大小为320×320，然后随机垂直翻转并裁剪为288×288。我们的网络中没有使用任何现有的骨干网。因此，我们从头开始训练我们的网络，所有的卷积层都是由Xavier[10]初始化的。

损耗权w(m)侧和wf - use侧均设为1。Adam优化器[16]用于训练我们的网络，其超参数设置为默认值(初始学习率lr=1e-3, beta =(0.9, 0.999)， eps=1e-8，权重衰减=0)。我们训练网络，直到损失收敛，而不使用验证集，遵循之前的方法[22,23,50]。

经过60万次迭代(批大小为12)，训练损失收敛，整个训练过程大约需要120小时。在测试过程中，将输入图像(H × W)的大小调整为320×320，并将其输入网络以获得显著性图。大小为320×320的预测显著性图被调整回输入图像的原始大小(H × W)。双线性插值在两个调整过程中都使用。我们的网络是基于Pytorch 0.4.0[32]实现的。培训和测试都是在一台八核16线程PC上进行的，配备AMD Ryzen 1800x 3.5 GHz CPU (32GB RAM)和GTX 1080ti GPU (11GB内存)。稍后我们将发布代码。

4.4. 消融实验

为了验证我们的U2-Net的有效性，在以下三个方面进行了烧蚀研究:i)基本块，ii)架构和iii)骨干。所有消融研究都遵循相同的实施设置。

4.4.1消融模块

表2。不同块体、结构和主干的烧蚀研究结果。“PLN”、“RES”、“DSE”、“INC”、“PPM”和“RSU”分别表示普通卷积块、残差块、稠密块、初始块、金字塔池模块和残差u块。“NIV U2-Net”表示U-Net，它的每个阶段都被一个幼稚的UNet块所取代。“Time (ms)”(ms: milliseconds)的代价是通过平均ECSSD数据集中图像的推理时间代价来计算的。带有粗体字体的V值表示最佳的两个性能。

在块消融中，目标是验证我们新设计的剩余u块(rsu)的有效性。

具体来说，我们修复了我们的u2net的外部编码器-解码器架构，并将其阶段替换为其他流行的块，包括普通卷积块(PLN)、类残差块(RSE)、类稠密块(DSE)、类初始块(INC)和除了RSU块之外的金字塔池模块(PPM)，如图2 (a)-(d)所示。详细的配置见表1。

表2显示了消融研究的定量结果。我们可以看到，基准U-Net的性能是最差的，而PLN U-Net、RES U-Net、DES U-Net、INC U-Net和PPM U-Net的性能优于基准U-Net。因为它们要么更深，要么具有提取多尺度特征的能力。然而，它们的性能仍然不如我们的全尺寸U2-Net和小版本的U2-Net†。特别是，与DUT-OMRON和ECSSD数据集上第二好的模型(在块消融研究中)相比，我们的全尺寸U2-Net模型的maxFβ分别提高了3.3%和1.8%，M AE分别降低了12.9%和21.4%。与基线U-Net相比，我们的u2net和u2net†在DUT-OMRON数据集上提高了9.8%和8.8%的maxFβ，降低了34.1%和27.0%的M AE，这是显著的改进。在ECSSD数据集上，虽然我们的U2-Net和U2-Net†相对于基线U-Net的maxFβ改进(5.5%，4.7%)略低于DUT-OMRON，但M AE的改进是显著的

大得多(50.0%，38.0%)。因此，我们认为新设计的残差u块RSU在此显著目标检测任务中优于其他RSU。此外，基于剩余u块(RSU)的u2net架构没有明显的时间成本增加。

4.4.2 消融结构

正如我们上面提到的，以前的方法通常使用级联的方式来堆叠多个相似的结构，以构建更具表现力的模型。这个想法背后的一个直觉是，多个相似的结构能够逐渐完善结果，同时减少过拟合。堆叠沙漏网[31]和CU-Net[37]是这一类别中的两个代表性型号。因此，我们采用了堆叠的HourglassNet和CU-Net来比较级联架构和嵌套架构之间的性能。如表2所示，我们的全尺寸U2-Net和小尺寸模型U2-Net†都优于这两种级联模型。值得注意的是，堆叠沙漏网和CU-Net都使用改进的u - net类模块作为其堆叠子模型。为了进一步证明我们的嵌套架构的有效性，我们还展示了基于朴素u块(NIV)的U2-Net的性能，而不是我们新提出的残差u块。我们可以看到，NIV u2net仍然比这两个级联模型实现更好的性能。此外，嵌套架构比级联架构更快。总而言之，我们的嵌套体系结构在准确性和速度方面都能够比级联体系结构获得更好的性能。

4.4.3 Ablation on Backbones

与以往使用骨干网(如VGG、ResNet等)作为编码器的显著目标检测模型不同，我们新提出的U2-Net架构是无骨干网的。为了验证无骨干网设计，我们进行了用不同的骨干网VGG16和ResNet50替换全尺寸U2-Net的编码器部分的消融研究。

实际上，我们通过在最后一个卷积阶段之后添加额外的阶段来调整主干(VGG-16和ResNet50)，以实现与原始的U2-Net架构设计相同的接受域。如表2所示，使用骨干网和我们的rsu作为解码器的模型获得了比以前的消融更好的性能，并且与我们的小型U2-Net具有可比性。然而，它们仍然不如我们的全尺寸U2-Net。因此，我们认为在这个突出的目标检测任务中，我们的无主干设计比基于主干的设计更具竞争力。

4.5. 我们将我们的模型

(全尺寸U2-Net, 176.3 MB和小尺寸U2-Net†，4.7 MB)与20种最先进的方法进行比较

包括一个基于AlexNet的模型:MDF;10个基于VGG的模型:UCF、Amulet、NLDF、DSS、RAS、PAGRN、BMPM、PiCANet、MLMS、AFNet;一个基于DenseNet的MSWS模型;一个基于ResNeXt的模型:R3Net;以及7个基于ResNet的模型:CapSal、SRM、DGRL、PiCANetR、CPD、PoolNet、BASNet。为了公平比较，我们主要使用作者提供的显著目标检测结果。对于某些方法的某些数据集上缺失的结果，我们在他们建议的环境设置上运行他们发布的代码和他们训练过的模型。

4.5.1定量比较

图6显示了我们的模型(U2-Net, 176.3 MB和U2-Net†，4.7 MB)和典型的最先进的方法在六个数据集上的精确召回率曲线。这些曲线与表3和表4一致，显示了我们的U2-Net在DUT-OMRON, HKU-IS和ECSSD上的最先进性能，以及在其他数据集上的竞争性能。表3和表4比较了我们提出的方法与其他方法的5个(6个包括模型大小)评估指标和模型大小。正如我们所看到的，就几乎所有五个评估指标而言，我们的U2-Net在DUT-OMRON, HKU-IS和ECSSD数据集上实现了最佳性能。

在DUTS-TE数据集上，我们的u2net实现了第二好的整体性能，略低于PoolNet。

在PASCAL-S上，我们的U2-Net的性能略低于AFNet、CPD和PoolNet。值得注意的是，在边界质量评价指标relaxF bβ方面，U2-Net获得了第二好的性能。在SOD数据集上，PoolNet的性能最好，我们的U2-Net在总体性能方面排名第二。

我们的U2-Net†只有4.7 MB，是目前显著目标检测领域最小的模型。与其他模型相比，它的参数数量少得多，但仍然取得了令人惊讶的竞争力。虽然它的性能不如我们的全尺寸U2Net，但它的小尺寸将有助于它在许多计算和内存受限的环境中应用。

4.5.2定性比较:为了直观地理解我们的模型的良好性能，我们在图7中说明了我们的模型和其他几种最先进的方法的样本结果。

我们可以看到，我们的U2-Net和U2-Net†能够处理不同类型的目标，并产生准确的显著目标检测结果。

图7的第一行和第二行显示了大小对象的结果。正如我们可以观察到的，我们的U2-Net和U2Net†能够在大小物体上产生准确的结果。其他模型要么容易错过小目标，要么产生精度较差的大目标。第三行为目标接触图像边界的结果。我们的u2net正确分割了所有的区域。尽管U2Net†错误地分割了右下角的孔，但它仍然比其他模型好得多。第四行展示了模型在分割目标时的性能由大的和薄的结构组成。正如我们所看到的，除了AFNet (col (j))之外，大多数其他模型都很好地提取了大区域，而忽略了缆向薄结构。第五行显示了一棵背景相对干净的蓝色树

天空。这看起来很简单，但实际上对大多数模型来说是具有挑战性的，因为目标的形状很复杂。正如我们所看到的，我们的模型可以很好地分割树干和树枝，而其他模型在分割复杂的树枝区域时失败。与第5排相比，第6排所示的长凳由于空心结构而更加复杂。我们的u2net产生近乎完美的结果。

虽然右下角的U2-Net†预测图并不完美，但它在这个目标上的整体表现要比其他模型好得多。此外，与PoolNet (col (f))、CPD (col (g))、PiCANetR (col (h))和AFNet (col (j))等模型相比，我们的模型结果更加均匀，灰色区域更少。第七行显示了我们的模型

能产生比地面真理更精细的结果。在第7张图像中标记这些小洞是繁重和耗时的。因此，这些重复的精细结构通常在注释过程中被忽略。从这些不完美的标签中推断出正确的结果是具有挑战性的。

但我们的模型在分割这些精细结构方面表现出了很好的能力，这要归功于我们设计了良好的架构来提取和整合高分辨率的局部和低分辨率的全局信息。第8行和第9行显示了我们的模型在检测背景杂乱和前景复杂的目标方面的强大能力。第10行显示了我们的模型能够在捕获数据的同时分割多个目标被探测目标的详细信息(见每艘帆船两块帆的间隙区域)。综上所述，我们的全尺寸和小尺寸模型都能够处理各种场景，并产生高精度的显著目标检测结果。

5. 结论

在本文中，我们提出了一种新的深度网络:U2Net，用于显著目标检测。我们的u2net的主要架构是一个两层嵌套的u结构。我们新设计的RSU模块的嵌套结构使网络能够从浅层和深层捕获更丰富的本地和全局信息，无论分辨率如何。

与那些建立在现有主干上的SOD模型相比，我们的U2-Net完全建立在建议的RSU块上，这使得从头开始训练并根据目标环境约束配置不同的模型大小成为可能。在本文中，我们提供了一个完整尺寸的U2Net (176.3 MB, 30 FPS)和一个较小尺寸的U2Net†(4.7 MB, 40 FPS)。在六个公共显著目标检测数据集上的实验结果表明，在定性和定量度量方面，这两种模型与其他20种最先进的方法相比，都具有非常有竞争力的性能。

尽管我们的模型与其他最先进的方法相比取得了具有竞争力的结果，但对于计算和内存有限的设备，如移动电话、机器人等，需要更快、更小的模型。在不久的将来，我们将探索不同的技术和架构，以进一步提高速度并减小模型尺寸。此外，需要更大、更多样化的显著目标数据集来训练更准确、更稳健的模型。

图6。我们的模型和其他典型的最先进的模型在六个SOD数据集上的精确召回曲线。

表3。在DUT-OMRON, DUTS-TE, HKU-IS上比较我们的方法与20种SOTA方法在模型大小，maxFβ(↑)，M AE(↓)，加权F wβ(↑)，结构测量Sm(↑)和松弛边界F测量relaxF bβ(↑)方面的比较。红色、绿色和蓝色表示最佳、第二和第三最佳的表现。

表4。比较我们的方法与20种SOTA方法在ECSSD、PASCAL-S、SOD上的模型大小、maxFβ(↑)、M AE(↓)、加权F wβ(↑)、结构测量Sm(↑)和松弛边界F测量relaxF bβ(↑)方面的比较。红色、绿色和蓝色表示最佳、第二和第三最佳的表现。

图7。将所提出的方法与其他七种SOTA方法进行定性比较:(a) image， (b) GT， (c) Ours， (d) Ours†，(e) BASNet， (f) PoolNet， (g) CPD， (h) PiCANetR， (i) R3Net+， (j) AFNet， (k) DSS+，其中“+”表示CRF后处理。