【图像分割综述】Image Segmentation Using Deep Learning: A Survey

最新推荐文章于 2024-04-13 09:38:34 发布

gkm0120

最新推荐文章于 2024-04-13 09:38:34 发布

阅读量6.8k

点赞数 6

分类专栏：图像分割、分类

原文链接：https://arxiv.org/abs/2001.05566

版权

图像分割、分类专栏收录该内容

18 篇文章 4 订阅

订阅专栏

在这里插入图片描述

Image Segmentation Using Deep Learning: A Survey

摘要

图像分割是图像处理和计算机视觉中的关键主题，其应用包括场景理解，医学图像分析，机器人感知，视频监视，增强现实和图像压缩等。最近，由于深度学习模型在各种视觉应用中的成功，已经有大量的工作在使用深度学习模型开发图像分割方法。在本次调查中，涵盖了语义和实例分割的广泛开创性工作，包括全卷积像素标记网络，编码器-解码器体系结构，多尺度以及基于金字塔的方法，递归网络，注意力模型和生成对抗模型。研究了这些深度学习模型的相似性，优势和挑战，研究了使用最广泛的数据集，报告了性能，并讨论了该领域有希望的未来研究方向。

关键词：图像分割，深度学习，卷积神经网络，编码器-解码器模型，递归模型，生成模型，语义分割，实例分割，医学图像分割。

1 介绍

图像分割是许多视觉理解系统中必不可少的组成部分。它涉及将图像（或视频帧）划分为多个片段或目标。分割在广泛的应用中起着核心作用，包括医学图像分析（例如，肿瘤边界提取和组织体积的测量），自主车辆（例如，可导航的表面和行人检测），视频监控和增强现实数几个。从最早的方法，例如阈值化，基于直方图的优化算法，区域增长，k均值聚类，分水岭，到更高级的算法，文献中已经开发了许多图像分割算法。例如活动轮廓，图形切割，条件和Markov随机场，以及基于稀疏性的方法。然而，在过去的几年中，深度学习（DL）模型产生了新一代的图像分割模型，其性能得到了显着提高——通常在常用基准测试中达到了最高的准确率——从而导致了该领域的范式转变。例如，图1展示了流行的深度学习模型DeepLabv3的图像分割输出。

图像分割可以用具有语义标签（语义分割）或单个目标划分（实例分割）的像素分类问题来表示。语义分割使用所有图像像素的一组目标类别（例如，人，汽车，树木，天空）执行像素级标签，因此与预测整个图像的单个标签的图像分类相比，这通常是一项艰巨的任务。实例分割通过检测并描绘图像中的每个感兴趣的目标（例如，各个人的分割）来进一步扩展语义分割的范围。

我们的调查涵盖了图像分割方面的最新文献，并讨论了直到2019年提出的一百多种基于深度学习的分割方法，训练方法及其主要贡献。我们提供了综述方法的性能的比较摘要，并讨论了基于深度学习的图像分割模型的一些挑战和潜在的未来方向。
在这里插入图片描述

图1. DeepLabV3在样本图像上的分割结果。

根据深度学习的主要技术贡献将其分为以下几类：
1)全卷积网络
2)基于Graphical模型的卷积模型
3)基于编码器-解码器的模型
4)多尺度金字塔网络模型
5)基于R-CNN的模型(实例分割)
6)空洞卷积模型和DeepLab系列
7)基于RNN的模型
8)注意力模型
9)基于GAN的模型
10)卷积模型与活动轮廓模型
11)其他模型

这篇综述的一些关键贡献可以总结如下：

这项调查涵盖了有关分割问题的当代文献，并概述了截至2019年提出的100多种分割算法，分为10类。
使用深度学习对分割算法的不同方面进行全面的回顾和深入的分析，包括训练数据，网络架构的选择，损失函数，训练策略及其主要贡献。
概述了约20种流行的图像分割数据集，分为2D，2.5D（RGBD）和3D图像。
提供了针对大众化基准进行细分的方法的性能和性能的比较摘要。
为基于深度学习的图像分割提供了一些挑战和潜在的未来方向。

本调查的其余部分安排如下：第2部分概述了流行的深度神经网络体系结构，这些体系结构是许多现代分割算法的基础。第三部分全面概述了最重要的，基于深度学习的深度学习细分模型（到2020年将有100多个）。在这里，我们还将讨论它们在以往工作中的优势和贡献。第4节回顾了一些最流行的图像分割数据集及其特性。第5.1节回顾了评估基于深度学习的细分模型的常用指标。在第5.2节中，报告了这些模型的定量结果和实验性能。在第6节中，我们讨论了基于深度学习的细分方法的主要挑战和未来方向。最后，我们在第7节中介绍我们的结论。

2 深层神经网络概述

本节概述了计算机视觉社区使用的一些最主要的深度学习架构，包括卷积神经网络（CNN），递归神经网络（RNN）和长期短期记忆（LSTM），编码器-解码器和生成对抗网络（GAN）。近年来，随着深度学习的普及，提出了其他一些深度神经体系结构，例如transformers，capsule网络，gated recurrent units，空间transformer网络等，此处不再介绍。

值得一提的是，在某些情况下，可以在新的应用程序/数据集上从头开始训练DL模型（假设有足够数量的标记训练数据），但是在许多情况下，没有足够的标记数据来从头训练模型，并且可以使用迁移学习来解决此问题。在迁移学习中，通常通过针对新任务的适应过程，将针对一个任务训练的模型重新用于另一（相关）任务。例如，可以想象使在ImageNet上训练的图像分类模型适应另一任务，例如纹理分类或面部识别。在图像分割的情况下，许多人使用在ImageNet上训练的模型（数据集比大多数图像分割数据集还大），作为网络的编码器部分，并从这些初始权重中重新训练其模型。这里的假设是，那些经过预训练的模型应该能够捕获分割所需图像的语义信息，从而使它们能够以较少的标签样本来训练模型。

2.1 卷积神经网络（CNNs）

CNN是深度学习社区中最成功且使用最广泛的架构之一，尤其是对于计算机视觉任务而言。 CNN最初是由福岛（Fukushima）在他的关于“ Neocognitron”的开创性论文中提出的，其基础是Hubel和Wiesel提出的视觉皮层的分层感受野模型。随后，Waibel等人引入了在时间感受域之间共享权重的CNN和用于音素识别的反向传播训练，LeCun等人开发了用于文件识别的CNN架构（图2）。

在这里插入图片描述

图2.卷积神经网络的体系结构

CNN主要由三种类型的层组成：i）卷积层，其中卷积权重的核（或滤波器）以提取特征； ii）非线性层，它们在特征图上（通常是逐元素地）应用激活函数，以便能够通过网络对非线性函数进行建模； iii）池化层，用一些有关邻域的统计信息（平均值，最大值等）替换特征图的较小邻域，并降低空间分辨率。层中的单元是局部连接的；也就是说，每个单元都从前一层中较小的邻域（称为感受野）接收加权输入。通过堆叠图层以形成多分辨率金字塔，高层可以从越来越宽的感受野中学习特征。 CNN的主要计算优势在于，一层中的所有感受野均具有权重，因此与完全连接的神经网络相比，参数数量明显减少。一些最著名的CNN架构包括：AlexNet，VGGNet，ResNet，GoogLeNet，MobileNet和DenseNet。

2.2 循环神经网络（RNNs）和长短期记忆（LSTM）

RNN被广泛用于处理顺序数据，例如语音，文本，视频和时间序列，其中任何给定时间/位置的数据都取决于先前遇到的数据。在每个时间戳上，模型都会收集当前时间 $X_i$ 的输入和上一步 $h_{i-1}$ 的隐藏状态，并输出目标值和新的隐藏状态（图3）。

在这里插入图片描述

图3.一个简单的递归神经网络的体系结构。

RNN通常在长序列方面存在问题，因为它们无法捕获许多实际应用中的长期依赖关系（尽管它们在这方面没有任何理论上的限制），并且经常遭受梯度消失或爆炸问题的困扰。然而，一种称为长短期记忆（LSTM的RNN旨在避免这些问题。 LSTM体系结构（图4）包括三个门（输入门，输出门，遗忘门），它们调节信息进出存储单元的信息流，该存储单元在任意时间间隔内存储值。

在这里插入图片描述

图4.标准LSTM模块的体系结构。

2.3 编码器-解码器和自动编码器模型

编码器-解码器模型是一类模型，可以学习通过两级网络将数据点从输入域映射到输出域：编码器，由编码函数 $z = f (x)$ 表示，将输入压缩为潜在空间表示; 解码器 $y = g (z)$ 旨在预测潜在空间表示的输出。这里的潜在表示本质上是指特征（矢量）表示，它能够捕获可用于预测输出的输入的基础语义信息。这些模型在图像到图像的转化问题以及NLP中的序列到序列模型中非常受欢迎。图5示出了简单的编码器-解码器模型的框图。通常通过最小化重建损失 $L(y,\hat{y})$ 来训练这些模型，这测量了真实值输出与后续重建之间的差异。此处的输出可以是图像的增强版本（例如，图像去模糊或超分辨率），也可以是分割图。自动编码器是输入和输出相同的编码器-解码器模型的特例。

在这里插入图片描述

图5.一个简单的编码器-解码器模型的体系结构。

2.4 生成对抗网络（GANs）

GANs是较新的深度学习模型家族。它们由两个网络组成：一个生成器和一个鉴别器（图6）。常规情况下，生成器网络 $z\rightarrow y$ 会学习从噪声 $z$ （具有先验分布）到目标分布的映射，这类似于“真实”样本。鉴别器网络试图将生成的样本（“假货”）与“真实”样本区分开。 GAN损失函数可以写成 $\mathcal{L}_{GAN}=E_{x\sim data}(x)[logD(x)]+E_{z \sim p_{z}(z)}[log(1-D(G(z)))]$ 。我们可以将GAN看作是G和D之间的极小极大博弈，其中D试图在区分假样本与真实样本时将其分类误差最小化，从而使损失函数最大化，而G试图使鉴别器网络的误差最大化，从而使损失函数最小化。训练完模型后，训练后的生成器模型将为 $G^\ast=arg min_Gmax_D\mathcal{L}_{GAN}$ 。实际上，此功能可能无法提供有效训练G的足够梯度，特别是在最初时（当D可以轻松地区分真实样品与假样品时）。代替最小化 $E_{z\sim p_{z}(z)}[log1-D(G(z))]$ ，可能的解决方案是训练它来最大化 $E_{z\sim p_{z}(z)}[log(D(G(z)))]$ 。

在这里插入图片描述

图6.生成对抗网络的架构。

自从GAN发明以来，研究人员就致力于通过多种方式来改进/修改GANs。例如，Radfordet等人提出了卷积GAN模型，该模型比用于图像生成的全连接网络更好。 Mirza提出了一种条件GAN模型，该模型可以生成以类标签为条件的图像，这使得人们可以生成具有指定标签的样本。 Arjovskyet等人提出了一个基于Wasserstein的新损失函数（又称地球移动距离），以更好地估计实际样本和生成样本的分布不重叠的情况下的距离（因此，Kullback-Leiber发散不是衡量距离的好方法）。

3 基于DL的图像分割模型

本节详细讨论了直至2019年提出的数百种基于深度学习的细分方法，这些方法分为10类（基于其模型架构）。值得一提的是，在这些作品中，有一些是很普遍的，例如具有编码器和解码器部分，跳跃连接，多尺度分析以及最近使用了扩张卷积。因此，很难提及每件作品的独特贡献，但是更容易根据其对以前作品的基础架构贡献来将它们分组。除了这些模型的架构分类外，还可以基于分类目标将它们分组为：语义，实例，全景和深度细分类别。但是由于这些任务的工作量差异很大，我们决定按照架构分组。

3.1完全卷积网络

Long等人提出了第一个使用完全卷积网络（FCN）进行语义图像分割的深度学习作品。 FCN（图7）仅包含卷积层，这使它能够使用任意大小的图像并生成相同大小的分割图。作者修改了现有的CNN架构，例如VGG16和GoogLeNet，以通过用全卷积层替换所有完全连接的层来解决大小不固定的输入和输出。结果，该模型输出了空间分割图而不是分类分数。

在这里插入图片描述
图7.全卷积图像分割网络。 FCN学习进行密集的像素级预测。

通过使用跳跃连接，其中对模型最后层的特征图进行了上采样并与早期层的特征图（图8）融合，该模型将语义信息（来自较深，较粗糙的层）和外观信息（来自较浅，精细图层）以生成准确而详细的细分。该模型在PASCAL VOC，NYUDv2和SIFT Flow上进行了测试，并获得了最新的细分效果。

在这里插入图片描述
图8.跳跃连接将粗略的高级信息和精细的低级信息结合在一起。

这项工作被认为是图像分割中的一个里程碑，表明可以对可变大小的图像以端到端的方式训练深度网络进行语义分割。但是，尽管传统的FCN模型广受欢迎和有效，但它仍然存在一些局限性——不够快，无法进行实时推断，它没有以有效的方式考虑全局上下文信息，并且不容易转换为3D图像。许多工作试图克服FCN的某些局限性。

例如，Liu等人提出了一个名为ParseNet的模型，以解决FCN的一个问题——忽略全局上下文信息。 ParseNet通过使用图层的平均特征，在每个位置扩展特征来为FCN添加全局上下文。将图层的特征图合并到整个图像上，从而得到上下文向量。对该上下文向量进行规范化和非池化，以生成与初始特征图大小相同的新特征图。然后将这些特征图串联在一起。简而言之，ParseNet是一个FCN，其中所描述的模块代替了卷积层（图9）。
在这里插入图片描述
图9. ParseNet，显示了使用额外的全局上下文来产生比FCN（c）更平滑的分割（d）

FCN已应用于各种分割问题，例如脑肿瘤分割，实例感知语义分，皮肤病变分割和虹膜分割。

3.2 带图模型的卷积模型

如上所述，FCN忽略了可能有用的场景级语义上下文。为了集成更多的上下文，一些方法将概率性图形模型（例如条件随机场（CRF）和马尔可夫随机场（MRF））整合到DL体系结构中。

Chen等人提出了一种基于CNN和完全连接的CRFs组合的语义分割算法（图10）。他们表明，深层CNN的最后一层的响应没有足够的定位来精确的分割目标（由于不变性使CNN很好地适用于诸如分类等高级任务）。为克服深层CNN的局限性，他们将CNN最后一层的响应与完全连接的CRF相结合。他们表明，与以前的方法相比，他们的模型能够以更高的准确率定位线段边界。

在这里插入图片描述
图10. CNN + CRF模型。通过插值对CNN的粗略得分图进行上采样，并将其输入到完全连接的CRF中，以细化分割结果。

Schwing和Urtasun提出了一种全连接的深度结构化网络用于图像分割。他们提出了一种联合训练CNN和完全连接的CRF进行语义图像分割的方法，并在具有挑战性的PASCALVOC 2012数据集上取得了令人鼓舞的结果。Zheng等人提出了一种将CRF与CNN集成的相似语义分割方法。

在另一项相关工作中，Lin等人提出了一种基于上下文深度CRF的高效语义分割算法。探讨了“patch-patch”上下文（图像区域之间）和“patch-background”上下文通过使用上下文信息改善语义分割。

Liu等人提出了一种语义分割算法，该算法将丰富的信息合并到MRF中，包括高阶关系和标签上下文的混合。与先前的使用迭代算法优化MRF的工作不同，他们提出了CNN模型，即解析网络，该模型可在单向传递中实现确定性的端到端计算。

3.3 基于编解码器的模型

另一个流行的用于图像分割的深度模型系列基于卷积编码器-解码器体系结构。大多数基于DL的分割工作都使用某种编码器/解码器模型。我们将这些作品分为两类：用于一般细分的编码器-解码器模型和用于医学图像分割的编码器-解码器模型（以更好地区分应用程序）

3.3.1 用于一般分割的编解码器模型

Noh等人发表了一篇关于基于反卷积（也称为转置卷积）的语义分割的早期论文。他们的模型（图11）由两部分组成，一个是使用从VGG 16层网络采用的卷积层的编码器，另一个是将特征向量作为输入并生成像素级类概率图的反卷积网络。解卷积网络由解卷积层和解池层组成，这些层识别逐个像素的类标签并预测分割掩码。

在这里插入图片描述图11. 卷积语义分割。在基于VGG 16层网络的卷积网络之后，是一个多层反卷积网络，用于生成准确的分割图。

该网络在PASCAL VOC 2012数据集上取得了良好的性能，并且在当时没有外部数据训练的方法中获得了最高的准确性（72.5％）。

SegNet提出了一种用于图像分割的卷积编码器/解码器架构（图12）。与反卷积网络类似，SegNet的核心可训练分割引擎由一个编码器网络组成，该编码器网络在拓扑上与VGG16网络中的13个卷积层相同，以及一个相应的解码器网络，其后是按像素分类层。 SegNet的主要新颖之处在于解码器对其较低分辨率的输入特征图进行上采样；具体而言，它使用在相应编码器的最大池化步骤中计算的池化索引来执行非线性上采样。这样就不需要学习向上采样。然后，将（稀疏）向上采样图与可训练的滤波器进行卷积以生成密集的特征图。与其他竞争架构相比，SegNet的可训练参数数量也明显少得多。同一作者还提出了贝叶斯版本的SegNet，以对卷积编码器/解码器网络固有的不确定性建模进行场景分割。
在这里插入图片描述
图12. SegNet没有全连接层。因此，该模型是全卷积的。解码器使用来自其编码器的传输的池索引对输入进行上采样，以生成稀疏特征图。

此类别中的另一个流行模型是最近开发的分割网络，高分辨率网络（HRNet）图13。除了像DeConvNet，SegNet，U-Net和V-Net，所做的恢复高分辨率表示之外，HRNet通过并行连接高到低分辨率卷积流，并在分辨率之间反复交换信息，可以在编码过程中保持高分辨率表示。许多最近的语义分割研究都是通过利用上下文模型（例如自我注意及其扩展）将HRNet作为骨干。

在这里插入图片描述
图13. 说明HRNet架构。它由并行的高至低分辨率卷积流组成，并在多分辨率蒸汽之间进行重复的信息交换。有四个阶段。第一阶段包括高分辨率卷积。第二阶段（第三阶段，第四阶段）重复两分辨率（三分辨率，四分辨率）块。

其他一些工作也采用转置卷积，用于图像分割的编码器/解码器，例如堆叠反卷积网络（SDN），Linknet，W-Net和局部敏感的反卷积RGB-D分割的网络。基于编码器-解码器的模型的局限性是图像的细粒度信息的丢失，这是由于编码过程中高分辨率表示的丢失。但是，在某些最新架构（例如HR-Net）中已解决了该问题。

3.3.2 用于医学和生物医学图像分割的编码器-解码器模型

最初为医学/生物医学图像分割开发了几种模型，这些模型的灵感来自FCN和编码器-解码器模型。 U-Net（2015）和V-Net（2016）是两个众所周知的此类体系结构，现在也正在医疗领域之外使用。

Ronneberger等人[49]提出了用于分割生物显微镜图像的U-Net。他们的网络和训练策略依靠数据增强来有效地从很少的带注释的图像中学习。 U-Net体系结构（图14）包括两部分，一个用于捕获上下文的收缩路径，以及一个能够实现精确定位的对称扩展路径。下采样或收缩部分具有类似于FCN的体系结构，可通过3×3卷积提取特征。上采样或扩展部分使用上卷积（或去卷积），从而减少了特征图的数量，同时增加了它们的尺寸。将网络的下采样部分的特征图复制到上采样部分，以避免丢失模式信息。最后，1×1卷积处理特征图以生成对输入图像的每个像素进行分类的分割图。 U-Net接受了30幅透射光显微镜图像的训练，并获得了2015年ISBI细胞跟踪挑战的冠军。

在这里插入图片描述
图14. U-net模型。蓝色框表示具有其指定形状的特征图块。

已针对各种图像开发了U-Net的各种扩展。例如，Cicek提出了一种用于3D图像的U-Net体系结构。Zhou等人开发了嵌套的U-Net体系结构。 U-Net也已应用于其他各种问题。例如，Zhang等人开发了一种基于U-Net的道路分割/提取算法。

V-Net是Milletari等人提出的另一种基于FCN的著名模型，用于3D医学图像分割。对于模型训练，他们引入了一个基于Dice系数的新目标函数，使模型能够处理前景和背景中的体素（voxel，所谓体素，其实就是网格，三维空间中的网格）数量之间存在强烈不平衡的情况。该网络在前列腺MRI容量上进行了端到端训练，并学会了一次预测整个体积的分割。其他一些与工作有关的医学图像分割包括Progressive DenseV-net（PDV-Net）等，用于从胸部CT图像快速自动分割肺叶，以及用于病变分割的3D-CNN编码器。

3.4 基于多尺度和金字塔网络的模型

多尺度分析是图像处理中一个比较古老的想法，已被部署在各种神经网络体系结构中。这种最著名的模型之一是Lin等人提出的特征金字塔网络（FPN），该模型主要开发用于目标检测，但随后也应用于分割。深度CNN固有的多尺度金字塔层次结构被用来以少量额外成本构建特征金字塔。 为了合并低分辨率和高分辨率功能，FPN由底部向上的路径，顶部向下的路径和横向连接组成。然后通过一个3×3卷积处理级联的特征图，以生成每个阶段的输出。最后，自顶向下路径的每个阶段都会生成预测以检测物体。对于图像分割，作者使用两个多层感知器（MLP）生成掩模。

Zhao等人开发了金字塔场景解析网络（PSPN），这是一个多尺度网络，可以更好地学习场景的全局上下文表示（图15）。利用残差网络（ResNet）作为特征提取工具，利用相关网络从输入图像中提取不同的模式。然后将这些特征图输入到金字塔池化模块中，以区分不同尺度的模式。它们以四个不同的比例池化，每个比例对应于一个金字塔层，并通过一个1×1卷积层进行处理以减小其尺寸。金字塔层的输出被上采样并与初始特征图连接，以捕获局部和全局上下文信息。最后，使用卷积层来生成像素方向的预测。
在这里插入图片描述
图15. PSPN架构。 CNN会生成特征图，而金字塔池模块会汇总不同的子区域表示。使用上采样和级联来形成最终的特征表示，从中可以通过卷积获得最终的像素方向预测。

Ghiasi和Fowlkes开发了一种基于拉普拉斯金字塔的多分辨率重建架构，该架构使用来自高分辨率特征图的跳跃连接和乘法门控来依次完善从中重建的细分边界他们表明，尽管卷积特征图的空间分辨率较低，但高维特征表示却包含重要的子像素定位信息。

还有其他使用多尺度分析进行细分的模型，例如DM-Net（动态多尺度过滤器网络），上下文对比网络和门控多尺度聚合（CCN），自适应金字塔上下文网络（APC-Net），多尺度上下文交织（MSCI）和显着目标分割。

3.5 基于R-CNN的模型（用于实例分割）

区域卷积网络（R-CNN）及其扩展（Fast R-CNN，Fasker R-CNN，Maksed-RCNN）已在目标检测应用中得到了成功证明。特别是，为目标检测而开发的Faster R-CNN体系结构（图16）使用区域提议网络（RPN）提出边界框候选。 RPN提取感兴趣区域（RoI），RoIPool层从这些提议中计算特征，以推断出边界框坐标和目标的类别。 R-CNN的某些扩展已被广泛用于解决实例分割问题。即同时执行目标检测和语义分割的任务。

在这里插入图片描述
图16.Faster R-CNN架构。

在此模型的一个扩展中，He等人提出了用于目标实例分割的Mask R-CNN，在许多COCO挑战中均击败了之前的所有基准测试。该模型有效地检测图像中的目标，同时为每个实例生成高质量的分割掩码。 Mask R-CNN本质上是具有3个输出分支的Faster R-CNN（图17）——第一个计算边界框的坐标，第二个计算关联的类，第三个计算二进制掩码以对目标进行分割。 Mask R-CNN损失函数将边界框坐标，预测类和分割掩码的损失合并在一起，并共同训练它们。图18显示了一些样本图像上的Mask-RCNN结果。

在这里插入图片描述
图17.用于实例分割的Mask R-CNN体系结构。

在这里插入图片描述
图18.在COCO测试集中的样本图像上遮罩R-CNN结果。

Liu等人提出的路径聚合网络（PANet）。基于Mask R-CNN和FPN模型（图19）。网络的特征提取器使用具有新的自下而上的增强路径的FPN架构，可改善低层特征的传播。第三条路径的每个阶段都将前一阶段的特征图作为输入，并使用3×3卷积层对其进行处理。使用横向连接将输出添加到自顶向下路径的同一阶段特征图，这些特征图将馈入下一个阶段。与Mask R-CNN中一样，自适应特征池化层的输出提供了三个分支。前两个使用完全连接的层来生成边界框坐标和关联目标类别的预测。第三步使用FCN处理RoI以预测目标掩码。

在这里插入图片描述
图19. 路径聚合网络。（a）FPN主干。（b）自下而上的路径扩充。（c）自适应功能池。（d）箱型分支。（e）完全连接的融合。

Daiet等人开发了一个用于实例感知语义分割的多任务网络，该网络由三个网络组成，分别区分实例，估计掩码和对目标进行分类。这些网络形成了一个层叠的结构，旨在共享它们的卷积特征。Hu提出了一种新的部分监督的训练范例，以及一个新颖的权重传递函数，该模型可以对大量类别的训练实例分割模型，这些类别都具有框注释，但只有一小部分具有掩码注释。

Chen通过基于Faster R-CNN的语义和方向特征细化目标检测，开发了一个实例分割模型MaskLab（图20）。该模型产生三个输出，即框检测，语义分割和方向预测。在Faster-RCNN目标检测器的基础上，预测框提供了目标实例的准确定位。在每个感兴趣的区域内，MaskLab通过组合语义和方向预测来执行前景/背景分割。

在这里插入图片描述
图20. MaskLab模型。 MaskLab生成三个输出——精确框预测（来自Faster R-CNN），语义分割logit（用于按像素分类）和方向预测logit（用于预测每个像素朝向其实例中心的方向）

另一个有趣的模型是Chen等人提出的Tensormask，它基于密集的滑动窗口实例分割。他们将密集实例分割视为对4D张量的预测任务，并提出了一个通用框架，该框架使4D张量上的新算子成为可能。他们证明张量视图导致基线上的大收益，并产生与MaskR-CNN相当的结果。 TensorMask在密集目标分割上取得了可喜的结果。

许多其他基于R-CNN的实例分割模型，例如为掩膜方案开发的实例，包括R-FCN，DeepMask，PolarMask，边界感知实例分割和CenterMask。值得注意的是，还有一个有前途的研究方向，它试图通过学习自底向上分割的分组提示来解决实例分割问题，例如深流域转换，实时实例分割和通过深度度量学习进行实例分割。

3.6 扩展卷积模型和DeepLab系列

空洞卷积（又名“astrous”卷积）为卷积层引入了另一个参数，即扩张率。信号 $x_i$ 的扩张卷积（图21）定义为 $y_i=\sum_{k=1}^{K}x\left[i+rk\right]w\left[k\right]$ ，其中定义内核权重之间的间距的扩张率。例如，扩张率为2的一个3×3内核将具有与一个5×5内核相同的大小感受野，而仅使用9个参数，从而在不增加计算量的情况下扩大了感受野。空洞卷积在实时分割领域已经很流行，许多最新的出版物报道了这种技术的使用。其中最重要的一些包括DeepLab系列，多尺度上下文聚合，密集上采样卷积和混合扩张卷积（DUC-HDC），密集连接的Atrous空间金字塔池（DenseASPP）和高效神经网络（ENet）。

在这里插入图片描述图21.空洞卷积。 3×3内核在不同的扩张率下。

由Chen等人开发的DeepLabv1和DeepLabv2是最流行的图像分割方法之一。后者具有三个关键特征。**首先是使用扩张卷积来解决网络中分辨率下降（由最大池和步幅引起）的问题。其次是Atrous空间金字塔池化（ASPP），它以多重采样率使用过滤器探测即将到来的卷积特征层，从而以多个比例捕获目标和图像上下文，以稳健地分割多个比例的目标。第三是通过结合深层CNN和概率图形模型的方法来改进目标边界的定位。**最好的DeepLab（使用一个ResNet-101作为骨干）在2012年PASCAL VOC挑战赛中达到了79.7％的mIoU，在PASCAL-Context挑战赛中达到了45.7％的mIoU，在Cityscapes挑战赛中达到了70.4％的mIoU。图22展示了Deeplab模型，使用了扩展卷积和ASPP。

在这里插入图片描述

图22. DeepLab模型。像VGG-16或ResNet-101这样的CNN模型通过扩张卷积以完全卷积的方式使用。双线性插值阶段将特征图放大到原始图像分辨率。最后，完全连接的CRF完善了分割结果，以更好地捕获目标边界。

随后，Chen提出了DeepLabv3，它结合了扩展卷积的级联和并行模块。并行卷积模块分组在ASPP中。在ASPP中添加了一个1×1卷积和批归一化。所有输出通过另一个1×1卷积连接并处理，从而为每个像素创建带有logits的最终输出。

在2018年，Chenet等人发布了Deeplabv3 +，该版本使用了编码器-解码器体系结构（图23），其中包括atrous可分离卷积，由深度卷积（输入的每个通道的空间卷积）和逐点卷积（以深度卷积作为输入的1×1卷积）组成。他们使用DeepLabv3框架作为编码器。最相关的模型具有一个改进的更多层的Xception主干网，扩展的深度可分离卷积，而不是最大合并和批量归一化。在COCO和JFT数据集上预训练的最佳DeepLabv3 +在2012PASCAL VOC挑战中获得了89.0％的mIoU分数。

在这里插入图片描述
图23. DeepLabv3 +模型。

3.7 基于递归神经网络的模型

尽管CNN很自然地适合计算机视觉问题，但它们并不是唯一的可能性。 RNN在建模像素之间的短期/长期依存关系方面很有用，以（潜在地）改善分割图的估计。使用RNN可以将像素连接在一起并进行顺序处理，以对全局上下文进行建模并改善语义分割。但是，一个挑战是图像的自然2D结构。

Visin等人提出了一种基于RNN的语义分割模型ReSeg。这个模型主要是基于另一项研究ReNet，该研究是为图像分类而开发的。每个ReNet层均由四个RNN组成，这些RNN沿水平方向和垂直方向扫描图像，编码 patches/激活并提供相关的全局信息。为了使用ReSeg模型进行图像分割（图24），ReNet层堆叠在提取通用局部特征的预训练VGG-16卷积层之上。然后在ReNet层之后是上采样层，以在最终预测中恢复原始图像分辨率。使用门控循环单元（GRU）是因为它们在内存使用和计算能力之间提供了良好的平衡。

在这里插入图片描述
图24. ReSeg模型。未显示经过预训练的VGG-16特征提取器网络。

在另一项工作中，Byeon等人开发了使用长短期记忆（LSTM）网络的场景图像的像素级分割和分类。他们考虑了标签的复杂空间依赖性，研究了自然场景图像的二维（2D）LSTM网络。在这项工作中，分类，分割和上下文集成都由2D LSTM网络执行，从而允许在单个模型中学习纹理和空间模型参数。

在这里插入图片描述
图25.图-LSTM模型与传统的像素级RNN模型之间的比较

Liang等人提出了一种基于图长短期记忆（Graph LSTM）网络的语义分割模型，该模型将LSTM从顺序数据或多维数据推广到一般的图结构化数据，而不是在现有的多维LSTM中将图像平均划分为像素或patches结构（例如行，网格和对角线LSTM），它们将每个任意形状的超像素作为语义上一致的节点，并自适应地为图像构造无向图，其中超像素的空间关系自然地用作边缘。图25呈现了传统的像素级RNN模型和图LSTM模型的视觉比较。为了使Graph LSTM模型适应语义分割（图26），在超像素图上构建的LSTM层被附加到卷积层上，以增强具有全局结构上下文的视觉特征。卷积特征通过1×1卷积滤波器以生成所有标签的初始置信度图。通过基于初始置信度图的置信驱动方案确定后续Graph LSTM层的节点更新顺序，然后Graph LSTM层可以顺序更新所有超像素节点的隐藏状态。

在这里插入图片描述
图26.用于语义分割的图LSTM模型。

Xiang和Fox 提出了数据关联的递归神经网络（DA-RNN），用于联合3D场景映射和语义标记。 DA-RNN使用新的递归神经网络架构在RGB-D视频上进行语义标记。网络的输出与诸如Kinect-Fusion之类的映射技术集成在一起，以便将语义信息注入重建的3D场景中。

Hu等人开发了一种基于自然语言表达的语义分割算法，结合CNN对图像进行编码和LSTM对自然语言描述进行编码。这与在语义类的预定义集合上的传统语义分割不同，例如，短语“两个人坐在正确的长凳上”仅需要将两个人在正确的长凳上进行分割，而没有人站立或坐在另一个长凳上。为了产生用于语言表达的按像素细分，他们提出了一种端到端可训练的递归和卷积模型，该模型共同学习处理视觉和语言信息（图27）。在考虑的模型中，使用递归LSTM网络将引用表达式编码为矢量表示，并使用FCN从图像中提取空间特征图并输出目标目标的空间响应图。该模型的示例分割结果（针对查询“穿着蓝色外套的人”）如图28所示。

在这里插入图片描述

图27. CNN + LSTM架构可用于从自然语言表达中进行细分。

在这里插入图片描述
图28.为查询“穿蓝衣的人”生成的细分掩码

基于RNN的模型的一个局限性在于，由于这些模型的顺序性质，它们将比其CNN对应模型慢，因为这种顺序计算不容易并行化。

3.8 基于注意力的模型

多年来，人们一直在计算机视觉中探索注意力机制，因此，找到将这种机制应用于语义分割的出版物也就不足为奇了。

Chen等人提出了一种注意力机制，可以学习在每个像素位置上对多尺度特征进行加权。他们采用了强大的语义分割模型，并与多尺度图像和注意力模型一起对其进行训练（图29）。注意机制的表现优于平均池和最大池，它使模型能够评估不同位置和比例下要素的重要性

在这里插入图片描述
图29.基于注意力的语义分割模型。注意模型学习为不同比例的目标分配不同的权重；例如，模型为比例为1.0的特征分配小人物（绿色虚线圆）上的较大权重，为比例为特征的特征分配较大的孩子（洋红色虚线圆）的权重0.5。

与其他训练卷积分类器以学习标记目标的代表性语义特征的著作相反，Huang等人提出了一种使用反向注意机制的语义分割方法。其反向注意网络（RAN）架构（图30）也训练模型以捕获相反的概念（即与目标类不相关的功能）。同时执行直接和反向注意学习过程的三分支网络。

在这里插入图片描述
图30.反向注意力网络用于细分。

Li等人开发了用于语义分割的金字塔注意网络。该模型利用了全局上下文信息在语义分割中的影响，将注意力机制和空间金字塔相结合，以提取精确的密集特征进行像素标记，而不是使用复杂的卷积和人工设计的解码器网络。

最近，Fu等人提出了一种用于场景分割的双重注意力网络，该网络可以基于自注意力机制捕获丰富的上下文依存关系。具体来说，它们在扩张的FCN的顶部附加了两种类型的注意模块，分别用于建模空间和通道维度上的语义相互依赖关系。位置注意模块通过所有位置的特征加权总和选择性地聚合每个位置的特征。

其他各种著作也探索了语义分割的注意力机制，例如OCNet，它提出了一种基于自我注意力机制，期望最大注意力（EMANet），交叉注意力网络（CCNet）的目标上下文池。具有经常性注意力的端到端分割，用于场景解析的逐点空间注意网络和区分性特征网络（DFN），后者包括两个子网络：平滑网络（包含一个“通道注意块”和全局平均池以选择更具歧视性的特征）和一个边界网络（以使边界的双边特征可区分）。

3.9 生成对抗模型

自从引入以来，GAN已应用于计算机视觉中的各种任务，并且也已被用于图像分割。

Luc等人提出了一种对抗训练的语义分割方法。他们训练了卷积语义分割网络（图31），以及对抗网络，该网络将地面真实分割图与由分割网络生成的分割图区分开来。他们表明，对抗训练方法可以提高Stanford Background和PASCAL VOC 2012数据集的准确性。

在这里插入图片描述
图31.用于语义分割的GAN。

Souly等人提出使用GAN进行半弱监督语义分割。它由一个生成器网络组成，该生成器网络为GAN框架中的区分器提供了针对多分类器的额外训练示例，该分类器为样本分配了来自可能类别的标签y或将其标记为伪样本（额外类别）。

在另一本著作中，Hung等人开发了使用对抗网络进行半监督语义分割的框架。他们设计了FCN鉴别器，以考虑空间分辨率，将预测的概率图与地面真实分割分布区分开。该模型考虑的损失函数包括三项：基于分割基本事实的交叉熵损失，鉴别器网络的对抗损失和基于置信度图的半监督损失，即鉴别器的输出。

Xue等人提出了一种具有多尺度L1损失的对抗网络用于医学图像分割。使用FCN作为分割器生成分割标签图，并提出了一种新的具有多尺度L1损失函数的对抗性评价网络，使评论者和细分者学习捕获像素之间长距离和短距离空间关系的全局和局部特征。

其他各种出版物也报道了基于对抗训练的分割模型，例如使用GAN进行细胞图像分割，以及分割和生成对象的不可见部分。

3.10 具有活动轮廓模型的CNN模型

FCN和活动轮廓模型（ACM）之间的协同作用探索最近引起了研究兴趣。一种方法是根据ACM原理制定新的损失函数。例如，受全球能量公式的启发，Chen等人提出了一个监督损失层，该层在训练FCN的过程中结合了预测掩码的面积和大小信息，并解决了心脏MRI中的心室分割问题。

最初试图仅将ACM用作FCN输出的后处理器，并且通过预先训练FCN进行了一些努力，试图进行适度的共同学习。 Le等人对自然图像进行语义分割的任务的ACM后处理器的一个例子，其中级别集ACM被实现为RNN。 Rupprecht等人的“深度主动轮廓”是另一个示例。对于医学图像分割，Hatamizadeh等人提出了一个集成的深度ActiveLesion分割（DALS）模型，该模型可以训练FCN骨干来预测新型局部参数化的水平集能量函数的参数函数。Marcos等人提出的深度结构化ActiveContours（DSAC），它在结构化的预测框架中结合了ACM和预先训练的FCN，用于在航空影像中进行实例分割（尽管有手动初始化）。对于相同的应用，Cheng等人提出了类似于DSAC的Deep Active Ray Network（DarNet），但基于极坐标具有不同的显示ACM公式，以防止轮廓自相交。 Hatamizadeh等人最近提出了一种真正的端到端反向传播训练，完全集成的FCN-ACM组合，称为“深度卷积主动轮廓（DCAC）”。

3.11 其他模型

除上述模型外，还有其他几种用于分割的流行DL架构，例如：上下文编码网络（EncNet），它使用基本的特征提取器并将特征图馈送到上下文编码模块。 RefineNet，这是一个多路径优化网络，它明确利用降采样过程中可用的所有信息，以实现使用远程残差连接的高分辨率预测。 Seednet引入了具有深度强化学习功能的自动种子生成技术，该技术学会了解决交互式分割问题。 “目标-上下文表示”（OCR），它在基本事实的监督下学习目标区域，并计算目标区域表示以及每个像素与每个目标区域之间的关系，并用目标上下文表示来增强表示像素。其他模型包括BoxSup，图卷积网络，WideResNet，Exfuse（增强低级和高级功能融合），前馈网，用于测地线视频分割的显着性感知模型，双重图像分割（DIS），FoveaNet（透视感知场景分析），梯形DenseNet ，双边分割网络（BiSeNet），场景分析的语义预测指南（SPGNet），门控形状的CNN，自适应上下文网络（AC-Net），动态结构化语义传播网络（DSSPN），符号图推理（SGR），CascadeNet，尺度自适应卷积（SAC），统一感知解析（UperNet），通过重新训练和自训练进行分割[135]，紧密连接的神经体系结构搜索，分层多尺度注意力。

全景分割也是越来越受欢迎的另一个有趣的细分问题，在这个方向上已经有一些有趣的作品，包括全景特征金字塔网络，用于全景分割的注意力引导网络，无缝场景分割，全景Deeplab，统一的全景细分网络，高效全景分割。

图32说明了基于DL的流行作品进行语义分割的时间轴，以及自2014年以来的实例细分。鉴于过去几年中开发的大量作品，我们仅显示一些最具代表性的作品。
在这里插入图片描述

图32. 2014年至2020年基于DL的2D图像分割算法的时间轴。橙色，绿色和黄色块分别表示语义，实例和全景分割算法

4 图像分割数据集

在本节中，我们提供一些最广泛使用的图像分割数据集的摘要。我们将这些数据集分为3类——2D图像，2.5D RGB-D（颜色+深度）图像和3D图像——并提供有关每个数据集特征的详细信息。列出的数据集带有逐像素标签，可用于评估模型性能。

值得一提的是，其中一些作品通过数据增强来增加标记样品的数量，特别是那些处理小型数据集（例如医学领域）的工作。数据增强用于通过对图像（即输入图像和分割图）应用一组转换（在数据空间或特征空间中，或者有时在这两者中）来增加训练样本的数量。一些典型的转换包括平移，反射，旋转，扭曲，缩放，色彩空间移动，裁切和投影到主成分上。事实证明，数据增强可以提高模型的性能，尤其是从有限的数据集（例如医学图像分析中的数据集）中学习时。它有助于加快收敛速度，减少过拟合以及增强泛化性。对于某些小型数据集，数据增强已被证明可以使模型性能提高20％以上。

4.1 2D数据集

大多数图像分割研究都集中在2D图像上。因此，可以使用许多2D图像分割数据集。以下是一些最流行的：

**PASCAL视觉对象类（VOC）**是计算机视觉中最受欢迎的数据集之一，其带注释的图像可用于5个任务——分类，分割，检测，动作识别和人物布局。在该数据集上已经评估了文献中报道的几乎所有流行的分割算法。对于分割任务，有21类对象标签——车辆，家庭，动物，飞机，自行车，船，巴士，汽车，摩托车，火车，瓶，椅子，餐桌，盆栽，沙发，电视/显示器，鸟，猫，牛，狗，马，羊和人（如果像素不属于这些类别，则将其标记为背景）。此数据集分为两组，分别是训练和验证，分别包含1,464和1,449张图像。实际挑战有一个私人测试集。图33显示了一个示例图像及其像素标记。

在这里插入图片描述
图33. PASCAL VOC数据集的示例图像。

PASCAL Context 是PASCALVOC 2010 检测挑战的扩展，它包含所有训练图像的逐像素标签。它包含400多个类（包括原始的20个类以及PASCAL VOC分割的背景），分为三类（对象，填充和混合）。该数据集的许多对象类别太稀疏，通常选择59个常见类的子集来使用。

**Microsoft上下文中的公共对象（MS COCO）**是另一种大规模的对象检测，分割和字幕数据集。 COCO包含日常场景的图像，在它们的自然上下文中包含了常见的对象。该数据集包含91种目标类型的照片，在32.8万张图像中总共有250万个带标签的实例。图34显示了给定样本图像的MS-COCO标签与先前数据集之间的差异。检测挑战包括80多个类，提供了超过82k的图像进行训练，40.5k的图像进行验证，以及超过80k的测试集图像。
在这里插入图片描述
图34. COCO中的样本图像及其分割图，以及与以前的数据集的比较。

Cityscapes 是一个大型数据库，着重于对城市街道场景的语义理解。它包含在50个城市的街道场景中记录的各种立体声视频序列集，以及5k帧的高质量像素级注释，此外还有一组20k的弱注释帧，包括30类的语义和密集像素注释，分为8类类别——平面，人，车辆，建筑，物体，自然，天空和空隙。图35显示了来自该数据集的四个样本分割图。
在这里插入图片描述
图35.来自Cityscapes数据集的三个样本图像及其相应的分割图。

**ADE20K / MIT场景解析（SceneParse150）**为场景解析算法提供了一个标准的训练和评估平台。该基准的数据来自ADE20K数据集，该数据集包含20K以场景为中心的图像，并用对象和对象部分进行了详尽注释。基准测试分为20K张图像进行训练，2K图像用于验证，另一批图像用于测试。该数据集中有150个语义类别。

SiftFlow 包含来自LabelMe数据库的子集的2,688个带批注的图像。 256×256像素图像基于8个不同的室外场景，其中包括街道，山脉，田野，海滩和建筑物。所有图像都属于33个语义类别之一。

斯坦福背景包含来自现有数据集（如LabelMe，MSRC和PASCAL VOC）的场景的室外图像。它包含715个具有至少一个前景物体的图像。数据集按像素进行注释，可用于语义场景理解。此数据集的语义和几何标签是使用Amazon’s Mechanical Turk（AMT）获得的。

**伯克利分割数据集（BSD）**包含来自30个人类受试者的1,000个Corel数据集图像的12000个手工标记的分割。目的是为图像分割和边界检测研究提供经验基础。一半的分割是通过向对象呈现彩色图像而获得的，另一半是通过呈现灰度图像来获取的。

Youtube对象包含从YouTube收集的视频，其中包括来自十个PASCAL VOC类（飞机，鸟，船，汽车，猫，牛，狗，马，摩托车和火车）的对象。原始数据集不包含逐像素注释（因为它最初是为对象检测而开发的，具有弱注释）。然而，Jain手动注释126个序列的子集，然后提取帧的子集以进一步生成语义标签。该数据集中总共有大约10,167个带注释的480x360像素帧。

KITTI 是最流行的移动机器人技术和自动驾驶数据集之一。它包含数小时的交通场景视频，并以各种传感器模式（包括高分辨率RGB，灰度立体摄像机和3D激光扫描仪）进行记录。原始数据集不包含用于语义分割的基本事实，但是研究人员出于研究目的手动注释了数据集的各个部分。例如，Alvarez等人从道路检测挑战中生成了323个图像的基本事实，分为道路，垂直和天空3类。

其他数据集也可用于图像分割，例如语义边界数据集（SBD），PASCAL Part，SYNTHIA和Adobe’s 肖像分割。

4.2 2.5D数据集

随着可负担得起的范围扫描仪的可用性，RGB图像在研究和工业应用中都变得很流行。以下RGB-D数据集是一些最流行的数据集：

NYU-D V2 由来自各种室内场景的视频序列组成，由Microsoft Kinect的RGB和深度摄像头记录。它包括来自3个城市的450多个场景中的1,449对密集标记的RGB和深度图像。每个对象都标有一个类和一个实例号（例如cup1，cup2，cup3等）。它还包含407,024个未标记的帧。与其他现有数据集相比，该数据集相对较小。图36显示了样本图像及其分割图。
在这里插入图片描述
图36.来自NYU V2数据集的样本。从左起：RGB图像，预处理深度和标签集。

SUN-3D 是一个大型RGB-D视频数据集，包含在41个不同建筑物中的254个不同空间中捕获的415个序列；注释了8个序列，将来还会有更多注释。每个带注释的帧都带有场景中对象的语义分割，以及有关摄像头姿势的信息。

SUN RGB-D提供RGB-D基准，旨在在所有主要场景理解任务中提高最新技术水平。它由四个不同的传感器捕获，并包含10,000张RGB-D图像，其缩放比例类似于PASCAL VOC。整个数据集都进行了密集注释，其中包括146,617个2D多边形和58,657个具有精确对象方向的3D边界框，以及场景的3D房间类别和布局。

UW RGB-D对象数据集包含使用Kinect样式3D相机记录的300个普通家庭对象摄像机。这些对象被组织成51个类别，使用WordNet上下义关系（类似于magenet）进行排列。使用Kinect样式3D 摄像机记录此数据集，该3D摄像机记录同步并对齐后的640×480像素RGB和深度为30 Hz的图像。该数据集还包括自然场景的8个带注释的视频序列，其中包含来自数据集的对象（UW RGB-D场景数据集）。

ScanNet 是RGB-D视频数据集，在1,500多次扫描中包含250万个视图，并使用3D相机姿势，表面重建和实例级语义分割进行注释。为了收集这些数据，设计了一个易于使用且可扩展的RGB-D捕获系统，该系统包括自动表面重建，并且这些语义标注均采用crowd-sourced方式。使用此数据有助于在一些3D场景理解任务上实现最先进的性能，包括3D对象分类，语义体素标注和CAD模型检索。

4.3 3D数据集

3D图像数据集在机器人，医学图像分析，3D场景分析和建筑应用中非常流行，通常通过网格或其他体积表示（例如点云）提供三维图像，这里我们提到一些流行的3D数据集。

Stanford 2D-3D：该数据集提供了2D，2.5D和3D领域的多种相互注册的模态，带有实例级语义和几何注释[166]，并收集在6个室内区域中。它包含超过70,000个RGB图像，以及相应的深度，表面特征，语义注释，全局XYZ图像以及相机信息。

ShapeNet Core：ShapeNetCore是full ShapeNet数据集的子集，其中包含单个干净的3D模型以及经过手动验证的类别和对齐注释。它涵盖了55个常见对象类别，其中包含约51,300个唯一3D模型。

悉尼城市对象数据集：此数据集包含在澳大利亚悉尼中央商业区收集的各种常见城市道路对象。车辆，行人，标志和树木等类别的物体分别进行了631次扫描。

5 性能评估

在本节中，我们首先提供一些用于评估细分模型的性能的流行指标的摘要，然后提供流行的数据集上有前途的基于DL的细分模型的定量性能。

5.1 细分模型的指标

理想情况下，应该从多个方面评估模型，例如定量精度，速度（推断时间）和存储要求（内存占用量）。但是，到目前为止，大多数研究工作都集中在评估模型准确性的指标上。下面我们总结了用于评估分割算法的准确性的最受欢迎的度量。尽管使用定量指标来比较基准上的不同模型，但是模型输出的视觉质量在决定哪种模型最好方面也很重要（因为人类是为计算机视觉应用开发的许多模型的最终使用者）。

像素精度仅找到正确分类的像素比率除以像素总数。对 $K + 1$ 个类别（ $K$ 前景类别和背
景）的像素精度定义为公式1：

$\mathrm{PA}=\frac{\sum_{i=0}^{K} p_{i i}}{\sum_{i=0}^{K} \sum_{j=0}^{K} p_{i j}} \tag{1}$
其中 $p_{ij}$ 是本属于 $i$ 类但被预测为 $j$ 类的像素数。

**平均像素精度（MPA）**是PA的扩展版本，其中，以每类分类的方式计算正确像素的比例，然后将其平均分类总数，定义为公式2：

$\mathrm{MPA}=\frac{1}{K+1} \sum_{i=0}^{K} \frac{p_{i i}}{\sum_{j=0}^{K} p_{i j}} \tag{2}$

**交并比（IoU）**或“ Jaccard索引”是语义分割中最常用的度量标准之一。它定义为预测的分割图和基本事实之间的交集面积除以预测的分割图和基本事实之间的并集面积。

$\mathrm{IoU}=J(A, B)=\frac{|A \cap B|}{|A \cup B|}, \tag{3}$

其中A和B分别表示基本事实和预测分割图。范围是0到1。

Mean-IoU是另一种流行的度量标准，定义为所有类的平均IoU。它被广泛用于报告现代分割算法的性能。

精度/召回率/ F1分数是用于报告许多经典图像分割模型准确性的流行指标。可以为每个类别以及总体级别定义精度和召回率，如下所示

$\text { Precision }=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}, \quad \text { Recall }=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}} \tag{4}$

其中TP表示真阳性分数，FP表示假阳性分数，FN表示假阴性分数。通常，我们会对精度和召回率的组合版本感兴趣。这种流行的度量标准称为F1分数，其定义为精确度和召回率的调和平均值。

$\text { F1-score }=\frac{2 \text { Prec } \operatorname{Rec}}{\text { Prec }+\operatorname{Rec}} \tag{5}$

Dice coefficient是图像分割的另一种流行度量（在医学图像分析中更常用），可以将其定义为预测图和基本事实的重叠区域的两倍，再除以两个图像中的像素总数。Dice coefficient与IoU非常相似:

$\text { Dice }=\frac{2|A \cap B|}{|A|+|B|} \text { . } \tag{6}$

当将Dice coefficient应用于布尔数据（例如二进制分割图）并将前景称为正类时，其Dice coefficient与F1分数基本相同，定义为

$\text { Dice }=\frac{2 \mathrm{TP}}{2 \mathrm{TP}+\mathrm{FP}+\mathrm{FN}}=\mathrm{F} 1 \tag{7}$

5.2 基于DL的模型的量化性能

在本节中，我们列出了先前讨论的几种算法在流行的分割基准上的性能。值得一提的是，尽管大多数模型都在标准数据集上报告其性能并使用标准指标，但其中一些未能做到这一点，从而难以进行全面的比较。此外，只有一小部分出版物以可再现的方式提供其他信息，例如执行时间和内存占用，这对于细分模型（如无人机，自动驾驶汽车，机器人等）的工业应用非常重要。可以在计算能力和存储空间有限的嵌入式消费类设备上运行，因此使快速，轻量级模型变得至关重要。

下表总结了几种基于DL的杰出分割模型在不同数据集上的性能。表1重点介绍了PASCAL VOC测试集。显然，自从引入第一个基于DL的图像分割模型FCN以来，模型的准确性有了很大的提高。
在这里插入图片描述

表2着重于Cityscape测试数据集。最新模型在此数据集上具有比初始FCN模型约23％的相对增益。
在这里插入图片描述

表3重点介绍了MS COCO填充测试集。该数据集比PASCAL VOC和Cityescapes更具挑战性，因为最高mIoU约为40％。
在这里插入图片描述

表4重点介绍了ADE20k验证集。该数据集也比PASCAL VOC和Cityescapes数据集更具挑战性。
在这里插入图片描述

表5提供了COCO test-dev 2017数据集上主要实例细分算法的性能，平均精度及其速度。
在这里插入图片描述

表6提供了以全景质量为依据的MS-COCO 验证数据集上的主要全景分割算法的性能。
在这里插入图片描述

最后，表7总结了在NYUD-v2和SUN-RGBD数据集上进行RGB-D分割的几个杰出模型的性能。
在这里插入图片描述

总而言之，在过去的5-6年中，深度细分模型的性能取得了显着进步，不同数据集的mIoU相对提高了25％-42％。但是，某些出版物由于多种原因而缺乏可重复性——它们报告了非标准基准/数据库的性能，或者仅报告了流行基准测试的任意子集的性能，或者它们没有充分描述实验设置，有时只在一个子对象类上评估模型性能。最重要的是，许多出版物都没有提供其模型实现的源代码。但是，随着深度学习模型的日益普及，这种趋势一直是积极的，许多研究小组都在朝着可复制的框架和开放式实现的方向发展。

6 挑战与机遇

毫无疑问，图像分割已从深度学习中受益匪浅，但仍存在一些挑战。我们接下来将介绍一些有前途的研究方向，我们认为这些方向将有助于进一步推进图像分割算法。

6.1 更多具有挑战性的数据集

已经创建了多个大规模图像数据集用于语义分割和实例分割。但是，仍然需要更具挑战性的数据集以及不同类型图像的数据集。对于静止图像，具有大量对象和重叠对象的数据集将非常有价值。这可以使训练模型更适合于处理密集的对象场景，以及像现实世界中常见的场景那样对象之间的大量重叠。

随着3D图像分割的普及（尤其是在医学图像分析中），对于大型3D图像数据集也有很强的需求。这些数据集比维数较低的对象更难创建。现有的3D图像分割可用数据集通常不够大，并且有些是合成的，因此更大，更具挑战性的3D图像数据集可能非常有价值。

6.2 可解释的深度模型

尽管基于DL的模型在具有挑战性的基准方面已经取得了令人鼓舞的性能，但有关这些模型的问题仍然存在。例如，深度模型到底要学习什么？我们应该如何解释这些模型所学习的功能？能在给定的数据集上达到一定分割精度的最小神经架构是什么？尽管可以使用一些技术来可视化这些模型的学习卷积核，但仍缺少对这些模型的基本行为/动力学的具体研究。更好地了解这些模型的理论方面可以使针对不同细分场景的更好模型的开发成为可能。

6.3 弱监督和无监督学习

弱监督（又称少样本学习）和无监督学习成为非常活跃的研究领域。这些技术有望对图像分割特别有价值，因为在许多应用领域，尤其是在医学图像分析中，收集用于分割问题的标记样本是有问题的。迁移学习方法是在大量标记的样本上训练通用的图像分割模型（可能来自公共基准），然后在某些特定目标应用程序的一些样本上对该模型进行微调。在自监督学习的帮助下，图像中有许多细节可以用更少的训练样本来训练分割模型。基于强化学习的模型也可能是另一个潜在的未来方向，因为它们很少受到图像分割的关注。例如，MOREL引入了一种深度强化学习方法，用于视频中的运动目标细分。

6.4 各种应用的实时模型

在许多应用程序中，准确性是最重要的因素；但是，在某些应用程序中，具有能够以接近实时或至少接近普通相机帧速率（至少每秒25帧）运行的分割模型也至关重要。这对于例如部署在自动驾驶汽车中的计算机视觉系统很有用。当前的大多数模型都远没有达到这个帧速率。例如，FCN-8大约需要100毫秒来处理低分辨率图像。基于扩张卷积的模型有助于在某种程度上提高分割模型的速度，但仍有大量的改进空间。

6.5 内存高效模型

许多现代分割模型即使在推理阶段也需要大量内存。至今一直在致力于提高此类模型的准确性，但是为了将其安装到特定的设备（例如移动电话）中，必须简化网络。这可以通过使用更简单的模型，或者通过使用模型压缩技术，甚至是训练复杂的模型，然后使用知识蒸馏技术将其压缩为模仿复杂模型的较小的内存有效网络来完成。

6.6 3D点云分割

许多工作专注于2D图像分割，但是处理3D点云分割的工作却很少。但是，人们对点云分割的兴趣日益浓厚，在3D建模，自动驾驶汽车，机器人技术，建筑建模等方面具有广泛的应用。处理3D无序和非结构化数据，例如点云提出了一些挑战。例如，尚不清楚将CNN和其他经典深度学习架构应用于点云的最佳方法。基于图的深度模型可能是点云分割研究的潜在领域，从而实现了这些数据的其他工业应用。

6.7 应用场景

在本节中，我们简要研究了最近基于DL的分割方法的一些应用场景以及未来的挑战。最值得注意的是，这些方法已成功应用于遥感领域的卫星图像分割，包括用于城市规划或精确农业的技术。机载平台和无人机收集的遥感图像也已使用基于DL的技术进行了分割，从而提供了解决重要环境问题（例如涉及气候变化的问题）的机会。分割此类图像的主要挑战与数据的很大维度（通常由具有数百甚至数千个光谱带的成像光谱仪收集）以及有限的基本事实来评估通过分割算法获得的结果的准确性有关。基于DL的分割的另一个非常重要的应用领域是医学成像。在这里，有机会设计标准化的图像数据库，这些数据库可用于评估快速传播的新疾病和大流行病。最后，我们还应提及生物学中基于DL的分割技术和建筑材料的评估，这提供了解决高度相关的应用领域的机会，但也面临着大量相关图像数据和有限的验证参考信息的挑战。

7 结论

我们已经基于深度学习模型对100多个最近的图像分割算法进行了调查，这些算法在各种图像分割任务和基准测试中均取得了令人印象深刻的性能，分为十类，例如：CNN和FCN，RNN，R-CNN，扩张型CNN，基于注意力模型，生成模型和对抗模型等。我们在一些流行的基准上总结了这些模型的定量性能分析，例如PASCAL VOC，MS COCO，Cityscapes和ADE20k数据集。最后，我们讨论了未来几年图像分割所面临的一些开放挑战和潜在研究方向。

gkm0120

关注

6
点赞
踩
38

收藏

觉得还不错? 一键收藏
0
评论
【图像分割综述】Image Segmentation Using Deep Learning: A Survey

涵盖了图像分割方面的最新文献，并讨论了直到2019年提出的一百多种基于深度学习的分割方法，训练方法及其主要贡献。提供了综述方法的性能的比较摘要，并讨论了基于深度学习的图像分割模型的一些挑战和潜在的未来方向。
复制链接

扫一扫