CE-NET详解

首先上译文

摘要:医学图像分割是医学图像分析中的一个重要步骤。随着卷积神经网络在图像处理中的快速发展,深度学习已被用于医学图像分割,如视盘分割、血管检测、肺部分割、细胞分割等。此前,已经提出了基于U-net的方法(**U-Net包括连续池化和跨步卷积**)。然而,连续的池化和跨步卷积运算会导致一些空间信息的丢失。在本文中,我们提出了一种上下文编码器网络(称为CE-Net)(上下文编码器网络旨在将输入数据的上下文信息编码成一个有意义的表示。这个上下文信息可以包括环境信息、语义关系、依赖关系等,具体取决于任务的需求。)以捕获更多的高级信息并为2D医学图像分割保留空间信息。CENet主要包括三个主要组件:特征编码器模块、上下文提取器和特征解码器模块。我们使用预训练的**ResNet**块作为**固定特征提取器**。上下文提取器模块由新提出的密集atrous卷积(DAC)块(**空洞卷积:池化层会导致图像语义信息的丢失,使用空洞卷积进行密集分割。空洞卷积是每个核之间插入r-1个0。**)和残差多核池(RMP)块组成。我们将所提出的CE Net应用于不同的二维医学图像分割任务。综合结果表明,该方法在视盘分割、血管检测、肺部分割、细胞轮廓分割和视网膜光学相干断层扫描层分割方面优于原始U-Net方法和其他最先进的方法。

Ⅰ.介绍

医学图像分割通常是医学图像分析中的重要步骤,如视网膜图像中的视盘分割[1]、[2]、[3]和血管检测[4]、[5]、[6]、[7]、[8],电子显微镜(EM)记录中的细胞分割[9]、[10]、[11],肺分割[12],[13] ,[14],[15],[16]以及计算机断层扫描(CT)和磁共振成像(MRI)中的大脑分割[17],[18],[19],[20],[21],[22]。以前的医学图像分割方法通常基于边缘检测和模板匹配[15]。例如,圆形或椭圆形霍夫变换用于视盘分割[23],[3]。模板匹配也用于MRI序列图像中的脾脏分割[24]和脑CT图像中的心室分割[22]。

还提出了用于医学图像分割的可变形模型。已经提出了使用水平集[25]的基于形状的方法用于心脏MRI图像的二维分割和前列腺MRI图像的三维分割。此外,采用基于水平集的可变形模型从腹部CT图像中分割肾脏[26]。可变形模型还与吉布斯先验模型集成,用于分割器官的边界[27],与进化算法和统计形状模型集成,以从CT体积分割肝脏[16]。在视盘分割中,也提出并采用了不同的可变形模型,如数学形态学、全局椭圆模型、局部可变形模型[28]和改进的主动形状模型[29]。

还提出了基于学习的方法来分割医学图像。Aganj等人[30]提出了一种基于局部质心的方法,用于X射线和MRI图像中基于无监督学习的图像分割。Kanimozhi等人[31]应用平稳小波变换来获得特征向量,并采用自组织映射来处理这些特征向量,用于无监督MRI图像分割。 Tong等人[32]结合字典学习和稀疏编码对腹部CT图像中的多器官进行分割。基于像素分类的方法[33]、[1]也是基于学习的方法,其使用预先注释的数据基于像素来训练分类器。然而,从较大数量的像素中选择像素并提取特征来训练分类器并不容易。Cheng等人[1]使用超像素策略来减少像素数量,并使用超像素分类进行视盘和杯状物分割。Tian等人[34]采用了一种基于超像素的图形切割方法来分割3D前列腺MRI图像。在[35]中,将基于超像素学习的方法与形状约束的受限区域相结合,从CT图像中分割肺部。

这些方法的缺点在于利用手工制作的特征来获得分割结果。一方面,很难为不同的应用设计具有代表性的特征。另一方面,设计的特点对于一种类型的图像工作良好,对于另一种类型常常失败。 因此,缺乏提取特征的通用方法。

随着卷积神经网络(CNN)在图像和视频处理[36]以及医学图像分析[37]、[38]中的发展,使用深度学习的自动特征学习算法已成为医学图像分割的可行方法。基于深度学习的分割方法是基于像素分类的学习方法。 与通常使用手工特征的传统像素或超像素分类方法不同,深度学习方法学习特征并克服手工特征的局限性。

早期用于医学图像分割的深度学习方法大多基于图像块。Ciresan等人 [39]提出了基于斑块和滑动窗口策略在显微镜图像中分割神经元膜。然后,Kamnitsas等人[40]采用了具有全连接条件随机场(CRF)的多尺度3D CNN架构来增强基于补丁的脑损伤分割。显然,这种解决方案引入了两个主要缺点:滑动窗口导致的冗余计算和无法学习全局特征。

随着端到端全卷积网络(FCN)[41]的出现,Ronneberger等人[10]提出了用于生物医学图像分割的Ushape Net(U-Net)框架。U-Net在电子显微镜记录中的神经元结构分割和光显微镜图像中的细胞分割方面显示出有希望的结果。它已成为生物医学图像分割任务[42]、[43]、[44]、[45]的流行神经网络架构。Sevastopolsky等人 [43]应用U-Net直接分割视网膜眼底图像中的视盘和视杯,用于青光眼诊断。Roy等人[44]在光学相干断层扫描(OCT)图像中使用了类似的网络进行视网膜层分割。Norman等人[42]使用U-Net从膝关节MRI数据中分割软骨和半月板。U-Net也用于从CT图像中直接分割肺部[45]。

U-Net上已经针对不同的医学图像分割任务进行了许多变化。Fu等人[4]采用CRF来收集多阶段特征图,以提高血管检测性能。后来,通过在U-Net架构中添加多尺度输入和深度监督,提出了一种改进的U-Net框架(称为M-Net)[2],用于联合视盘和杯分割。深度监管主要介绍与中期特征相关的额外损失函数。基于深度监督,Chen等人[46]提出了一种V oxresnet来分割体积脑,Dou等人[47]提出了3D深度监督网络(3D DSN)来自动分割CT体积中的肺。

为了增强U-Net的特征学习能力,提出了一些新的模块来取代原来的块。 Stefanos等人[48]提出了一种分支残差U-网络(BRU-net)来分割病理性OCT视网膜层,用于年龄相关性黄斑变性的诊断。BRU-net依靠残差连接和扩张卷积来增强最终的OCT视网膜层分割。Gibson等人[49]在每个编码器块中引入了密集连接,以自动腹部CT分割多脏器,Kumar等人[21]提出了一种用于婴儿大脑MRI分割的InfiNet。**除了在基于U-Net的医学图像分割方面取得的上述成就外,一些研究人员还在对U-Net进行改进以用于一般图像分割方面也取得了进展。**彭等 [50]提出了一种新的全局卷积网络来改进语义分割。林等人[51]提出了一种多径细化网络,该网络包含残差卷积单元、多分辨率融合和链式残差池。赵等人[52]采用空间金字塔池来收集提取的特征图,以提高语义分割性能。

  U-Net及其变体的一个常见限制是,连续的池化操作或卷积跨步降低了学习越来越抽象的特征表示的特征分辨率。尽管这种不变性对于分类或对象检测任务是有益的,但它经常阻碍需要详细空间信息的密集预测任务。 直观地说,在中间阶段保持高分辨率特征图可以提高分割性能。然而,它增加了特征图的大小,这对于加速训练和减轻优化难度来说不是最优的。 因此,在加速训练和保持高分辨率之间存在权衡。通常,U-Net结构可以被认为是编码器-解码器结构。 编码器旨在逐步降低特征图的空间维度(特征图的空间维度通常指的是特征图的高度和宽度,也可以称为特征图的空间分辨率。),捕捉更多高级语义特征。 解码器的目的是恢复对象的细节和空间维度。

受上述讨论以及**InceptionResNet**结构[53]、[54]的启发,这些结构使神经网络变得更宽、更深,我们提出了一种新的密集atrous卷积(DAC)块来使用atrous卷积。原始的UNet架构通过在编码路径中采用连续的3×3卷积和池化操作,在有限的缩放范围内捕获多尺度特征。**我们提出的DAC块可以通过向四个级联分支注入多尺度atrous卷积来捕获更宽、更深的语义特征**。**在该模块中,利用残差连接来防止梯度消失。此外,我们还提出了一种基于空间金字塔池的残差多核池(RMP)[55]。RMP块还通过采用各种大小池操作对从DAC模块提取的对象的多尺度上下文特征进行编码,而不需要额外的学习权重**。总**之,DAC块被提议用多尺度atrous卷积来提取丰富的特征表示,然后是RMP块,用多尺度池操作来提取进一步的上下文信息**。将新提出的DAC块和RMP块与骨干编码器-解码器结构相结合,我们提出了一种新的上下文编码器网络**CENet。它依靠DAC块和RMP块来获得更抽象的特征,并保留更多的空间信息**,以提高医学图像分割的性能。

这项工作的主要贡献总结如下:

1) 我们提出了DAC块和RMP块来捕获更多的高级特征并保留更多的空间信息。 2) 我们将所提出的DAC块和RMP块与编码器-解码器结构相结合,用于医学图像分割。 3) 我们将所提出的方法应用于不同的任务,包括视盘分割、视网膜血管检测、肺分割、细胞轮廓分割和视网膜OCT层分割。结果表明,在这些不同的任务中,所提出的方法优于最先进的方法

本文的其余部分组织如下。第二节详细介绍了提出的方法。第三节介绍了实验结果和讨论。在第四节中,我们得出了一些结论。

图1。拟议的CE网络说明。首先,将图像馈送到特征编码器模块中,其中使用从ImageNet预训练的ResNet-34块来替换原始U-Net编码器块。上下文提取器用于生成更高级的语义特征图。它包含一个密集atrous卷积(DAC)块和一个残差多核池(RMP)块。最后,将提取的特征输入到特征解码器模块中。在本文中,我们采用解码器块来放大特征大小,取代了原来的上采样操作。解码器块包含1×1卷积和3×3反卷积运算。基于跳跃连接和解码器块,我们获得了作为分割预测图的掩码。

Ⅱ、方法

所提出的CE Net由三个主要部分组成:特征编码器模块、上下文提取器模块和特征解码器模块,如图所示1。(特征编码器主要关注从输入数据中提取有用的特征表示,而上下文提取器主要关注捕获输入数据中的上下文信息。这两者通常一起使用,以帮助神经网络更好地理解和处理各种任务。特征编码器提取特征表示,而上下文提取器提供额外的信息来丰富这些特征表示。

A.特征编码器模块

在U-Net架构中,编码器的每个块包含两个卷积层和一个最大池化层。在所提出的方法中,我们在特征编码器模块中将其替换为预训练的**ResNet-34**[53],该模块保留了前四个没有平均池化层和完全连接层的特征提取块。与原始块相比,ResNet增加了快捷机制,以避免梯度消失,加速网络收敛,如图所示。第1(b)段。为了方便起见,我们使用了**改进的U-net****和预训练的ResNet**作**为**主干方法。

B.上下文提取器模块

上下文提取器模块是一个新提出的模块,由DAC块和RMP块组成。该模块提取上下文语义信息并生成更高级的特征图 。

1)空洞卷积**:在语义分割任务和对象检测任务中,深度卷积层已经显示以有效地提取图像的特征表示。 然而,池化层导致图像中语义信息的丢失。为了克服这一限制,采用atrous卷积进行密集分割[56]:

atrous卷积最初是为了有效地计算小波变换而提出的。在数学上,二维信号下的萎缩卷积计算如下:

其中,输入特征图x和滤波器w的卷积产生输出y,并且萎缩率r对应于我们对输入信号进行采样的步幅。它相当于用上采样卷积核对输入x进行卷积,上采样卷积核是通过在每个空间维度的两个连续卷积核值之间插入r−1个零而产生的(因此得名atrous convolution,其中法语单词atrous在英语中的意思是孔)。标准卷积是速率r=1的特殊情况,而atrous卷积允许我们通过改变速率值来自适应地修改滤波器的视场。如图2所示。

2)密集空洞卷积模块:Inception[54]和ResNet[53]是深度学习中的两种经典且具有代表性的架构。Inception系列结构采用不同的感受域来拓宽结构。相反,ResNet采用快捷连接机制来避免梯度的爆炸和消失。它使神经网络首次突破了数千层。 Inception ResNet[54]块结合了Inception和ResNet,继承了这两种方法的优点。然后,它成为深层细胞神经网络领域的一种基线方法。受Inception-ResNet-V2块和atrous卷积的启发,我们提出了**密集atrous卷积(DAC)**块来编码高级语义特征图。像如图3所示,atrous卷积以级联模式堆叠。在这种情况下,DAC有四个级联分支,萎缩卷积的数量从1逐渐增加到1、3和5,那么每个分支的感受野将是3、7、9、19。它采用不同的感受野,类似于启始空间结构。在每个萎缩分支中,我们应用一个1×1卷积进行整流线性激活。最后,我们直接将原始功能添加到其他功能中,如ResNet中的快捷机制。由于所提出的块看起来像一个密集连接块,我们将其命名为密集atrous卷积块。通常情况下,大接收场的卷积可以为大对象提取和生成更抽象的特征,而小接收场的卷积层对小对象更好。通过组合不同atrous速率的atrous卷积,DAC块能够提取各种大小物体的特征。

图3。密集萎缩卷积块的图示。它包含四个级联分支,随着萎缩卷积数量的逐渐增加,从1到1、3和5,那么每个分支的感受野将是3、7、9、19。因此,该网络可以从不同的尺度提取特征。

3)Residual Multi-kernel pooling:分割中的一个挑战是医学图像中对象大小的巨大变化。例如,中晚期的肿瘤可能比早期大得多。在本文中,我们提出了一种**残差多核池来**解决这个问题,它主要依靠多个有效视场来检测不同大小的对象。

感受野的大小大致决定了我们可以使用多少上下文信息。一般的最大池操作只使用一个池内核,例如2×2。 如图4所示,,所提出的RMP用四个不同大小的感受野编码全局上下文信息:2×2、3×3、5×5和6×6。四级输出包含各种大小的特征图。为了降低权重的维数和计算成本,我们在每个级别的池化后使用1×1卷积。它将特征图的维数减少到原始维数的1N,其中N表示原始特征图中的通道数。然后,我们通过双线性插值对低维特征图进行上采样,以获得与原始特征图相同大小的特征。 最后,我们将原始特征与上采样的特征图连接起来。

图4。残差多核池(RMP)策略的说明。所提出的RMP使用四个不同大小的池核来收集上下文信息。然后将特征输入到1×1卷积中,以降低特征图的维数。最后,将上采样的特征与原始特征连接起来。

C.特征解码器模块

特征解码器模块用于恢复从特征编码器中提取的高级语义特征模块和上下文提取器模块。跳过连接将一些详细信息从编码器带到解码器,以弥补由于连续池化和跨步卷积操作而造成的信息损失。与[48]类似,我们采用了一种有效的块来提高解码性能。简单的放大和去卷积是U形网络中解码器的两种常见操作。 放大操作通过线性插值增加图像大小,而去卷积(也称为转置卷积)则使用卷积操作来放大图像。直观地说,转置卷积可以学习自适应映射来恢复具有更详细信息的特征。因此,我们选择使用转置卷积来恢复解码器中的较高分辨率特征。如图6所示,如图1(c)所示,它主要包括1×1卷积、3×3转置卷积和1×1连续卷积。基于跳过连接和解码器块,特征解码器模块输出与原始输入大小相同的掩码。

D.损失函数

我们的框架是一个端到端的深度学习系统。如图6所示,1,我们需要训练所提出的方法来预测每个像素是前景或背景,这是一个逐像素分类问题。最常见的损失函数是交叉熵损失函数。

然而,医学图像中的物体,如视盘和视网膜血管,通常占据图像中的一个小区域。 对于这样的任务,交叉熵损失不是最优的。在本文中,我们使用Dice系数损失函数[57],[58]来代替常见的交叉熵损失。下一节还进行了比较实验和讨论。Dice系数是在基本事实可用时广泛用于评估分割性能的重叠度量,如等式(2)所示:

其中N是像素数,p(k,i)∈[0,1]和g(k,i)∈{0,1}分别表示类k的预测概率和基本真值标签。K是类数,并且PkωK=1是类权重。在我们的论文中,我们根据经验设置ωk=1K。

最终损失函数定义为:

其中,Lreg表示用于避免过拟合的正则化损失(也称为权重衰减)[59]。

为了评估CE-Net的性能,我们将所提出的方法应用于五种不同的医学图像分割任务:视盘分割、视网膜血管检测、肺部分割、细胞轮廓分割和视网膜OCT层分割。

Ⅲ、实验

A.实验设置

在本节中,我们首先介绍了在训练和测试阶段使用的图像预处理和数据增强策略。

1)训练阶段:**由于训练图像的数量有限,因此对数据集进行了扩充,以降低过拟合的风险[36]。首先,我们以一种雄心勃勃的方式进行数据扩充,包括水平翻转、垂直翻转和对角线翻转。通过这种方式,原始数据集中的每个图像都被扩充为2×2×2=8个图像。其次,图像预处理的解决方案主要包括从90%到110%的缩放、HSV颜色空间中的颜色抖动和图像的随机移位。

2)测试阶段:**为了提高医学图像分割方法的鲁棒性,我们还采用了测试增强策略,如[60]、[61]中所述,包括图像水平翻转、垂直翻转和对角线翻转(相当于对每个图像预测8次)。然后我们对8个预测进行平均,得到最终的预测图。所有基线方法在测试阶段都使用相同的策略。

3)实验设置**:我们提出的网络是基于在ImageNet上预训练的ResNet。该实现基于公共PyTorch平台。训练和测试床是Ubuntu16.04系统,带有英伟达GeForce Titan显卡,具有12 GB内存。

在训练过程中,我们采用了小批量随机梯度下降(SGD),批量大小为8,动量为0.9,权重衰减为0.0001,而不是Adam优化。我们使用SGD优化,因为最近的研究[62][63]表明,尽管Adam优化收敛更快,但SGD通常会获得更好的性能。此外,我们使用多学习率策略,其中学习率乘以(1−iter max iter)功率0.9和初始学习率4e−3[52]。最大历元为100。我们已经在Github 1上发布了我们的代码。

**B.视盘分割**

我们首先在视盘分割上测试了所提出的CE Net。在我们的实验中使用了三个数据集,ORIGA[66]、Messidor[67]和RIMONE-R1[68]。ORIGA数据集包含650幅尺寸为3072×2048的图像。它被分为两组:A组用于训练,B组用于测试[69]。 在本文中,我们遵循数据集的相同分区来训练和测试我们的模型。Messidor数据集是由Messidor项目合作伙伴提供的公共数据集。它由1200张不同尺寸的图像组成:1440×960、2240×1488、2340×1536。Messidor数据集最初是为糖尿病视网膜病变(DR)分级而收集的。稍后,还从官方网站2提供了每个图像的光盘边界。RIM-ONE数据集由三个版本组成。图像的数量分别为169、455和159。在本文中,我们使用了第一个发布的数据集(RIM-ONE-R1)RIM-ONE-R1数据集中的五种不同的专家注释。我们遵循[70]中的分区来获得Messidor和RIM-ONE-R1数据集中的训练和测试图像。应该注意的是,ORIGA和Messidor数据集提供完整图像,而RIM-ONE-R1提供裁剪图像。

为了根据原始分辨率分割视网膜眼底图像中的视盘,我们根据[71]中的动机,在最亮点周围裁剪了800×800的区域,除了RIM-ONE-R1数据集,其中已经裁剪并提供了带有视盘的区域。

为了评估性能,我们采用了重叠误差,该误差通常用于评估视盘分割的准确性:公式(4)其中S和G分别表示分段的和手动的地面实况光盘。除了平均值,我们还计算了相应的标准偏差。

我们将我们的方法与最先进的算法进行比较。 比较了五种不同的算法,包括超像素分类方法[1]、U-Net[10]、M-Net方法[2]、更快的RCNN方法[72]和DeepDisc方法[65]。所有的基线模型都是从它们最初的实现中采用的。

表一显示了这些方法重叠误差的平均值和标准偏差。正如我们所看到的,所提出的CE-Net优于最先进的视盘分割方法。特别是,它在ORIGA数据集中实现了0.058的重叠误差,比最新的Faster RCNN或DeepDisc方法的0.069相对减少了15.9%。 在Messidor数据集中,CE-Net实现了0.051的重叠误差,这比DeepDisc的0.064相对减少了20.3%。RIM-ONE-R1数据集有五个独立的注释。在我们的实验中,我们遵循[70]中的相同设置,使用交叉验证来获得结果。尽管与Expert 2和Expert 3的注释相比,它的性能略差于DeepDisc,但总体结果仍然表明,CE-Net优于DeepDisc和其他方法。

我们还在图5中显示了四个样本结果。5将我们的方法与一些竞争性方法进行了视觉比较,包括基于超像素的方法、M-Net和DeepDisc。图像显示,我们的方法获得了更准确的分割结果。

*C.视网膜血管检测**

第二个应用是视网膜血管检测。我们使用包含40张图像的公共DRIVE[73]数据集。 在DRIVE中,提供了两个专家手册注释,其中第一个被选为文献[4]中性能评估的基本事实。这40幅图像分为20幅用于训练的图像和20幅用于测试的图像。为了比较血管检测的性能,我们计算了两个评估指标,灵敏度(Sen)和准确度(Acc),这两个指标也在[4][6]中计算。

其中T P、T N、F P和F N分别表示真阳性、真阴性、假阳性和假阴性的数量。此外,我们还引入了受试者操作特征曲线下面积(AUC)来衡量分割性能。

我们将所提出的CE Net与最新算法[5]、[8]、[7]进行了比较。此外,一些经典的基于深度学习的方法[74]、[10]、[4]也包括在比较中。表二显示了这些方法之间的比较。通过比较,CE Net在Sen、Acc和AUC方面分别达到0.8309、0.9545和0.9779,优于其他方法。与主干相比,Sen从0.7781增加到0.8309,增加了6.8%,Acc从0.9477增加到0.9545,AUC从0.9705增加到0.9 779,这表明所提出的DAC和RMP块也有利于视网膜血管检测。我们在图6中展示了一些视觉比较的示例。

**D.肺部分割*

下一个应用是肺部分割任务,即在肺结节分析(LUNA)竞赛的2D CT图像中分割肺部结构。LUNA竞赛最初针对以下挑战性赛道进行:结节检测和假阳性减少。由于分割的肺是进一步候选肺结节的基础,我们采用挑战数据集来评估我们提出的CE-Net。 该数据集包含534个2D样本(512×512像素)和相应的标签图像,可以从官方网站3。我们使用80%的图像进行训练,其余用于测试,还进行了交叉验证。  评估指标包括重叠误差、准确性和灵敏度,类似于视盘分割和血管检测。除平均值外,我们还在表III中计算了相应的标准偏差。

从表III所示的比较来看,CE Net的重叠误差为0.038,灵敏度得分为0.8309,准确度得分为0.9545,优于U-Net。我们还将CE-Net与主干进行了比较,重叠误差从0.044降低到0.038,降低了13.6%,灵敏度得分从0.967提高到0.980,准确度从0.988提高到0.990,这进一步支持了我们提出的DAC和RMP块有利于肺部分割。 我们还在图6中给出了几个肺分割的视觉比较示例。

**E.细胞轮廓分割*

第四个应用是细胞轮廓分割。细胞分割任务是在电子显微镜记录中分割神经元结构。该数据集由EM挑战提供,该挑战始于2012年ISBI,目前仍对新的贡献开放[75]。该训练集包含30幅图像(512×512像素),可以从官方网站4下载。测试集由30个图像组成,并且是公开的。然而,相应的基本真相却一直不为人知。测试集上的结果是通过将预测图发送给组织者来获得的,组织者随后将计算并发布结果。从官方网站上的声明来看,以下指标最适合对分割结果进行定量评估:边界细化后的前景受限rand评分(V rand)和边界细化后前景受限信息论评分(V Inf o)。V Rand主要通过结合Rand分割得分和Rand合并得分来计算加权谐波平均值,用于衡量分割性能。类似地,V Inf o主要计算信息论得分的加权调和平均值。分数越高表示分割效果越好表演这两种算法的具体计算过程和更多细节可以在[76]中找到。

我们将我们的CE-Net与原始U-Net和主干网进行了比较,最终结果如表IV所示。我们的CE-Net优于U-Net和骨干网。这表明我们提出的CE-Net对于细胞轮廓分割任务是有效的。我们还在图6中给出了一些视觉比较的例子,尽管基本事实不可用。

**F视网膜OCT层分割**

以上四个应用程序是针对两个类分割问题进行的,其中我们只需要向前分割-背景中的地面对象。在本文中,我们还证明了我们的方法适用于多类分割任务。我们以视网膜OCT层分割为例,将CE-Net应用于分割11个视网膜层[77]。 该数据集包含20个三维体积,每个体积有256个二维扫描。人工标定了10个边界,将每个2D图像分为11部分:边界1对应于内界膜(ILM);神经纤维层和神经节细胞层之间的边界2(NFL/GCL);内部丛状层和内部核层之间的边界3(IPL/INL);内部核层和外部丛状层之间的边界4(INL/OPL);外部丛状层和外部核层之间的边界5(OPL/ONL);边界6,其对应于外部限制膜(ELM);边界7,其对应于内部段的上边界(向上IS);边界8对应于内部段的下边界(低IS);外节段和视网膜色素上皮之间的边界9(OS/RPE);Bruchs膜和脉络膜之间的边界10(BM/脉络膜)。为了评估性能,我们采用平均绝对误差[77],通常用于评估视网膜OCT层分割的准确性。

我们将我们提出的方法与一些最先进的OCT层分割方法进行了比较:[77]中的Topcon内置方法、重建斑点减少(SRR)方法[77]、FCN[41]和U-Net[10]。

表五总结了性能比较。 与U-Net和主干方法相比,我们的CENet实现了1.68的总体平均绝对误差,分别从2.45和2.18相对降低了31.4%和22.9%。与Topcon内置方法和SRR相比,我们的CE Net在大多数情况下也能获得更好的结果。这表明我们提出的CE-Net也可以应用于多类分割任务。此外,我们还对交叉熵损失和骰子损失进行了比较实验。表V显示,骰子损失的CE Net优于交叉熵损失的CE。

我们还在图7中展示了一些样本结果,以直观地将我们的方法与U-Net和骨干方法进行比较。 通过我们的CE Net,图像清楚地显示了更准确的分割结果。

**G.消融研究**

为了证明所提出的CE Net中预训练的ResNet、DAC块和RMP块的有效性,我们以ORIGA和DRIVE数据集为例进行了以下消融研究:

**采用预训练ResNet模型的消融研究:**我们提出的方法是基于U-Net的,因此U-Net是最基本的基线模型。我们采用残差块来代替UNet的原始编码器块,旨在增强学习能力。我们将具有预训练残差块和特征解码器的改进的U形网络称为“骨干”。最近的工作[78]指出,ImageNet预训练在很大程度上有助于规避优化问题,并且从预训练的权重进行微调的收敛速度比从头开始更快。我们还进行了实验,将有预训练和没有预训练的结果进行了比较。图8显示了两种情况下损失的变化情况。正如我们所看到的,在有预训练的情况下,损失下降得比没有预训练的更快。表VI显示了分割结果。通过采用预训练的ResNet块,Backbone方法获得了更好的性能。

对于OD分割,重叠误差从0.115降低到0.075,降低了34.8%。对于视网膜血管检测,Acc和AUC分别从0.939和0.960增加到0.943和0.971。结果表明,预训练的ResNet块是有益的。

**密集空洞卷积模块的消融研究:**

所提出的DAC块采用不同速率的atrous卷积,组装在类Inception块中。因此,我们首先进行实验来验证atrous卷积的有用性。我们使用正则卷积来代替DAC块中的萎缩卷积(称为Backbone+DAC w/o萎缩)。如表VI所示,我们提出的DAC模块(称为Backbone+DAC with atrous)将OD分割中的重叠误差从0.073降低到0.061,降低了16.4%,并提高了视网膜血管检测中的Acc和AUC。 这表明,与常规卷积相比,atrous卷积有助于提取高级语义特征。 我们还将我们提出的DAC块与常规Inception-V2块(称为Backbone+Inception块)进行了比较。 比较结果表明,DAC块优于常规起始块,OD分割的重叠误差从0.068到0.061相对降低了10.3%。 最后,重叠误差从主干的0.075减少到0.061(主干+DAC),减少了18.7%。这表明所提出的DAC块能够进一步提取全局信息来获得高分辨率的高级语义特征图,这对我们的分割任务很有用。

**剩余多核池模块消融研究:**

表VI还显示了RMP的效果,它提高了OD分割的性能。带RMP模块的主干称为“主干+RMP”。与主干相比,OD分割的重叠误差从0.075下降到0.061,下降了18.7%,而视网膜血管检测的Acc和AUC得分从0.943和0.971上升到0.952和0.974。RMP模块可以对全局信息进行编码,并改变特征图的组合方式。

**具有类似复杂性的网络消融研究:**研究人员已经表明,复杂性是网络能力的体现[79],复杂性的增加通常会带来更好的性能。因此,人们担心这些改进可能来自网络复杂性的增加。为了缓解这种担忧,我们将我们的网络与具有类似复杂性的网络进行了比较。在本文中,我们将其与前面提到的由常规Inception-ResNet-V2块(backbone+InceptionResNet块)备份的主干进行了比较。表VI显示,我们的CE Net更好,OD分割的重叠误差从0.065减少到0.058,Acc和AUC得分从0.951和0.974增加到0.955和0.978。

**IV.结论**

医学图像分割在医学图像分析中具有重要意义。在本文中,我们提出了一个端到端的深度学习框架,名为CE-Net,用于医学图像分割。与U-Net相比,所提出的CE Net在特征编码器中采用了预训练的ResNet块。新提出的密集atrous卷积块和残差多核池被集成到ResNet修改的UNet结构中,以捕获更多的高级特征并保留更多的空间信息。通过使用新的训练数据和手动地面实况微调我们的模型,我们的方法可以应用于新的应用程序。实验结果表明,该方法能够在不同的任务中改进医学图像分割,包括视盘分割、视网膜血管检测、肺部分割、细胞轮廓分割和视网膜OCT层分割。据信,该方法是一种通用的方法,可以应用应用于其他2D医学图像分割任务。在本文中,我们的方法现在在2D图像上得到了验证,扩展到3D数据将是未来可能的工作。

背景

存在的问题: U-Net 的限制就是连续的池化操作或卷积跨步降低了学习越来越抽象的特征表示的特征分辨率,阻碍需要详细空间信息的密集预测任务
为此作者提出即在模型的中间阶段保持高分辨率的特征图可以提高分割性能。这可以帮助模型更好地捕捉图像的空间信息。然而,保持高分辨率特征图会增加特征图的大小,从而不利于加速训练和优化过程。
作者为了获得高分辨率特征同时又获得空间信息,提到 U-Net 结构可以被视为编码器 - 解码器结构。编码器的目标是逐渐减小特征图的空间维度并捕捉更高级别的语义特征。解码器的目标是恢复对象的详细信息和空间维度。因此,作者建议在编码器中捕获更多的高级特征,同时在解码器中保留更多的空间信息,以提高图像分割的性能
具体的做法
提出 DAC 块和 RMP 块,两个块与 骨干编码器解码器结构结合,形成新的上下文编码网络。获得更多的高级特征并保留更多的空间信息。
DAC 块的作用:原始的 Unet 是通过连续卷积和跨步池化获得多尺度信息, DAC 块通过密集空洞卷积和四个级联分支获得更广泛和更深层的语义特征。
RMP 块的作用:进一步编码从 DAC 模块中提取的对象的多尺度上下文特征。通过多尺度池化操作,可以扩展感受野,并且可以减少信息的丢失。

CE-Net结构图

三个主要组成部分:特征编码器模块、上下文提取器模块和特征解码器模块
特征编码器模块 :首先特征图经过一个 7*7 的卷积 ,降低特征图的大小得到 224*224 ,通道数是 64 的特征图,然后的每一个块包括一个池化层和一个残差模块,使用池化层进行降采样,残差模块是 ResNet34 使用的两个卷积的模块

上下文提取器模块

上下文提取器模块:由 DAC RMP 块组成,用来提取上下文语义信息并生成更高级的特征图。
DAC 在编码器阶段 Inception-ResNet-V2 + atrous 卷积,
空洞卷积:通过在每个空间维度的两个连续卷积核值之间插入 r−1 个零而产生的。

DAC块:不同的扩张率可以捕获不同尺度的特征。

1. 输入特征图( Input Feature Map :首先, DAC 块接收来自上一层的输入特征图作为输入。这个输入特征图通常包含了来自图像的低级和中级特征。
2. 四个分支( Four Branches DAC 块包含四个并行的卷积分支,每个分支使用不同的扩张率( dilation rate )进行扩张卷积操作。这四个分支的扩张率分别为 1 3 5 19 ,这意味着它们可以捕获不同尺度的特征信息。
3. 扩张卷积( Atrous Convolution :每个分支都应用扩张卷积操作,使用指定的扩张率。扩张卷积操作是一种卷积操作,其中卷积核的感受野通过在输入上跳跃地应用来扩大。这允许不同扩张率的分支捕获不同尺度的特征信息。
4. 1x1 卷积( 1x1 Convolution :在每个分支的扩张卷积之后,都应用一个 1x1 的卷积层,以减少通道数并引入非线性性质。这有助于特征的维度约简和非线性变换。
5. 特征融合( Feature Fusion :在每个分支的 1x1 卷积之后,将它们的特征图逐元素相加( element-wise addition )。这是一种密集连接的方式,允许不同分支的特征信息融合在一起,以获得更丰富和多尺度的表示。
6. 输出特征图( Output Feature Map :最后,将融合后的特征图作为 DAC 块的输出。这个输出特征图包含了来自不同分支的多尺度特征信息,可以用于后续的语义分割任务。
RMP块
RM P 更好地捕获像素级别的细节和上下文信息。 RMP 用四个不同大小的感受野编码全局上下文信息: 2×2 3×3 5×5 6×6 。四级输出包含各种大小的特征图。为了降低权重的维数和计算成本,我们在每个级别的池化后使用 1×1 卷积。它将特征图的维数减少到原始维数的 1N ,其中N表示原始特征图中的通道数。然后,我们通过双线性插值对低维特征图进行上采样,以获得与原始特征图相同大小的特征。 最后,我们将原始特征与上采样的特征图连接起来。
特征解码器模块
跳跃连接将一些详细信息从编码器带到解码器,用来恢复从特征编码器中提取的高级语义特征模块和上下文提取器模块。
我们使用转置卷积恢复高分辨率特征,它主要包括 1×1 卷积、 3×3 转置卷积和 1×1 连续卷积。基于跳过连接和解码器块,特征解码器模块输出与原始输入大小相同的掩码。
1*1 卷积主要是进行升维和降维。
损失函数及数据集
逐像素问题常用交叉熵损失函数,但是视盘和视网膜占据图像中的一个小区域。
所以使用 Dice 系数损失函数。
应用于五种不同的医学图像分割任务:视盘分割、视网膜血管检测、肺部分割、细胞轮廓分割和视网膜 OCT 层分割。
数据( 5 个):
1)optic disc segmentation (视盘):为了根据原始分辨率分割视网膜眼底图像中的视盘,在最亮的点周围裁剪出 800 × 800 的区域。 ORIGA (650 幅图像,尺寸为 3072×2048 。分为 2 :A 套训练, B 套测试 )

Messidor(1200幅图像,有三种不同的尺寸:1440 × 9602240 × 14882340 × 1536),数据集官网:http://www.uhu.es/retinopathy/

RIM-ONE-R1(RIM-ONE-R 有三个版本。图像的数量分别为 169 455 159 ,用 1 ,提供裁剪后图像 )
2)retinal vessel detection (视网膜血管): DRIVE(40 幅图像 :20 幅用于训练、 20 幅用于测试 )
3)lung segmentation from the Lung Nodule Analysis (LUNA) competition(534 2D 样本 (512×512) 和各自的标签图像 ,80% 训练,其余测试)
https://www.kaggle.com/kmader/finding-lungs-in-ct-data/data/
4)cell contour segmentation (细胞轮廓): ISBI 2012(512512 30 张训练, 30 张测试,测试的 GT 未公开 )http://brainiac2.mit.edu/*
5)retinal OCT layer segmentation (视网膜 OCT 层):
TOPCON DATASET( 3D 数据分离出的 10 个边界的 2D 图像 )
实验
视盘分割:数据集: ORIGA Messidor RIMONE-R1
这些方法重叠误差的平均值和标准偏差。
视网膜血管检测
使用公共 DRIVE 数据集
与主干相比, Sen 0.7781 增加到 0.8309 ,增加了 6.8% Acc 0.9477 增加到 0.9545 AUC 0.9705 增加到 0.9 779 ,这表明所提出的 DAC RMP 块也有利于视网膜血管检测。
肺部分割
CE Net 的重叠误差为 0.038 ,灵敏度得分为 0.8309 ,准确度得分为 0.9545 ,优于 U-Net 。我们还将 CE-Net 与主干进行了比较,重叠误差从 0.044 降低到 0.038 ,降低了 13.6% ,灵敏度得分从 0.967 提高到 0.980 ,准确度从 0.988 提高到 0.990 ,这进一步支持了我们提出的 DAC 和RMP块有利于肺部分割。
细胞轮廓分割
视网膜OCT层分割
消融研究
为了证明所提出的 CE Net 中预训练的 ResNet DAC 块和 RMP 块的有效性,我们以 ORIGA DRIVE 数据集为例进行了以下消融研究:
我们将具有预训练残差块和特征解码器的改进的 U 形网络称为“骨干”
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值