Multi-scale Perception and Feature Refinement Network for multi-classsegmentation of intracerebral

基于多尺度感知和特征细化网络的脑出血CT图像多类分割

摘要:

脑出血对人类健康和福祉构成严重威胁。CT图像中血肿的自动分割可以为医生提供必要的诊断协助,并确保改善患者的治疗和康复效果。现有的脑出血分割方法主要集中在识别出血区域,不能准确区分和勾勒出不同类型的血肿。然而,不同类型的出血在灰质水平和形状方面表现出高度的相似性,血肿的规模也可能有很大差异。为了解决这个问题,我们提出了一个多尺度感知和特征细化网络(MPFR-Net)来自动分割脑实质内和脑室内出血。具体而言,我们提出了一种多尺度感知模块(MPM),该模块由不同层次特征的集成以及局部和全局多尺度分支组成。MPM允许有效地提取多尺度特征,并建立目标和背景之间的远程关系。此外,我们提出了一个特征细化模块(FRM)来细化下采样到深层后丢失的模糊细节信息,同时补充来自浅层特征的小目标信息。为了提高我们方法的临床适应性,我们进一步收集了来自多家医院的608例患者病例,构建了一个多中心数据集,称为ICH-Seg,其中每个病例都包含肺内和脑室内出血。从定量和可视化结果来看,MPFR-Net在私有和公共数据集上都优于以前的方法,显示出对脑出血的分割和潜在的临床应用前景。

1. 介绍

脑出血是一种严重的脑血管疾病,可导致严重的神经功能缺损。与其他疾病不同,它的发病几乎是立即和危险的,通常没有任何警告信号。

因此,脑出血对诊断的实时性和准确性提出了更高的要求。更及时、更全面地评估患者的病情有利于制定有效的诊断和治疗计划。计算机断层扫描(CT)成像技术以其速度快、成像质量好、图像相对清晰等优点,已成为脑出血诊断的临床金标准。这一特性使得CT图像与病灶高度一致

脑出血的及时诊断要求。随着计算机技术的快速发展,临床医生越来越多地利用计算机辅助诊断(CAD)技术对医学图像进行自动分析和评价,以辅助患者的诊断和治疗。

近年来,由于深度学习能够自动学习海量数据集的特征,深度学习在自然语言处理、计算机视觉和医学图像分析等领域取得了重大进展[2-4]。深度学习模型包括U-Net及其变体[5-8]、基于注意力的网络[9,10]和基于变压器的网络[11-13],最近在医学图像分割方面取得了突破。同样,深度学习也有提供了ICH分割[14-17]方面的强大技术支持。这些深度学习方法可以自动检测和分割医学图像中的目标区域,减少了人工干预的需求,显著提高了分割效率,同时降低了人为错误的风险。

深度学习技术自动分割颅内出血已成为未来不可避免的趋势。临床上,颅内出血可分为不同类型,例如脑实质内出血(IPH)和脑室内出血(IVH),等等。这两种类型的出血具有不同的病理机制、临床表现和治疗选择。自动分割IPH和IVH对于及时制定适当的治疗计划和评估预后至关重要。然而,在CT图像中,IPH和IVH不容易区分。一方面,脑实质内出血和脑室内出血具有相似的灰度值和低对比度[18],使得区分具有挑战性并导致边界模糊[19],如图1的第1列所示。另一方面,血肿的外观是多变的,包括血肿区域的大小和形状,如图1的第2列和第3列所示。此外,扫描不成功可能会在CT图像中引入大量噪音和伪影,使颅内出血分割具有挑战性,如图1的第4列所示。

为了应对这些挑战,我们提出了一个多尺度感知和特征细化网络(MPFR-Net),以考虑CT图像的特点和两种类型出血的特点,实现IPH和IVH的准确分割。首先,我们提出了一个多尺度感知模块(MPM),利用全局和局部分支从不同级别的综合特征中提取多尺度特征,并在目标与背景之间建立长距离关系。然后,我们提出了一个特征细化模块(FRM),重点关注和探索深度多尺度融合特征和浅层特征之间的共同点和差异。通过使用自适应融合来加权共同特征和不同特征,选择适当的特征来细化在下采样到深层时丢失的模糊细节信息,同时补充浅层特征中的小目标信息。

图1。CT图像示例(第1行),显示不同的分割挑战情况和相应的地面实况(第2行),例如连接的出血(第1列),不同尺度的出血(第2列和第3列),以及图像噪音(第4列)。粉色和蓝色分别表示脑室内出血和脑实质内出血。

总的来说,本文的主要贡献可以总结如下:

• 我们提出了MPFR-Net,用于基于CT扫描的IPH和IVH分割,它利用建立长距离关系、多尺度特征和特征细化来有效解决不同尺度出血和不同类型极其相似血肿的问题。

•我们提出MPM从全局和局部分支的综合特征中提取多尺度特征,并建立目标和背景之间的远距离关系。然后,我们提出FRM来细化下采样到深层后的模糊细节信息,并补充深度多尺度融合特征缺失的浅尺度特征。

•为了推进脑出血多分类分割的研究和发展,我们创建了一个新的多中心数据集(命名为ICH-Seg),该数据集由608例临床病例的18386个CT切片组成。每个病例都有IPH和IVH,并且每个病例的血肿都用像素级注释进行标记。

•我们进行了广泛的实验,将MPFR-Net与11种最先进的分割方法在私有和公共数据集上进行比较,结果表明MPFR-Net实现了新的最先进的性能。

2. 相关工作

2.1. 传统方法

在传统的分割方法中,一些多尺度分割算法可以得到很好的分割效果。Tang等人提出了多尺度梯度矢量流蛇算法,该算法将主动轮廓建模和梯度矢量流技术相结合,提高了船舶边界定位的精度。这种方法特别适用于活体显微镜图像,并擅长于精确跟踪血管边界。Choi等人提出了以小波域隐马尔可夫模型为核心的图像纹理分割HMTseg算法。该算法能够有效地捕获纹理信息,提供准确的分割结果。同样,经过几十年的探索和研究,基于传统方法的脑出血分割也取得了一定的研究进展,主要有基于阈值的方法[22]、形态学操作、区域生长[23]、水平集模型[18,24,25]和聚类方法[26,27]或多种传统分割方法的有机结合[28-30]。虽然基于传统方法的脑出血分割可以在一定程度上解决问题,但一方面,它需要大量的领域专业知识和人工专家的干预,如识别和分析出血特征以降低数据的复杂性,并对估计结果进行后处理以进行准确诊断。此外,它们还不够健壮,不能满足临床标准,其实际性能仍有待提高。

2.2. 深度学习方法

由于其强大的自动提取能力,深度学习已被应用于医学图像处理的各个领域。

Mu等人提出了PGPLP[7],这是一种新型的深度全编解码器卷积网络,用于从胸部CT图像中分割COVID-19肺部感染区域。Mu等人提出的ARUNet[8]是一种采用微分预处理和几何后处理的注意残差U-Net架构。虽然上述网络在各自的应用中都取得了良好的效果,但我们的模型与这些方法之间存在一些根本性的差异。(1)这些方法都是基于CNN。我们的模型结合了Transformer和CNN。(2)这些方法使用类似于U-Net[5]的渐进上采样解码器,而我们模型的解码器以并行方式执行融合。

近年来,深度学习在脑出血分割中也发挥了重要作用。IsIam等人提出了基于空卷积神经网络和超列特征[31]的ICHNet。

Kuang等人提出了一种Semi-D-Unet[32]模型,该模型采用加权交叉熵结合三个模型对病灶区域进行分割,模型复杂度较高,相应的训练速度较慢。Kuo等人提出了一种用于同时分割和分类任务的神经网络架构。以Dilated ResNet38为主干,构建像素预测分支和块分类分支。这种方法允许他们一起执行这些任务。Kwon等人提出了一种Siamese U-Net,通过结合个体CT图像与健康模板之间学习到的图像特征之间的差异,对ICH进行更准确的分割。这种方法需要引入额外的健康模板,这可能需要很高的数据要求,并对临床实施构成挑战。Cho等人提出了一种基于相关图的端到端深度卷积神经网络[15]来分割CT图像中的ICH。Kuang等[16]模仿放射科医生的方法,在观察连续CT切片出血形态变化的基础上,提出훹Net。

该方法使用三个连续的图像切片作为网络输入,结合自注意模块和上下文注意模块来抑制不相关特征。Abramova等人指出,区分IVH和IPH可能具有挑战性。因此,他们将IVH作为背景的一部分,采用限制性斑块采样处理类不平衡,然后结合挤压-激励块完成基于3D U-Ne架构的ICH自动分割。虽然这些方法能够从背景中区分出血区域,但考虑到临床脑出血发生的区域不同,且不同区域的血肿高度相似,对不同类别的出血自动分割的研究还有待探索。

2.3. 多类分割方法

随着脑出血智能分割技术走向临床,不同类型血肿的分割已经引起了专家们的关注。Chang等[34]提出使用面罩RCNN主干检测并分割脑出血、硬膜下及硬膜外血、蛛网膜下腔出血这三种脑出血类型。该方法采用三维金字塔网络路径提取特征,二维扩展网络结构恢复图像分辨率。由于涉及到三维网络,该方法需要大量的三维卷积运算和高运算资源。为了平衡敏感性和特异性,Cho等[35]提出使用Dual fcn对脑实质出血、脑室出血、蛛网膜下腔出血、硬膜外出血和硬膜下出血等5种脑出血进行分割。2020年,进一步引入LcGAN[36]合成CT图像,实现数据增强,辅助分割模型优化学习。

上述方法主要基于卷积神经网络设计,具有足够的局部特征提取能力,但没有充分考虑临床数据的多样性,缺乏对低级和高级语义信息的综合均衡利用,导致从网络中提取的大量图像信息丢失严重。此外,局部特征对高度相似的出血区域没有分类敏感性。因此,这些方法得到的分割结果仍有很大的改进空间,特别是面对复杂多样的临床数据。不同类型脑出血的分类一直是一个难题。

3.方法

多类型脑出血的分割需要从两个方面考虑。(1)要做到对所有出血区域的准确识别,无论大小血肿都要识别,以免错认或漏点。考虑到不同语义层次的特征对不同尺度的ICH区域具有不同的感知能力,深层特征具有更大的感受野,可以从整体角度感知整个出血区域,而浅层特征更准确地捕捉出血区域的边缘、纹理等细节。

因此,在网络设计中充分利用不同深度层次的编码器是很有必要的。(2)准确判断每个像素属于哪个类。由于灰度和形态学特征难以直接区分IPH和IVH,因此有必要掌握出血位置与脑背景结构的相关性,以辅助出血类型的确定。因此,在判断出血类型时,网络应该能够捕捉出血与背景脑结构之间的长期依赖关系,而不仅仅是局部特征提取。综上所述,我们提出了一种基于多尺度感知和特征细化的MPFR-Net算法,用于脑出血CT图像的多类分割。

3.1. 总体架构

提出的网络架构如图2所示。MPFR-Net是一个典型的编码器-解码器结构,包括一个Transformer编码器、一个多尺度感知模块(MPM)和一个特征细化模块(FRM)。在MPFR-Net中,对于输入的CT切片X ∈ R𝐻×𝑊×1,首先使用一个1×1的卷积层将输入通道数从1转换为3。对于这些转换后的输入数据,我们首先使用PVT v2 [37]编码器提取具有不同深度级别和分辨率大小的四个编码特征,分别是X1,X2,X3和X4,分辨率分别为原始图像的1/4、1/8、1/16和1/32。然后,直接连接X2、X3和X4,以获得具有三层编码特征的融合特征,然后使用带有全局和局部分支的MPM来实现更强大的多尺度特征提取和融合。之后,使用FRM来将X1和MPM中的多尺度融合特征D234组合起来,以细化网络在下采样到深层后模糊的细节,并补充在多层特征提取中丢失的小尺度目标。最后,通过1×1卷积和Softmax激活函数将特征恢复到输入图像的大小,从而获得MPFR-Net的最终输出。接下来将详细描述网络中两个主要模块的具体组成。

下面将详细介绍网络中两个主要模块的具体组成。

3.2. 多尺度感知模块

随着网络深度的增加,接收野增大,网络可以获得图像的整体信息。大多数方法将多尺度特征模块设计在网络顶层附近,因为顶层具有最大的接受域。然而,血肿的大小在不同的患者之间差异很大,不仅在不同病例和切片之间,而且在同一切片内,有些血肿只有几个像素。因此,仅设计靠近顶层的多尺度模块不能很好地解决以中小尺度对象为主的脑出血分割问题。为了充分挖掘不同层次语义特征对描述不同尺度对象的偏好,MPM首先融合最深层的三个特征,可以表示为:

其中,𝑐𝑜𝑛𝑐𝑎𝑡表示连接操作。融合特征𝑋234已经包含了网络的多个深层特征,其中包含了具有不同感受野和丰富语义信息的层次结构。基于此,可以进行多尺度特征提取,以增强不同尺度对象的特征表示。现有的多尺度模块主要依赖于并行的多支结构,利用多核扩张卷积或不同尺寸的池化来实现考虑不同感受野的目的。

在这里,我们采用了一种具有全局和本地分支的并行多尺度方法,以下是详细描述。

图2所示。提出的MPFR-Net的体系结构。它由两个主要部分组成:多尺度感知模块(MPM)和特征细化模块(FRM)。前者用于融合不同层次特征,从全局和局部分支中提取多尺度特征;后者用于重用浅层特征,以细化分割结果。

全局多尺度分支

全球多尺度分支旨在通过Transformer对长期依赖关系进行建模,建立已经捕获的出血与背景中不同脑结构之间的关联信息。具体而言,全局多尺度分支由三个补丁嵌入层组成,这些补丁嵌入层将特征映射划分为不同大小的补丁和Transformer block,如图3所示。值得注意的是,与ViT[38]中的补丁嵌入方法不同,这里我们使用了来自PVT v2[37]的重叠补丁嵌入方法。通过设置卷积核的大小和步长实现patch分区,将feature map划分为多个重叠的patch。变压器块由多头自关注(MSA)和MLP块的交替层组成。具体注意操作可表述为:

其中,𝑞代表查询向量,𝑘可以被视为键向量,𝑣表示值向量,而𝑑ℎ𝑒𝑎𝑑是维度。

特征向量。所有这些向量都是由输入特征本身推导出来的,这些特征是通过线性变换得到的。

通过计算查询向量푞与关键向量푘之间的相似度,得到各元素的关注权重,然后用这些权重对值向量푣进行加权求和,得到输出向量。

多头自关注可以在不受局部限制的情况下对任意块之间的相关性进行建模,使模型以patch为单位具有全局视图,而不同分支通过重叠不同大小的patch来解决Transformer中patch之间的不连续问题。将不同分支的最终全局特征相加,生成全局多尺度特征。

               图3所示。所提出的MPM全局多尺度分支的体系结构包含三个子分支。

局部多尺度分支。局部多尺度分支使用不同大小的卷积核提取图像的局部特征,并将通道内的信息进行整合,目的是关注每个空间位置。局部多尺度分支主要通过三次卷积从特征图中提取信息使用不同大小的卷积核(表示为𝐿𝑖,其中i ∈ {1, 2, 3}),然后通过逐元素相加进行特征融合,以获取多尺度的局部特征信息,其中卷积核的尺寸分别为3×3、5×5和7×7。同时,为了获得空间信息指导,沿通道维度对初始特征图进行平均,然后使用Sigmoid激活函数获得注意力图,将其与多尺度的局部特征图相乘,以确定空间中每个像素的重要性。为了确保网络训练的稳定性,对多尺度的局部特征图进行残差相加,以获得模块的最终结果(表示为𝐿)。以上的整体过程如下:

其中,𝜎 (⋅) 是 Sigmoid 函数。最后,通过对来自全局和局部分支获得的特征执行连接操作来实现特征融合。这完成了从全局和局部两个角度加强多尺度特征表示。

3.3. 特征细化模块

经过一系列的降采样操作后,图像的细节信息会丢失。特别是在低分辨率下,图像中的小目标或细微结构无法得到有效表征,这对分割结果的准确获取极为不利而编码器的浅层特征包含分辨率更高的像素级判别信息,包含丰富的细节信息。因此,我们将MPM得到的多尺度融合特征D234与编码器的浅层特征X1进行融合,以更好地辅助网络进行分割。然而,多尺度融合特征D234和浅层特征X1在不同层次上表现出语义差距。为了实现两者更全面的融合,我们设计了一个特征细化模块。

在该模块的设计过程中,我们展示了图4所示的特征细化模块逐步改进的过程,命名为

在图4(a)中,我们直接将𝐷234和𝑋1进行连接,然后堆叠两个基本的卷积块来完成特征融合。每个基本卷积块由一个3×3的卷积层、BN(批量归一化)和ReLU激活函数组成。然而,这种简单的融合方法没有考虑跨层语义差异

在图4(b)中,我们引入了Li等人提出的自适应方法[39],动态融合了浅层特征𝑋1和深度多尺度融合特征𝐷234。首先,我们通过逐元素求和将两个分支的结果进行融合,然后通过全局平均池化(GAP)来嵌入全局信息,生成通道方向的统计信息𝑠𝑐。具体而言,𝑠的第𝑐个元素是通过在空间维度𝐻×𝑊上收缩𝑈来计算的。然后,通过一个简单的全连接(FC)层创建一个紧凑的特征𝑧,以实现对精确和自适应选择的引导。此外,在紧凑的特征描述符𝑧的引导下,我们使用软通道级别的注意机制通过softmax操作来动态生成两个自适应权重,𝛼和𝛽,然后用于与𝑋1和𝐷234进行特征选择。最后,将得到的特征进一步相加以获得自适应融合的特征𝑈̄。这种自适应融合策略的过程可以描述如下:

然而,考虑到深度多尺度融合特征经历了多次特征提取过程,而浅层特征存在较大的语义间隙,因此直接聚合通常会引入模糊特征或导致细节丢失,这两种情况都会给网络优化带来负面影响。

我们正在继续设计模块(c),如图4(c)所示,其灵感来自[40]中基于聚焦和探索的融合模块,旨在通过关注不同层次特征之间的共性和差异来解决上述两种情况。在这里,重点是通过特征的倍增来实现的,探索是通过通过从𝐷234中减去𝑋1来完成对不确定区域的筛选。焦点和探索基于融合的过程可以表述如下:

其中,𝐹𝑓和𝐹𝑒分别表示焦点特征和探索特征。然后,使用模块(b)中的自适应融合策略来实现𝐹𝑓和𝐹𝑒的特征融合。

受到反向关注机制[41]的启发,我们进一步提出了一个特征细化模块,如图4(d)所示,对(c)中的减法运算的对象𝐷234被替换为𝐷234的反向关注结果。对于焦点后的特征𝐹𝑓和探索𝐹𝑒,我们使用模块(b)的自适应融合方法来衡量共同点和差异的重要性,也就是说,我们首先完成𝐹𝑓和𝐹𝑒的初始加法,得到融合特征𝑈。结合反向关注机制的焦点和探索过程可以表述为:

最后,类似于模块(c),我们使用来自模块(b)的自适应融合策略,将焦点特征𝐹𝑓与探索特征𝐹𝑒进行特征融合。

4. 实验结果及讨论

4.1. 数据集

我们在两个数据集上评估MPFR-Net,即私有数据集(ICHSeg)和公共数据集(PHY)。

ICH-Seg。从几家医院收集的私人数据集包括608个CT扫描,包括两类血肿,脑室内出血和肺实质出血。出血口罩由放射科医师手工标记,脑室内出血区域标记为1,实质内出血区域标记为2,其他正常区域均标记为0。

三维CT扫描尺寸为512 × 512 ×D(其中D表示每张CT图像的切片数,最小值为14,最大值为194)。在工作之后[14,42 - 44],我们进一步将这608个收集的CT扫描分为487个用于训练的扫描和121个用于测试的扫描,使用8:2的比例。我们将三维CT图像转换成二维切片。其中,训练集中的切片总数为14905条。为了提高训练效率,只使用6380个血肿切片进行训练,测试集中的切片总数为3481个。将每个案例的测试预测切片拼接在一起计算评价指标。

物理网数据集(PHY)。从伊拉克Al Hilla教学医院收集的公共数据集对82名创伤性脑损伤患者进行了CT扫描,其中包括36名被诊断为颅内出血的患者。每次CT扫描平均有30片左右,切片厚度为5mm。数据集由318个ICH CT切片组成,其中80%用于训练,其余用于测试。每张切片的ICH区域由两名放射科医生注释。在原始处理中,每个CT切片保存为灰度图像,大小为512 × 512。不需要进一步的数据处理,我们直接使用原始格式的数据集进行实验。考虑到该数据集的有限大小以及分割标签概述出血区域而没有像素级出血类别区分的事实,我们仅使用该数据集对我们提出的方法的ICH分割性能进行补充评估。

4.2. 实现细节

我们使用PyTorch框架实现我们的模型,我们采用PVT v2[37]作为主干,它由ImageNet[45]上的预训练模型初始化。采用NVIDIA GeForce RTX 2080Ti GPU显卡,11gb显存容量加快计算速度,并采用交叉熵作为损失,帮助网络收敛。此外,通过将学习率设置为1e-4, batchsize设置为2,使用AdamW优化器对整体参数进行优化。对于训练,我们采用深度学习中常用的策略,称为早期停止。我们将迭代的最大次数设置为100。在训练过程中的每个epoch完成后,评估模型在测试数据集上的性能。

如果模型在测试数据集上的性能在连续10个epoch的范围内没有表现出显著的改善,则停止训练。随后,在测试数据集上展示最有利性能指标的模型被保留为最终模型。

4.3. 评估指标和比较模型

评价指标。采用图像分割领域中常用的骰子相似系数(Dice Similarity Coefficient, Dice)作为计算预测结果与真实结果相似度的主要评价指标。它是一种区域级相似度度量,主要关注被分割对象的内部一致性。取值范围是0 ~ 1。该值越接近1,分割效果越好。此外,在PHY数据集上比较方法时,还使用Intersection over Union (IoU)、Precision (Pre)和Sensitivity (Sen)等评价指标来计算公共数据集上的分割性能。

而模型。我们将提出的方法与11种最先进的方法进行了比较,包括PatchFCN[33]、CE-Net[42]、CPFNet[43]、CA-Net[46]、HRNet[47]、TransFuse[44]、TransUnet[48]、UNeXt[49]、GLFRNet[50]、CamoFormer[51]和DconnNet[52]。其中PatchFCN[33]是为颅内出血分割而设计的,其他都是经典的或最近发表的图像分割方法。为了公平的比较,我们使用这些方法的公开代码再现了它们的网络结构,并在与我们相同的环境下进行训练和评估。

4.4. 性能比较

4.4.1. ICH-Seg数据集的比较

定量评价。我们首先使用ICH-Seg数据集来评估所提出模型的学习能力。我们将结果显示在表1中,并以粗体突出显示最佳结果。它表明在ICH- seg数据集上,我们的模型在IVH和IPH上都优于所有其他方法,并且我们的模型在ICH上也能取得最好的结果。

定性评估。

对于数据集中不同类型的血肿,视觉分割结果如图5、图6、图7所示。在图中,IPH和IVH在CT图像上显示为连接,出血模糊了可见的心室边界,难以准确界定两种血肿之间的边界,这对神经网络区分IPH和IVH提出了重大挑战。在这种情况下,我们可以观察到,我们提出的方法和TransUnet方法在确定两种血肿的边界时更接近医学专业人员的判断,而其他方法在边界确定方面存在显着差异。图6包含脑出血的几个区域,每个出血属于不同的类别。在这种情况下,可以观察到网络很容易区分顶部第三脑室区域的IVH,但错误地将底部侧脑室出血分类为IPH。只有我们的方法才能准确区分混合类别。在图7中,IPH的面积很大,IVH的面积也很小。这种类的不平衡很容易导致网络在识别过程中偏向较大对象的类,而忽略较小的类。最先进的分割方法能够分割一个IVH,但无法检测到其他较小的IVH,这在漏诊风险方面具有临床意义。我们提出的方法在多尺度感知和特征细化模块的支持下,仍然可以更有效地识别CT图像中存在的非常小的出血,并确定它们各自的类别。从临床角度来看,我们的主要挑战来自数据集。在CT图像中,由于血肿外观的多变性以及低对比度造成的边界模糊,这就要求我们在设计方法时充分考虑到距离依赖性,以保证模型能够捕捉到图像的微小变化。同时,这就要求我们在设计方法时要考虑多尺度特征提取、局部和全局特征结合等思想,以捕捉图像的多样性。总的来说,MPFR-Net在不同的挑战情况下都能实现稳定的分割能力。

计算成本。我们通过计算每个模型的理论浮点运算(FLOPs)和参数(Params)来评估所提出方法的计算成本,并将其与现有方法进行比较。对比结果如表1所示。从结果中,我们可以观察到,虽然我们的模型在FLOPs和Params方面没有表现出显着的优势,但这归因于我们的模型通过Transformer的自关注机制增强了其性能。我们未来的方向之一就是专注于这些轻量级的改进。

4.4.2. PHY数据集的比较

定量评价。我们使用PHY数据集进一步评估了所提出的MPFR-Net的泛化能力。由于该数据集没有像素级的多类出血标签,我们只是用它来验证ICH分割性能,并增加了IoU、Pre、Sen等相关指标作为辅助解释。结果如表2所示。可以看出,虽然我们的方法在Pre指数上没有达到最高水平,但在Dice、IoU和sen上取得了最好的结果,与其他方法相比,本文的MPFR-Net在Dice、IoU和sen上分别取得了至少0.0206、0.021和0.0441的提高。这些结果表明,我们的MPFR-Net不仅在ICH的多分类分割方面具有独特的优势,而且在脑内血肿的整体分割方面也具有一定的优势。

定性评估。图8为硬膜下出血合并颅骨骨折的分割可视化结果对比。从原始CT图像中可以看出,随着时间的推移,部分硬膜下空间的血肿逐渐被吸收,与背景对比度降低,更难区分。最先进的分割方法也会产生误判,并将右上方的血肿分类为阴性。虽然我们的方法预测结果与地面真值图像之间存在一定的差异,但我们的方法是有效的方法与基础真理有较高的重叠程度。本方法的预测结果虽然与GT仍有一定的差异,但与其他方法相比,其假阳性和假阴性区域相对较少。

4.5. 消融实验

我们进行了四项消融研究,以验证为精确分割多类别脑出血量身定制的两个关键组件的有效性,即多尺度感知模块(MPM)和特征细化模块(FRM)。(1)第一组实验是MPFR-Net本身的烧蚀研究。我们逐步在基线模型中添加模块,以验证这些模块的有效性。(2)第二组实验将我们的多尺度感知模块替换为现有的多尺度感知模块,验证我们设计的有效性。(3)前文介绍了从四个不同角度设计的特征细化模块。在这里,我们使用设计好的a、b、c模块替换选择的特征细化模块进行实验,验证特征细化模块的有效性。(4)第四组实验是基于不同骨干网的烧蚀研究。(5)第五组实验是对不同细节参数的研究。

MPFR-Net的消融研究。数值对比结果见表3,视觉效果见图9。

在No. 1 (Baseline)实验中,我们去除MPM和FRM,然后通过求和操作简单地融合前三个最高级别的特征。在No. 2 (Baseline+MPM)实验中,我们将MPM添加到基本模型中,验证MPM的有效性。在No. 3 (Baseline+FRM)实验中,我们将FRM加入到基本模型中,验证FRM的有效性。第4条(基线+MPM+FRM)是完整的模型。

从表中可以看出,添加单个模块的结果低于合并两个模块的结果。这反映了多尺度感知与特征细化相结合可以更有效地提高不同类型脑出血的分割性能。此外,将MPM和FRM模块分别添加到基线模型中,结果优于基线,表明这两个模块的有效性。

从视觉结果可以看出,“Baseline”和“Baseline+FRM”方法对出血类型的辨别能力稍差,容易混淆IVH和IPH,如图9第一、三行所示。“基线+MPM”方法对一些细微出血不够敏感,容易忽略这些细微出血,如图9第二行所示,IPH右下角的细微IVH不能被“基线+MPM”方法成功识别。相比之下,我们的方法考虑了多尺度全局和局部特征的提取,以及浅层次细节的细化,获得了准确的脑出血分割结果。对比图像也直观地表明,我们的方法可以有效地解决出血分类混淆、出血规模差异大、小血肿漏诊风险大等问题。

不同多尺度模块的比较。表4比较了我们提出的方法在ICH-Seg数据集上不同多尺度模块的分割结果。这些多尺度模块包括PPM[53]、ASPP[54]、RFB[55]、PAFEM[56]以及我们提出的多尺度感知模块。我们提出的MPM模块在IPH和IVH出血的分割中分别取得了最佳和次优的结果。此外,我们提出的MPM模块在颅内出血的分割方面也有一定的优势。

不同特征细化模块的比较。如表5所示,在固定基线和MPM的情况下,我们使用标记为(a)、(b)、(c)和(d)的四个特征细化模块进行实验。

模块(a)直接拼接深、浅特征,使用两个基本卷积块完成特征融合。模块(b)引入了一种自适应方法对浅、深多尺度融合特征进行聚合,显著改善了IPH的分割结果。然而,对于IVH, Dice指标只增加了0.0002。我们认为直接聚合的深度

多尺度融合特征和具有自适应选择的浅层特征跨越了很大的语义范围,但对小规模出血仍然不友好。模块(c)基于自适应融合的概念,改变待融合对象,关注不同层次特征之间的共性和差异,使浅层特征更接近深层特征。然而,该操作并没有在模块(b)的基础上进一步改善结果,相反,在两类的分割结果中,Dice系数降低了。我们进一步设计了模块(d),该模块通过利用深层特征的反向注意结果来突出浅层特征之间的差异,以另一种方式探索差异。其Dice值在所有结果中是最高的,表明所提出的特征细化模块适用于脑出血的多类分割。

不同主干的比较。一个优秀的特征编码器能够在初始阶段提取丰富的视觉信息。为了研究不同特征编码器对分割性能的影响,我们将MPFR-Net的PVT v2骨干网替换为不同的基于cnn和Transformer的骨干网,包括VGG16[57]、ResNet34[58]、Swin Transformer[59]、CoaT[13]、MiT[12]。如表6所示,我们的PVT v2[37]的MPFR-Net在学习和泛化能力方面的综合性能最好。根据ICH结果,使用不同的主干可以

获得较高的Dice值,表明直接从背景中分割脑出血区域的任务相对来说挑战性较小。然而,IVH和IPH的分割结果都很低,充分说明了不同类型的出血分割任务的挑战性。

VGG16和ResNet34是早期提出的经典卷积神经网络模型。CoaT、Swin Transformer、MiT和PVT v2模型都是将自关注机制应用于计算机视觉领域的最新经典骨干。与经典卷积神经网络不同,Transformer模型将图像转换为高维向量表示,通过不同的多头注意机制对特征向量进行建模,能够捕获远距离依赖关系和全局上下文语义特征。

事实证明,在复杂多样的医学图像分类任务中,新出现的模型具有更高效的特征提取和表达能力。然而,值得一提的是,Swin Transformer虽然是目前最流行的骨干模型,在ICH上可以实现基本的分割效果,但其对IVH和IPH类的分割效果并不理想。分析表明,Swin Transformer的自关注机制和滑动窗口设计对脑出血分类的远程建模不友好,不适合脑出血的多类分割任务。

不同细节参数的比较。我们提出的MPFRNet将图像大小统一设置为512 × 512,并使用AdamW优化器通过将学习率设置为1e-4来优化整体参数。因此,我们主要进行两组实验,一组是图像大小,另一组是学习率,如表7所示。从结果可以看出,降低图像分辨率会影响分割精度,尤其是IVH分割。

这是因为我们数据集中的许多切片包含非常小的IVH区域。降低分辨率可能会严重影响编码器从IVH区域提取特征的能力。这些结果表明,512 × 512的图像大小和1e-4的学习率的组合是最优的,并且在所有指标上都表现良好。

4.6. 讨论

 临床实践中,对脑出血CT图像进行准确的多类分割,有利于医生快速了解患者病情,制定治疗方案。然而,IVH和IPH的准确分割面临两个重大挑战:难以区分相似的灰度值和形态,以及出血尺度的显著差异。现有的ICH分割方法大多局限于对出血的整体区分或以IVH为背景,未能实现对不同出血类别的精细分割。为了解决这些挑战,我们尝试引入Transformer模块,这些模块可以对网络中的远程依赖进行建模,以帮助网络感知不同出血之间的差异。我们还设计了MPM和FRM,以进一步解决不同规模出血的分割问题。通过以上对比实验和烧蚀

我们发现,即使在许多具有挑战性的情况下,由于提出了MPM和FRM,我们的方法仍然取得了令人满意的结果。

另一方面,我们的方法也有一定的局限性。CT图像本质上是三维数据。然而,由于数据集不同样本的切片数存在显著差异,我们的方法主要是从二维切片的角度进行切片级目标区域分割,在指标计算时采用个案级整体计算,未能充分利用切片间的空间信息。此外,噪声是医学图像中常见的现象,它会对分割任务产生以下影响。(1)噪声会导致图像中不真实的强度变化和微妙的结构,使分割模型难以准确捕获真实的解剖特征和病理信息。(2)噪声增加了训练数据的不确定性,使模型更容易出现过拟合或对新数据泛化不足的情况。

(3)噪声也会增加计算资源的需求,在噪声存在的情况下,噪声图像可能需要更大的模型容量和更多的训练迭代来提取相关特征。充分考虑CT图像中噪声的影响是我们未来工作的关键一步,因为它具有重要的临床意义。最后,获得医学图像数据集尤其具有挑战性,开发无监督或半监督的方法对脑出血进行多类别分割将具有重要的临床意义。

5. 结论

本研究重点关注脑出血的多分类分割,并引入了一种新的网络MPFR-Net,以实现脑实质内和脑室内出血的准确分割。MPFR-Net充分集成了不同多分辨率的特征,采用了全局和局部特征提取方法,能够有效地利用多尺度特征。它还通过特征细化模块增强了语义深化过程中丢失的细节。此外,我们还建立了一个多中心数据集,用于多类别脑出血分割。一系列定量和定性实验表明,MPFR-Net在IPH和IVH分割方面取得了显著的准确性提高,同时在全脑出血分割方面也显示出优势。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值