YOLOv11全网最新创新点改进系列:全局信息融合与增强模块(HIFA),学习超越Unet,丰富的信息交互,重复使用和重新探索,从而使深层能够学习到模仿包含低层次细节描述和高级语义抽象的更全面特征!!

YOLOv11全网最新创新点改进系列:全局信息融合与增强模块(HIFA),学习超越Unet,丰富的信息交互,重复使用和重新探索,从而使深层能够学习到模仿包含低层次细节描述和高级语义抽象的更全面特征!!

所有改进代码均经过实验测试跑通!截止发稿时YOLOv11已改进40+!自己排列组合2-4种后,考虑位置不同后可排列组合上千万种!改进不重样!!专注AI学术,关注B站up主:Ai学术叫叫兽!

购买相关资料后畅享一对一答疑

YOLOv11全网最新创新点改进系列:全局信息融合与增强模块(HIFA),学习超越Unet,丰富的信息交互,重复使用和重新探索,从而使深层能够学习到模仿包含低层次细节描述和高级语义抽象的更全面特征!!


该文章提出全文戳这

摘要

尽管U形网络在许多医学图像分割任务中取得了显著的成果,但它们很少建模层次化层之间的顺序关系。这一弱点使得当前层难以有效地利用前一层的历史信息,导致分割结果在处理模糊边界和不规则形状的病变时表现不佳。为了解决这个问题,我们提出了一种新型的双路径U-Net,称为I2U-Net。新提出的网络通过双路径之间丰富的信息交互,鼓励历史信息的重复使用和重新探索,从而使深层能够学习到包含低层次细节描述和高级语义抽象的更全面特征。具体来说,我们引入了一个多功能信息交互模块(MFII),它能够通过统一设计建模跨路径、跨层级以及跨路径和跨层级的信息交互,使得所提出的I2U-Net的行为类似于展开的RNN,并享有其建模时间序列信息的优势。此外,为了进一步选择性且敏感地整合双路径编码器提取的信息,我们提出了一个全局信息融合与增强模块(HIFA),该模块能够高效地桥接编码器和解码器。对包括皮肤病变、息肉、大脑肿瘤和腹部多器官分割在内的四个具有挑战性的任务进行广泛实验,结果一致表明,所提出的I2U-Net在分割性能和泛化能力上优于其他最先进的方法。

摘要

尽管U形网络在许多医学图像分割任务中取得了显著的表现,但它们很少建模分层的顺序关系。这一缺点使得当前层很难有效地利用前一层的历史信息,导致对于边界模糊和形状不规则的病变的分割结果不尽如人意。为了解决这个问题,我们提出了一种新颖的双路径U-Net,称为I2U-Net。新提出的网络通过双路径之间丰富的信息交互,鼓励历史信息的再利用和再探索,使得深层能够学习到更全面的特征,包含低级细节描述和高级语义抽象。具体来说,我们引入了一个多功能信息交互模块(MFII),该模块可以通过统一的设计,建模跨路径、跨层以及跨路径与层的信息交互,使得I2U-Net在行为上类似于展开的RNN,享受建模时间序列信息的优势。此外,为了进一步选择性和敏感地整合由双路径编码器提取的信息,我们提出了一种整体信息融合与增强模块(HIFA),该模块可以高效地桥接编码器与解码器。通过在四个具有挑战性的任务(包括皮肤病变、息肉、大脑肿瘤和腹部多器官分割)上的广泛实验,结果表明,所提I2U-Net在性能和泛化能力上明显优于其他最先进的方法。

1. 引言

在计算机视觉领域,医学图像分割是主要的挑战之一,例如皮肤病变分割(Dai等,2022)、结肠镜图像中的息肉分割(Fan等,2020)、磁共振图像中的大脑肿瘤分割(Wang等,2021)以及腹部CT图像中的多器官分割(Cao等,2021)。这些分割结果为解剖区域的详细分析提供了宝贵的信息,极大地帮助医生描绘损伤、监测疾病进展并评估是否需要适当治疗。随着智能医学图像分析需求的不断增加,精确和稳健的分割方法变得愈加重要。

为了响应这一需求,许多带有编码器-解码器结构的深度学习方法被提出(Ramesh等,2021)。这些方法的编码器通常用于提取图像特征,解码器则将提取的特征恢复到原始图像大小并输出最终的分割结果。作为编码器-解码器网络的代表,U-Net(Ronneberger等,2015)证明了其在许多医学分割任务中的有效性,这激发了许多高效U形分割网络的开发,例如Attention U-Net(Oktay等,2018)、Res-UNet(Xiao等,2018)和DR-UNet(Li等,2019)。

尽管这些U形网络在医学图像分割中得到广泛应用,但它们仍然存在一个不容忽视的问题,即对于边界模糊且形状不规则的病变的分割结果并不理想。这个问题主要归因于两个因素:(i)U形网络的编码器提取的特征几乎完全由抽象的语义信息占据,导致细节内容的描述丢失;(ii)尽管解码器中的跳跃连接可以融合低分辨率和高分辨率的信息以改善特征学习,但它受到低分辨率和高分辨率特征之间语义差距较大的限制,导致特征图模糊且分割结果不理想(Pang等,2019)。如图1所示,随着网络深度的增加,细节信息(如边界、形状和纹理)逐渐减少,这显然对密集预测任务不利。
在这里插入图片描述

为了缓解上述问题,我们提出了一种新颖的双路径U-Net,称为I2U-Net。新提出的网络鼓励当前层重新利用和重新探索前一层的历史信息,使得深层能够学习到更全面的特征,包含低级细节描述和高级语义抽象,从而改善最终的分割结果。具体而言,与传统的U-Net只使用单一路径提取图像特征不同,我们提出的I2U-Net使用了两个并行路径。一条路径专门用于图像特征信息,另一条路径则用于存储前一层的历史信息,并通过共享卷积核沿着深度方向进行处理。这种结构使得I2U-Net的工作方式类似于展开的RNN,享受建模时间序列信息和利用历史信息的优势(LeCun等,2015;Zhao等,2021)。通过多方位的信息交互,I2U-Net鼓励历史信息的再利用和再探索。为了实现这种丰富的信息交互,我们提出了一个多功能信息交互模块(MFII),该模块可以通过统一设计建模跨路径、跨层以及跨路径与层的信息交互,从而使深层能够学习包含低级细节描述和高级语义抽象的全面特征。

此外,为了增强由双路径编码器提取的信息,我们将局部卷积和池化操作嵌入到一个非局部模块中(Wang等,2018),构建了一个新的整体信息融合与增强模块(HIFA)。该模块能够将局部操作(适合提取高频信息,如边界和纹理)和全局操作(适合提取低频信息,如结构和语义)的优势结合起来。与原始卷积或非局部模块相比,提出的HIFA能够选择性和敏感地学习从更广泛频率范围中提取的判别信息。HIFA模块位于I2U-Net的中间阶段,能够高效地桥接编码器和解码器。通过这些创新的设计,I2U-Net可以在一个紧凑的特征空间内操作,结果是更高的训练效率、更好的分割性能和更强的泛化能力。

总体而言,本研究的主要贡献总结如下:

  • 本文提出了一种用于医学图像分割的双路径U-Net,通过多方位的信息交互机制有效学习包含低级细节描述和高级语义抽象的全面特征。
  • 为了实现这种丰富的信息交互,本文提出了一个多功能信息交互模块,该模块通过统一设计建模跨路径、跨层和跨路径与层的信息交互。
  • 为了选择性和敏感地整合双路径编码器提取的信息,本文提出了一种新的整体信息融合与增强模块,该模块能够更高效地桥接编码器和解码器。
  • 在皮肤病变、息肉、大脑肿瘤和腹部多器官分割等四个具有挑战性的任务上,广泛的实验结果一致表明,提出的网络具有优异的分割性能和泛化能力。

2. 相关工作

2.1 经典的编码器-解码器结构

在由堆叠的卷积层和下采样层组成的卷积神经网络(CNN)框架中,较深的层通常具有更广泛的感受野,捕捉全局上下文信息,而较浅的层通常具有更高空间分辨率的局部信息。基于这些特点,Long等(2015)提出了全卷积神经网络(FCN),该网络扩展了传统的CNN,并使用类似解码器的部分生成分割掩膜。为了提高医学图像分割的性能,Ronneberger等(2015)开发了对称的编码器-解码器结构(即U-Net),将FCN框架与跳跃连接机制结合起来。跳跃连接可以融合浅层和深层特征以改进网络训练,但由于浅层和深层特征之间存在较大的语义差距,导致特征图模糊、分割结果较粗糙。为了增强跳跃连接的能力,Zhou等(2018)将所有U-Net层连接起来,开发了U-Net++,而Huang等(2020)则利用全尺度的跳跃连接和深度监督构建了U-Net3+。虽然这两个模型能够通过自动学习不同层次特征的重要性来灵活地进行特征融合,但它们的训练和推理速度较慢,经常受到批评。

受深度残差学习(He等,2016)和U-Net成功的启发,Xiao等(2018)开发了深度残差U-Net(Res-UNet),它允许网络的当前层重用之前的特征,从而减轻优化难度。此外,为了改进残差连接,Guan等(2019)提出了一种密集连接U-Net,直接连接所有层,确保网络中信息的最大流动。尽管密集连接带来了性能提升,但其冗余问题在文献中也得到了普遍批评(Zhao等,2021)。

另一方面,由于3D图像包含比2D图像更丰富的上下文信息并且展示了更复杂的空间结构,因此大量专门针对3D分割的模型也应运而生,例如V-Net(Milletari等,2016)、CoTr(Xie等,2021)、TransBTS(Wang等,2021)、UNETR(Hatamizadeh等,2022)和MBANet(Cao等,2023)。此外,更多关于3D分割的方法可以参见Niyas等(2022)和Azad等(2023)。

除了上述单路径网络外,一些双路径分割网络也应运而生。例如,Hui等(2021)提出了一个用于中风病变分割的双路径注意力补偿U-Net(DPAC-UNet),该网络由一个主网络和一个辅助路径网络组成。Fu等(2022)开发了一种高分辨率和多分辨率网络(HMRNet),用于脑结构分割,包含一个高分辨率分支和一个多分辨率分支。Zhou等(2022)提出了一种双编码器-解码器网络(H-Net)用于皮肤病变分割,它由浅层CNN来学习低级细节信息,并由深层CNN来捕捉高级语义信息。尽管我们提出的I2U-Net也是双路径结构,但它与上述网络有本质的区别:DPAC-UNet、HMRNet和H-Net的两个路径都设计为从原始图像中提取互补特征,而I2U-Net的一条路径专门用于捕捉图像特征信息,另一条路径使用一个零初始化的可学习矩阵作为输入来存储隐藏状态信息。这种结构使得I2U-Net的工作方式类似于展开的RNN,并享有建模分层时间序列关系的优势。此外,零初始化意味着噪声注入功能(Wei等,2020),这有助于正则化并提高模型的泛化能力。

2.2 有效的编码器-解码器桥接

U-Net的编码器通常用于提取图像特征,解码器则用于恢复提取的特征到原始图像大小并输出最终的分割结果。因此,开发一个有效的编码器-解码器桥接(即编码路径的最后一层或网络的中间阶段)对于提高模型的分割性能至关重要。

经典的U-Net(Ronneberger等,2015)在其中间阶段附加了两层顺序的3 × 3卷积以桥接编码器和解码器。为了增强特征传播和信息流动,Azad等(2019)使用了密集连接卷积作为桥接。受到Inception-ResNet结构(Szegedy等,2017)的启发,Gu等(2019)使用了多尺度的空洞卷积和多尺度池化作为编码器-解码器桥接,这可以在保留更多空间信息的同时提供更抽象的特征,从而提高医学图像分割的性能。考虑到上述桥接方法无法动态调整以适应不同大小的目标,Feng等(2020)提出了一个尺度感知金字塔融合(SAPF)模块来动态融合多尺度上下文信息。SAPF模块由三个并行的扩张卷积组成,用于捕获不同尺度的上下文信息,并且通过两个级联的空间注意力模块选择合适的感受野。与之前通过融合多尺度特征来捕获上下文信息的方法不同,Mou等(2021)在编码器-解码器结构的中间阶段引入了全局注意力机制,以适应性地整合局部特征和它们的全局依赖。

尽管这些方法在性能上有所提升,但最近的研究表明,全球注意力或非局部方法非常擅长捕获视觉数据中的低频信息,如全局结构和语义,但在学习高频信息(如局部边界和纹理)方面并不强大(Chen等,2019;Park和Kim,2022)。然而,人类视觉系统通常在不同频率下提取基本的视觉特征:低频提供视觉刺激的全局信息,而高频则传递图像中的局部空间变化(Kauffmann等,2014)。因此,开发一个能够捕获视觉数据中高频和低频信息的新架构是必要的。

受上述讨论的启发,并考虑到局部卷积的高通特性,我们将空间金字塔池化(He等,2015)和多尺度空洞卷积操作(Yu和Koltun,2015)嵌入到一个非局部模块中(Wang等,2018),从而得到了整体信息融合和增强模块(HIFA)。与原始的卷积或非局部模块相比,提出的HIFA结合了局部和全局操作的优势,能够灵活地从更广泛的频率范围中学习判别特征,这使得它能够高效地桥接编码器和解码器并显著提升分割性能。

3. 提出的方法

3.1 总体结构

Chen等(2017)揭示了残差连接(He等,2016)使得特征能够再利用,而密集连接(Huang等,2017)则鼓励新的特征探索,这对于学习有价值的表示至关重要。他们还发现,尽管残差和密集连接表面上有所不同,但它们都是高阶递归神经网络(HORNN)的表现形式。受到这些启发,我们提出了一种双路径U-Net用于医学图像分割,称为I2U-Net。I2U-Net的一条路径专门用于图像特征信息,另一条路径用于通过共享卷积核沿深度方向处理历史信息。这种结构使得I2U-Net的工作方式类似于展开的RNN(LeCun等,2015;Zhao等,2021),享有建模时间序列信息的优势。同时,它还继承了残差和密集连接的优势,能够以可接受的计算成本灵活地重用历史特征并探索新的特征。

图2展示了提出的I2U-Net的总体结构。与传统的U-Net不同,提出的I2U-Net是一个双路径U形网络,配备了多功能信息交互模块(MFII)和整体信息融合与增强模块(HIFA)。

3.2 双路径网络

提出的I2U-Net包括一个图像特征路径和一个隐藏状态路径。图像特征路径采用处理后的医学图像作为输入,捕捉分层特征。与此同时,隐藏状态路径遵循传统RNN的状态值初始化习惯,使用零初始化的可学习矩阵作为输入,存储前一层的历史信息。
在这里插入图片描述

3.2.1 图像特征路径

特征编码器:在经典的U-Net(Ronneberger等,2015)中,每个编码器块包含两个卷积层和一个最大池化层。为了捕获更具代表性的特征,我们用兼容的ResNet-34(Gu等,2019)替换了U-Net的原始编码器,保留了前四个特征提取块,并丢弃了平均池化层和全连接层。这样的ResNet编码器有两个显著的优点:(i)与浅层网络相比,带有残差单元的深层网络可以提取更具区分性的特征表示;(ii)残差连接使得当前层能够重用先前的特征,大大缓解了优化难度。

特征解码器:U形网络开发了一个对称的解码器模块,用于恢复特征编码器提取的高级语义特征。这样的解码器通常基于简单的上采样或反卷积(转置卷积)操作。上采样操作通过线性插值来放大图像大小,而反卷积通过卷积操作放大图像。直观地看,反卷积可以学习一个自适应映射,以恢复比上采样更具详细信息的特征。因此,我们使用反卷积来恢复解码器模块中更高分辨率的特征。

此外,提出的I2U-Net中的横向跳跃连接(见图2)采用求和而不是传统U-Net使用的连接操作。该修改可以减少计算成本,同时保持性能。

3.2.2 隐藏状态路径

隐藏状态路径的结构类似于图像特征路径。它们的主要区别体现在两个方面:(i)图像路径中的特征通道随着网络的不同阶段而变化(例如64、128、256、512),而状态路径中的通道数始终保持不变(默认值为32);(ii)在每个阶段的隐藏状态路径中,有一个1×1卷积,该卷积的权重在每一层之间共享。这是隐藏状态路径能够存储状态信息的关键,也使得I2U-Net与其他双路径网络(如DPAC-UNet、HMRNet和H-Net)有所不同。为了进一步增强模型的泛化能力,我们在隐藏状态路径中采用零初始化的可学习矩阵作为输入,这实际上意味着噪声注入功能(Wei等,2020),可以有助于正则化并提高模型的泛化能力。

3.3 多功能信息交互模块(MFII)

在这里插入图片描述

图3(a)展示了我们提出的MFII模块,它使得I2U-Net的双路径之间能够进行多维度的信息交互。

具体而言,图像路径的输入( x_t )和状态路径的输入( h_{t-1} )通过串联方式结合,之后通过残差单元( f_1 )和通道注意力单元( f_2 )(Wang等,2020)来提取新的判别特征( y_t )。然后,图像特征的一个副本与旧的图像特征( x_t )通过跳跃连接(蓝色连接,→)相加,生成新的图像特征( x_{t+1} )。与此同时,另一个副本通过共享的1×1卷积( g_1 )来压缩特征通道,再与旧的状态特征( h_{t-1} )相加,并最终通过预激活单元( g_2 ),其中包括非共享的批量归一化和tanh激活单元,生成新的状态特征( h_t )。

该MFII模块有三种不同的实现形式,包括E-MFII、E-MFII*和D-MFII,分别用于网络的不同阶段。具体如下:

  1. E-MFII和E-MFII*:这两个模块在编码器阶段使用,它们的区别在于,E-MFII*通过步长为2的卷积来减小特征图的大小,而E-MFII则保持特征图大小不变。
  2. D-MFII:在解码器阶段使用的MFII模块,通过反卷积操作增加特征图的大小。

这些模块均基于MFII模块构建,其区别在于残差块和跳跃连接的设计,如图3(b)所示。

3.4 整体信息融合和增强模块(HIFA)

在I2U-Net中,我们结合了局部卷积操作和全局操作的优势,提出了HIFA模块。该模块能够从不同频率范围中灵活地学习判别特征,从而有效地桥接编码器和解码器。HIFA模块的具体操作如下:

  1. 对输入特征( X \in \mathbb{R}^{H \times W \times C} )进行处理,其中( H )、( W )和( C )分别表示空间的高度、宽度和通道数。我们使用两个1×1卷积(( W_q )和( W_k ))将特征映射到两个不同的嵌入空间( \phi \in \mathbb{R}^{H \times W \times \hat{C}} )和( \theta \in \mathbb{R}^{H \times W \times \hat{C}} ),其中默认( \hat{C} = 0.5C )。
  2. 其中一个嵌入(( \phi ))被展平为大小为( N \times \hat{C} )的向量,其中( N = H \times W ),表示空间位置的总数。这个展平后的嵌入被称为“查询”(( Q ))。
  3. 另一个嵌入(( \theta ))经过空间金字塔池化和多尺度空洞卷积操作,分别捕捉其全局和局部上下文表示。然后,捕获到的表示与一个新的嵌入(“键”(( K )))进行连接,形成一个新的特征表示。

与传统的全局注意力或非局部模块(Wang等,2018)相比,提出的HIFA模块有两个显著的区别和优势:(i)我们将局部操作(多尺度空洞卷积)嵌入到非局部模块中,使得HIFA能够融合局部和全局操作的优势,捕捉不同频率的特征;(ii)HIFA模块中的特征通道数被减半,并且通过复制“键”获得“值”,这减少了模块的计算复杂度。基于这两个设计,HIFA模块能够在几乎相同的计算复杂度下灵活地学习更多的判别特征。
在这里插入图片描述

3.5 损失函数

医学图像分割面临的主要挑战之一是类分布的不平衡。为了优化提出的模型,我们采用了联合损失函数( \mathcal{L}{total} ),它结合了交叉熵损失(( \mathcal{L}{CE} ))和Dice损失(( \mathcal{L}_{Dice} ))来执行所有分割任务。具体公式如下:
在这里插入图片描述

其中,( g_i )和( p_i )分别表示地面实况标注和预测的概率图,( \epsilon )是一个小常数,用于防止除零错误,( N )是像素的数量。在所有实验中,所有方法默认使用( \mathcal{L}_{total} )损失。

3.6 实现细节

所有实验均在PyTorch库中实现,并在NVIDIA A100 GPU上执行,批量大小为4。初始学习率为0.001,学习策略采用CosineAnnealingWarmRestarts,T0=10,Tmult=2(Ma和Yarats,2021)。此外,使用带有权重衰减0.00005的自适应矩估计算法(Adam)作为优化器。对于2D分割任务,所有网络训练250个epoch;而对于3D分割任务,所有网络训练650个epoch。最后,在验证集上获得最高评估指标的模型将用于评估网络在测试集上的表现。

4. 实验与结果

4.1 对比方法

为了验证提出的I2U-Net在2D分割任务中的表现,我们将其与16种最先进的2D方法进行比较。这些方法大致可以分为三类:(1)六种通用分割方法(适用于医学图像和自然图像分割),包括U-Net(Ronneberger等,2015)、AttU-Net(Oktay等,2018)、Res-UNet(Xiao等,2018)、U-Net++(Zhou等,2018)、Deeplabv3+(Chen等,2018)和DenseASPP(Yang等,2018);(2)八种专为医学图像分割设计的方法,包括BCDU-Net(Azad等,2019)、CE-Net(Gu等,2019)、CPF-Net(Feng等,2020)、DO-Net(Wang等,2020b)、DPAC-UNet(Hui等,2021)、nnU-Net(Isensee等,2021)、HMRNet(Fu等,2022)和H-Net(Zhou等,2022);(3)两种基于Transformer的方法,包括Trans-Unet(Chen等,2021)和Swin-Unet(Cao等,2021)。

4.2 任务 1:2D 皮肤损伤分割
4.2.1 数据集与评估指标

首先,我们验证了提出的I2U-Net在皮肤损伤分割任务中的应用。实验中使用了两个公开可用的数据集:ISIC2018(Heuser和Lucchetti)和PH2(Mendonça等,2013)。

ISIC2018是由国际生物医学影像学会(ISBI)主办的“皮肤损伤分析以促进黑色素瘤检测”挑战数据集,收集了来自多个临床中心的2594张RGB图像。根据Abraham和Khan(2019)的方法,ISIC2018数据集被重采样为224×224像素,并分为训练集(70%)、验证集(10%)和测试集(20%)。

PH2是一个较小的数据集,仅包含200张皮肤镜图像,分辨率为768×560。在实验中,这些图像也被重新采样为224×224。需要注意的是,PH2数据集并未用于训练模型,而是用于评估在ISIC2018数据集上训练的模型的泛化能力。

为了客观地评估不同模型的性能,我们对ISIC2018和PH2数据集进行了五折交叉验证,并报告了交并比(IoU)和Dice相似性系数(Dice)的平均值。

4.2.2 分割性能

表1显示了不同模型在皮肤损伤分割任务中的性能。这些结果分别展示了在ISIC2018数据集上训练并测试的性能(“ISIC2018”列),以及在ISIC2018数据集上训练并在PH2数据集上测试的性能(“ISIC2018→PH2”列)。

首先,我们关注“ISIC2018”列。量化结果显示,提出的I2U-Net模型显著优于其他对比方法。具体而言,与经典的U-Net相比,我们的方法IoU提高了2.43%。与最佳的通用分割方法(DenseASPP)相比,我们的方法IoU提高了1.19%。与最佳的医学图像分割方法(H-Net)相比,我们的方法IoU提高了0.9%。在最好的Transformer方法Swin-Unet上,I2U-Net的IoU也超出了0.78%。

接着,关注“ISIC2018→PH2”列。该列展示了不同模型在PH2数据集上的泛化能力。可以看出,提出的I2U-Net在泛化性能上同样显著优于其他方法。与双路径网络H-Net相比,我们的方法IoU提高了2.22%。与最好的对比方法Swin-Unet相比,我们的方法IoU提高了1.41%。

这些结果证明了我们的方法在皮肤损伤分割中的优越性,尤其是在处理具有模糊边界和不规则形状的病灶时。

4.2.3 参数效率

计算复杂度和推理时间:可能会有误解认为提出的I2U-Net会消耗大量计算资源,但实际情况并非如此。表1全面比较了不同方法的计算复杂度(参数数量、FLOPs、内存占用)和推理时间。计算复杂度是基于批量大小为4时计算的,推理时间是输出一张图像的分割掩膜所需的时间。表1显示,提出的I2U-Net在提供最佳分割性能的同时,其计算成本适中。特别地,通过将I2U-Net中的特征通道数量减少一倍,我们得到了一个名为I2U-Net*的小型版本,它仅具有7.03M的参数、2.74G FLOPs和1578M的内存占用,是表1中最节省资源的网络。

此外,从实验结果中可以看到,I2U-Net*的分割性能也超过了所有对比方法,这再次证明了我们提出的网络在效率和效果方面的平衡。

训练难度:为了评估不同模型的学习效率,我们监测了在ISIC2018训练集上训练并在测试集上测试的模型的IoU分数随训练周期的变化,并记录了相关结果(见图6)。结果表明,提出的I2U-Net比其他对比方法更容易训练并更快收敛。值得注意的是,I2U-Net在训练70个周期后已经超过了其他方法在250个周期训练后达到的性能。此外,随着训练周期的增加,I2U-Net的性能会进一步提升。这一优势得益于I2U-Net能够有效地重新使用和重新探索前一层的历史信息,从而提高特征学习的能力并减少参数优化的难度。

图5展示了不同模型在ISIC2018和PH2数据集上的皮肤损伤分割可视化结果。我们可以看到,相比其他方法,I2U-Net的分割结果与地面真值非常接近,特别是对于边界模糊和形状不规则的病灶。

4.3 任务 2:2D 息肉分割
4.3.1 数据集与评估指标

第二个应用任务是来自结肠镜图像的息肉分割。息肉分割在临床中非常重要,因为它提供了结直肠癌诊断和手术的信息。实验使用了五个公共息肉数据集,包括CVC-ClinicDB(Bernal等,2015)、Kvasir(Jha等,2020)、EndoScene(Vázquez等,2017)、CVC-ColonDB(Tajbakhsh等,2015)和ETIS(Silva等,2014)。我们采用了与Zhang等(2021)相同的划分方法,即从CVC-ClinicDB和Kvasir数据集中随机选择1450张训练图像,并从所有五个数据集中选择798张测试图像。在处理之前,图像分辨率被调整为224×224。

为了准确且可靠地评估不同方法的性能,我们重复了五次实验,使用相同的划分设置但不同的随机种子值,然后报告了平均IoU和Dice分数。

4.3.2 分割性能

表2量化展示了不同模型在五个息肉数据集上的分割性能,包括两个已见数据集(CVC-ClinicDB和Kvasir)和三个未见数据集(EndoScene、ColonDB和ETIS)。图7展示了不同模型的可视化结果。

这些量化和可视化结果一致表明,提出的I2U-Net在分割性能和泛化能力上显著优于其他方法。具体来说,与广为人知的U-Net相比,我们的方法平均IoU提高了7.18%,平均Dice提高了7.22%。与最佳的通用分割方法(DenseASPP)相比,我们的IoU和Dice分数分别提高了2.88%和2.61%。与最佳医学图像分割方法(H-Net)相比,我们的IoU和Dice分别提高了1.96%和1.49%。与使用预训练模型的Swin-Unet相比,我们的IoU和Dice分别提高了2.26%和1.67%。这些结果证明了我们的方法在息肉分割中的有效性和先进性。

4.4 任务 3:3D 脑肿瘤分割
4.4.1 数据集与评估指标

第三个应用任务是来自磁共振成像(MRI)的脑肿瘤分割。实验使用了来自医学分割十项挑战(MSD)的数据集(Antonelli等,2022),该数据集提供了484个多模态、多站点的MRI图像(FLAIR、T1w、T1gd、T2w),用于低级和高级胶质瘤的分割。每个MRI图像的体素间距为1.0×1.0×1.0 mm³,并且在处理之前,所有图像的强度值进行了z-score标准化。

在本实验中,所有模型的输入都是随机采样的图像,体积大小为[128, 128, 128],并通过计算Dice相似性系数(Dice)和Hausdorff距离(HD)来评估其性能。我们随机将这些484张MRI图像分为训练集(70%)、验证集(10%)和测试集(20%),并进行五折交叉验证,以报告平均Dice和HD指标。

4.4.2 分割性能

表3定量展示了不同模型在脑肿瘤分割任务中的表现,显示出我们提出的3D I2U-Net在各个方面都明显优于对比模型。与3D U-Net相比,我们的方法Dice分数提高了4.03%。即使是专为脑肿瘤分割设计的网络TransBTS,我们的方法也实现了1.52%的Dice分数提高。值得注意的是,3D TransFuse是最具竞争力的对比方法,但我们的方法仍然超过了它,Dice分数提高了1.01%。这些性能优势在HD指标中也得到了反映,进一步验证了我们方法的优越性。

同时,通过全面比较不同方法的参数数量和FLOPs,我们可以看到3D I2U-Net在实现最佳分割性能的同时,计算成本适中。通过将3D I2U-Net中的特征通道数量减少一半,我们得到了一个名为3D I2U-Net的小型版本,其计算效率更高。实验结果表明,3D I2U-Net的分割性能仍然超越所有对比方法,证明了我们方法的有效性。

图8展示了不同方法在脑肿瘤分割任务中的可视化结果。虽然所有方法都能对肿瘤区域进行粗略的分割,但我们的3D I2U-Net能够更好地捕捉肿瘤的细节,尤其是在挑战性的区域。

4.5 任务 4:3D 腹部多器官分割
4.5.1 数据集与评估指标

第四个应用任务是腹部多器官分割,使用Synapse数据集(Landman等,2015)进行模型评估。Synapse数据集包含30个腹部CT扫描图像,这些扫描是在门静脉期进行的对比增强扫描。每个扫描包含80到225张切片,分辨率为512×512像素,切片厚度从1到6毫米不等。每个体积图像都被单独预处理,将其强度值规范化到[−1000, 1000] HU之间,并重采样为各向同性体素间距1.0毫米。

在本实验中,所有模型的输入图像体积大小为[128, 128, 64],性能评估使用Dice系数和HD指标对八个腹部器官进行:主动脉、胆囊、左肾、右肾、肝脏、胰腺、脾脏和胃。为了确保评估结果的可靠性,我们将Synapse数据集随机分为三部分:15个扫描用于训练,6个扫描用于验证,9个扫描用于测试,并进行五折交叉验证,报告平均Dice和HD指标。

4.5.2 分割性能

表4定量展示了不同模型在腹部多器官分割任务中的性能。这些结果表明,提出的3D I2U-Net在分割精度和HD指标上都稳定地超越了对比模型。具体来说,与3D U-Net相比,我们的方法在平均Dice分数上提高了6.36%,在HD指标上提高了12.89%。相对于流行的CNN-Transformer混合方法CoTr(Xie等,2021),我们的方法IoU和Dice提高了3.88%。即使与表现最佳的3D TransFuse(Zhang等,2021)相比,我们的I2U-Net在平均Dice和HD指标上也超出了它,分别提高了1.26%和1.65%。

表4还展示了我们I2U-Net与其他比较方法的平均性能差异的P值,所有P值均小于1e−2,证明了我们方法在分割精度和HD指标上的显著优势。

图9展示了不同模型的可视化结果。可以明显看到,提出的方法能够更精确地分割不同的器官,尤其是在对比度低、小尺寸或形状不规则的器官分割中,I2U-Net表现出色。这一优势主要归功于I2U-Net能够学习更加全面的特征,包含低层次的细节描述和高层次的语义抽象,这对于准确识别不同器官并清晰划定其边界至关重要。

这些定量和定性结果清楚地表明,提出的3D I2U-Net在腹部多器官分割任务中具有显著的优势。

4.6 分割结果分析

提出的I2U-Net在皮肤损伤、息肉、脑肿瘤和腹部多器官分割等四个不同任务上始终表现出色,证明了其通用性和适应性。对于皮肤损伤和息肉分割任务,跨数据集的验证证明了I2U-Net出色的泛化能力。这些令人兴奋的结果主要归因于以下几点:

  1. 历史信息重用和再探索:I2U-Net能够有效地重新使用和重新探索前一层的历史信息,捕捉更加全面的特征,既包含低层次的细节描述,又包含高层次的语义抽象。

  2. HIFA模块的优势:提出的HIFA模块能够融合局部和全局操作的优势,从更广泛的频率范围学习到更具区分性的特征,从而有效地桥接编码器和解码器。

  3. 隐藏状态路径的噪声注入:隐藏状态路径的零初始化意味着它具有噪声注入功能(Wei等,2020),有助于正则化并提高模型的泛化能力。

这些创新的设计和优化确保了I2U-Net在不同医学图像分割任务中的卓越性能和强大的泛化能力。

5. 讨论

5.1 消融研究

为了评估I2U-Net中各个模块的有效性,我们进行了逐步消融实验,比较了以下几种模型:

  • 基线模型:选择CE-Net(Gu等,2019)作为基线,完成网络的设计。
  • 模型1:基线模型的特征通道数量增加32。
  • 模型2:将基线模型编码路径中的最后一层卷积替换为我们提出的HIFA模块。
  • 模型3:将基线模型的特征提取模块替换为我们提出的MFII模块。
  • 模型4(I2U-Net):同时将HIFA和MFII模块加入到基线模型中,并将HIFA模块的特征通道数减少一倍。

表5展示了不同模型的消融实验结果。与基线(CE-Net)相比,模型1虽然增加了特征通道的数量,但其分割性能略有提升,但泛化能力在ISIC2018→PH2任务中下降了0.29%。这表明,简单增加特征维度可能会引入冗余信息,从而削弱泛化能力。

与基线模型相比,模型3通过加入MFII模块,显著提升了分割性能和泛化能力。这主要得益于MFII模块能有效地让当前层重新利用和再探索上一层的历史信息,从而保证深层次学习到的特征既包含低层次的细节描述,又包含高层次的语义抽象。

通过将基线模型中的最后一层卷积替换为HIFA模块,模型2在计算成本较低的情况下,取得了更好的性能。这证明了HIFA模块将局部操作和全局操作的优势相结合,可以灵活地从更广泛的频率范围学习到更具区分性的特征。

当同时使用MFII和HIFA模块时,性能得到了进一步提高(见模型4),证明了我们提出的两个模块的兼容性和互补性。

5.2 I2U-Net与不同桥接方法的变种

我们提出的HIFA模块位于I2U-Net的中间阶段,用于有效地桥接编码器和解码器。为了验证HIFA模块的优越性,我们比较了I2U-Net变种模型与不同桥接方法的分割性能:

  • 模型5:将I2U-Net中的HIFA模块替换为传统U-Net中的两个连续卷积。
  • 模型6:将HIFA模块替换为经典的非局部模块(Wang等,2018)。
  • 模型7:与I2U-Net相同,但HIFA模块的特征通道数减少了四倍。
  • 模型8:与I2U-Net相同,但HIFA模块的特征通道数保持不变。

表6展示了不同桥接方法的性能。通过比较模型5与I2U-Net(模型4),我们可以看到HIFA作为桥接模块在分割性能和计算成本方面具有明显的优势。此外,比较模型6与I2U-Net后,我们发现HIFA能比非局部方法更好地桥接编码器和解码器,且几乎没有增加计算成本。

图12展示了不同桥接方法得到的热图。通过对比,卷积方法(模型5)在定位病灶区域时精度较差;尽管非局部方法(模型6)能精确定位病灶区域,但其注意力图较为模糊,缺乏边缘信息。通过将局部卷积和最大池化操作嵌入到非局部模块中,我们的HIFA能够灵活地从更广泛的频率范围学习到更具区分性的特征,从而改善模型的分割性能。

5.3 MFII模块中的参数共享机制

为了验证MFII模块中共享参数设置的合理性和有效性,我们比较了MFII及其两个变种的分割性能。实验结果表明,与MFII†相比,MFII在计算成本和分割性能上有显著提高。通过共享参数设置,MFII能够有效地存储历史信息并建模不同网络层之间的时间序列关系,从而提高模型的学习能力和分割性能。

5.4 隐藏状态路径的初始化

在I2U-Net中,我们使用零初始化构建112×112×32的特征作为隐藏状态路径的输入(见图2)。为了验证这一初始化方法的有效性,我们比较了五种不同的初始化方法,包括图像初始化、常数初始化、随机初始化、正态分布初始化和零初始化。结果表明,零初始化相比其他方法,在泛化能力方面表现最佳。

5.5 预训练模型

通过比较Swin-Unet和I2U-Net在使用预训练参数前后的性能,实验结果表明,使用预训练参数能够显著提高Swin-Unet和I2U-Net的性能。此外,Swin-Unet在预训练参数的帮助下表现更加依赖,而I2U-Net则表现出更强的自适应能力。

5.6 局限性与未来工作

尽管与其他方法相比,提出的I2U-Net在分割性能上具有显著优势,但在计算成本和推理时间上仍有改进的空间。我们计划在未来的工作中设计更轻量且高效的主干网络,同时利用神经架构搜索技术(NAS)来寻找分割性能和计算成本之间更好的平衡。

6. 结论

本文提出了一种双路径U-Net(I2U-Net),用于医学图像分割。I2U-Net能够通过多功能信息交互模块(MFII)和全局信息融合增强模块(HIFA),有效地捕捉低层次的细节描述和高层次的语义抽象特征。大量实验结果表明,I2U-Net在皮肤损伤、息肉、脑肿瘤和腹部多器官分割任务中,均表现出优越的性能和出色的泛化能力。

写在最后

学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通,所以本文作者即B站Up主:Ai学术叫叫兽
在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑,本up主获得过国奖,发表多篇SCI,擅长目标检测领域,拥有多项竞赛经历,拥有软件著作权,核心期刊等经历。因为经历过所以更懂小白的痛苦!因为经历过所以更具有指向性的指导!

祝所有科研工作者都能够在自己的领域上更上一层楼!!!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在动态中有链接,感谢支持!祝科研遥遥领先!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值