结合外部潜在注意的医学图像分割
摘要
注意机制是提高医学图像分割性能的新切入点。如何合理分配权重是注意力机制的关键,目前流行的方法包括全局压缩和使用自注意操作的非局部信息交互。然而,这些方法过于关注外部特征,缺乏对潜在特征的开发。全局压缩方法通过全局均值或最大值粗略地表示上下文信息的丰富度,而非局部信息交互则侧重于不同区域之间外部特征的相似性。两者都忽略了这样一个事实,即上下文信息更多地以潜在特征(如数据中的频率变化)的形式呈现。为了解决上述问题,并在医学图像分割中合理利用注意机制,我们提出了一种外部-潜在注意协同引导图像分割网络TransGuider。该网络由三个关键部分组成:1)潜在注意模块,该模块使用改进的熵量化方法来准确地探索和定位潜在上下文信息的分布。2)采用稀疏表示的外部自关注模块,通过选择具有代表性的特征描述图进行SA操作,在保留外部全局上下文信息的同时减少计算开销。3)多注意力协同模块,引导网络持续关注感兴趣区域,细化分割掩码。我们在几个基准医学图像分割数据集上的实验结果表明,TransGuider优于最先进的方法,广泛的消融实验证明了所提出组件的有效性。我们的代码可以在https://github.com/chasingone/TransGuider上找到。
1 介绍
我们的贡献可以总结如下:
•我们提出了一种新的通道注意机制,该机制使用改进的信息熵计算方法捕获潜在特征来衡量数据中包含的上下文信息的丰富程度,可以准确地激活有效的上下文信息并抑制无效的上下文信息。
•我们建议对原始数据进行稀疏化操作,获得外部特征描述图,取代原始数据进行自关注操作,减少计算开销。
•我们提出了一种新的图像分割网络结构,称为TransGuider,其中构建的注意力协同引导块(Attention Collaborative Guidance Block, ACG)起着重要作用。TransGuider在多个医学图像基准数据集上实现了最先进的性能。
3 方法
在本节中,我们首先介绍了transguide医学图像分割网络的整体框架。然后,在不同的小节中详细描述了TransGuider的关键组件(LECA, ESRA和ACG)。
图2所示。概述提出的transguide医学图像分割网络。它由9个编码和解码阶段组成,每个阶段都使用混合变压器块。在相邻阶段之间使用池化和恢复块来缩小和扩展特征映射。在相应的编码和解码阶段之间添加LECA以增强语义表示。
图1所示。不同类型的医学图像及其相应的分割掩码。
3.1. 体系结构概述
图2显示了所提出的TransGuider网络的总体框架,它是编码器-解码器网络结构的一种变体。它主要包括5个编码阶段和4个解码阶段。“池化模块”分布在不同的编码阶段,用于将输入特征映射的大小降低1/2,同时将通道维度扩展到前一个的2倍;“恢复模块”分布在不同的解码阶段之间。
与“Pooling Module”的功能相反,它将输入特征映射的大小上采样2倍,同时将通道维数降低到之前的一半。
给定输入图像到TransGuider网络的大小为H × W × 3。最初,输入图像的大小通过由两个3 × 3卷积层组成的“通道扩展”层映射到H × W × C。
然后,在每个解码和编码阶段,我们使用Hybrid Transformer Block捕获不同特征映射的局部上下文和全局上下文信息,这对于图像分割等密集预测任务至关重要。如图3(a)所示,Hybrid Transformer Block使用两个串行连接的卷积模块,每个模块由一个3 × 3卷积层、一个Batch Normalization层和一个ReLu激活层组成。ACG用于聚合局部和全局上下文信息,以增强每个阶段的语义表示。此外,我们在相同分辨率的编码和解码阶段之间使用增强的跳过连接,通过嵌入所提出的LECA进一步弥合低级和高级特征之间的语义差距,以提高分割性能。所使用的核心组件,包括LECA、ESRA和ACG,将在下面的小节中详细介绍。
图3所示。本文提出了注意力机制的总体结构和混合变压器块。(a)混合变压器块。(b)潜在熵-量化通道注意机制(LECA)。(c)基于外部稀疏表示的多头自注意(ESRA)。
3.2. 注意协同引导块ACG
注意协同引导块(Attention Collaborative Guidance Block, ACG)的作用是整合局部语境信息和全局语境信息,协同引导网络关注感兴趣的区域。如图3(a)所示,ACG由三个平行分支主导,包括ESRA、Squeeze-and-Excitation (SE)和基于阈值滤波的硬注意机制。这三个分支分别用于捕获全局上下文信息、通道注意机制增强的局部上下文信息和显著上下文信息生成的掩膜。然后,在通道维度上连接三个不同的上下文,并使用1 × 1卷积操作将通道缩放到连接维度的1/3,以促进语义融合。最后,添加GELU作为激活函数。
硬注意机制遵循严格的过滤原则,低于指定阈值的响应值被视为无效特征,高于阈值的响应值被归类为显著特征。
硬注意机制作为ACG模块的一个分支,用于强调显著语义的重要性,能够与ESRA和SE生成的局部和全局语义信息协同,更准确地建模感兴趣区域的特征表示。给定输入特征映射SInput∈RW×H×C,其原理如式(1)所示:
式中,为阈值滤波运算;Mask(SInput)代表-输出获得的掩码。
3.3. 潜在熵-量化通道注意机制LECA
准确描述特征图中上下文信息的分布是注意机制准确找到感兴趣区域的关键(Woo & Park, 2018)。然而,现有的注意机制在探索上下文信息分布的过程中忽略了像素值频率变化等潜在特征。因此,我们提出了潜在熵-量化通道注意机制(LECA),该机制使用改进的信息熵计算方法来量化潜在特征,以衡量不同通道中包含的上下文信息的丰富度。值得注意的是,传统的信息熵计算方法需要计算像素在不同位置的空间分布概率,用来反映整个数据的空间分布特征。实际上,这种方法本质上提供了有关整个数据分布的统计信息。在本文中,我们使用全局归一化来代替这一步。毕竟,方式它进行全局比较和挤压也是对全局信息进行比较和量化的过程。
如图3(b)所示,给定一个输入特征映射FInput∈RW×H×C, LECA首先对FInput的每个通道分别进行全局归一化,得到不同通道的信息分布统计量n Fi∈RW×H×1, i = 1,2,…,C:
其中FiInput为FInput的第i个通道的特征映射。因此,二维信息熵的计算表达式如下:
其中表示得到的二维信息熵值。然后,{, i = 1,2,…,C}被连接到通道维度上在批处理归一化后,我们再次使用Sigmoid函数为不同的通道分配权重。最后,将权重向量与FInput相乘,得到注意力增强的特征图Fout:
其中Concat表示通道上的连接。维度;BN表示批处理归一化。
3.4. 基于外部稀疏表示的多头自注意机制ESRA
自注意操作的目的是通过查询和键之间的信息交互,获得不同位置的不同注意权系数。在本文中,我们的目标是构建查询和键的外部稀疏表示,以便在执行自关注操作时减少计算开销。为了实现这一目标,我们提出了一种基于外部稀疏表示的多头自注意机制(ESRA)。
如图3(c)所示,ESRA通过三种方式对输入数据WInput∈RW×H×C进行压缩,得到三个外部单通道特征描述映射,可以作为稀疏表示。然后将这三个外部单通道特征描述映射扩展为执行自注意操作所需的不同“头”:
其中{Q1, Q2, Q3, K1, K2, K3}∈RW×H×1表示展开不同特征描述图后得到的不同“Heads”;L GAP表示全球平均池化操作;L GMP代表全球最大池化操作;L IECA表示使用LECA增强数据;Fconv表示1 × 1的卷积运算。接下来,我们进行多头自注意操作:
其中MATTweight表示获得性自我注意权重。由于ESRA使用带有相对位置信息的整个单通道特征描述图,因此不需要像大多数当前Transformer方法那样为每个补丁添加位置嵌入代码来记录位置信息。最后,我们将MATTweight与WInput相乘,得到注意力增强的数据Wout。
4 实验结果及分析
表1实验使用的医学图像数据集的详细信息。图像表示数据集中图像的数量;training、Validation和Test分别表示训练集、验证集和测试集中的图像个数;Application表示医学图像的应用领域。
表2与之前在CVC-ClinicDB、DRIVE、COVID-19- CT100、2018年数据科学碗和ISIC 2018数据集上的工作的比较。“#Param”表示参数。
表3不同成分的消融研究,以评估LECA和ESRA的有效性。“✓”代表已检查。“”表示未检查。
表4输入数据量为256×256×3时,不同关注模块的Flops和参数比较。
表5存在和不存在ACG时分割模型的分割性能比较。
6 结论
在这项工作中,我们提出了一种新的基于外部潜在协同引导的医学图像分割网络TransGuider。TransGuider设计了两个关键组件来聚合上下文信息,即LECA和ESRA。LECA首先提出使用熵量化方法来评估潜在特征的丰富度,以捕获有效上下文信息的准确分布;ESRA使用外部稀疏表示代替原始数据进行自表示注意操作,可以有效减少计算开销。TransGuider在几个医学图像分割基准数据集上优于一些最先进的图像分割方法。烧蚀结果进一步验证了模型设计的有效性。