【论文阅读笔记】CKD-TransBTS: Clinical Knowledge-Driven HybridTransformer with Modality-Correlated Cross-Attention for Brain Tumor Segmentation
【论文阅读笔记】CKD-TransBTS: Clinical Knowledge-Driven HybridTransformer with Modality-Correlated Cross-Attention for Brain Tumor Segmentation
原文链接: https://arxiv.org/abs/2207.07370.
写在前面:文章重点在于将4个模态分为两个部分作为输入,以及新网络结构利用cross-attention进行模态融合
CKD-TransBTS:临床知识驱动的脑肿瘤分割
Abstract
- 利用放射科医生如何从多种MRI模式诊断脑肿瘤的临床知识,并提出了一种临床知识驱动的脑肿瘤分割模型,称为CKD-TransBTS。
- 设计了一种带有模态相关交叉注意块的双分支混合编码器(MCCA)的混合编码器来提取多模态图像特征。该模型继承了变压器和CNN的优势,具有精确的病变边界和三维体积图像的局部特征特征提取能力。为了弥合变压器和CNN特征之间的差距,在解码器中提出了一个Trans&CNN特征校准块(TCFC)。
I. INTRODUCTION
- 神经胶质瘤是中枢神经系统中最常见的恶性肿瘤。磁共振成像(MRI)是诊断神经胶质瘤的常规检查。常规MRI,包括对比前T1和对比后T1加权图像(T1和T1Gd)、T2加权(T2)和T2液体衰减反转恢复(T2FLAIR)图像,为神经胶质瘤的临床诊断、治疗计划和随访提供了有价值的信息。
- 大脑的MRI序列与其他序列有很大的不同。在脑MRI图像中,成对图像模式之间存在着很强的结构相关性,这是脑肿瘤评估的线索。T1Gd基于静脉钆造影剂T1获得,增强区域提示血脑屏障破坏(或缺失),与存活肿瘤和肿瘤浸润脑相一致。t2和T2-Flair通常是共同解释的。这些临床知识在脑肿瘤的分割中非常有用。
- 研究的主要贡献有三方面:
- 提出了一种临床知识驱动的BTS模型,通过考虑不同图像模式之间的结构相关性,并以更合理的方式重新分组输入图像;
- 我们提出了CKD-TransBTS中的两个新技术技术。首先,设计了一种具有新型模态相关交叉注意块(MCCA)的双分支混合编码器,用于多模态融合和特征提取。其次,提出了一种新的Trans&CNN特征校准块(TCFC)来弥补变压器与CNN之间的特征偏差;
- 我们在BraTS21数据集上进行了一系列的实验。与5个基于cnn的模型和6个基于变压器的模型相比,我们提出的模型实现了SOTA的性能;
II. RELATED WORKS
A. CNN-based BTS Models
BTS涉及来自四种MRI模式的3D体积图像,研究人员现在试图在以下两个方面创新BTS模型。1)如何利用三维序列信息和局部信息。2)如何融合多模态图像。
B. Transformer-based BTS Models
多数文章研究Transformer如何在脑肿瘤分割任务中将变压器与CNN关联。
本文从不同的角度设计了一种BTS的混合变压器模型。1)我们制定了多模态融合的临床知识。2)在变压器模态设计中引入了电感偏置和局部性,以实现变压器与CNN更和谐的混合。3)我们对从变压器和CNN中提取的特征进行了校准,以弥合它们之间的差距。
C. Multi-modal Fusion Models
多模态数据比单一模态提供更丰富的信息,BTS中的MRI模式在像素水平上对齐良好。现有的多模态融合方法很难直接应用于BTS。因此,尽管已经提出了大量的多模态融合研究,但在BTS中的多模态融合研究仍然不足。
在早期的BTS模型中,大多数都不考虑多模态融合问题。它们只是在将所有的模式输入到模型中之前,先简单地将它们连接起来。
在本研究中,我们引入了不同MRI序列的成像原理的临床知识,以合理的方式引导多模态融合。通过使用双分支混合编码器对输入图像进行重新分组,该模型可以学习到更好的跨模态特征表示。
III. METHODOLOGY
A. Formulation and Model Architecture
- 放射科医生如何诊断脑瘤?:MRI是脑肿瘤诊断的常规临床检查。它通常包含四种成像序列(模式),包括t1加权、T1Gd、t2加权和T2FLAIR。一般来说,放射科医生在评估脑肿瘤时,通过成像方式整合诊断信息。t1加权是预对比序列,是预定位脑肿瘤的基本成像方式。T1Gd是灌注钆增强血管结构和血脑屏障是否被破坏的对比后序列。因此,t1加权和t1Gd通常配对来确定肿瘤核心。采用t2加权成像法检测游离水。在脑肿瘤中,t2加权和t2FLAIR图像经常被共同解释。对于胶质母细胞瘤中t2加权高信号、非增强区域,含有游离水的区域(如肿瘤坏死)的区域常表现为T2FLAIR低信号,而含有结合水的区域(如血管源性水肿)则表现为T2FLAIR高信号。
- 临床知识驱动公式:受放射科医生在MRI图像中评估脑肿瘤的启发,我们希望该模型了解两个相关序列之间的空间和结构相关性。根据临床知识,将两种相关的成像方式{XT1,XT1Gd}和{XT2,XT2FLAIR}进行分组,从而重新组织输入图像的顺序。通过将两种相关的图像模态分组在一起,我们的模型可以学习两种图像模态之间的内在相关性,从而得到更好的跨模态特征表示。
- 模型架构:图1(a)展示了所提出的CKD-TransBTS的模型架构。与大多数分割模型相同,CKD-TransBTS保持了具有跳过连接的U-net结构。由于MRI图像是三维体积数据,我们使用swin-transformer作为所提出的模型的基本架构来捕获远程信息。为了引入感应偏置并鼓励更好的局部特征表示,我们通过在变压器模型中引入卷积层,将变压器与CNN联系起来。
由于有两组输入图像,我们设计了一个具有卷积干和几个MCCA块的双分支混合编码器。两种相关图像模态之间的信息通过跨模态注意。所有的多模态特征最终被融合到一个瓶颈层中。设计了一个具有多个TCFC块和卷积层的特征校准解码器,以获得最终的分割结果。
B. Dual-Branch Hybrid Encoder
wp:window partition
swp: shifted window partition
Bottleneck layer
C. Feature Calibration Decoder
Cross-modal module:
B为偏置值
Trans&CNN Feature Calibration block (TCFC).:
D. Implementation Details
我们在PyTorch和MONAI上实现了所有的实验,并在一个使用NVIDIA 3090GPU的工作站上训练模型。我们将学习速率设置为1e−4,并使用余弦退火算法[44]进行调整。模型训练的周期数为500个,以Dice损耗作为目标函数。对于每种模态,初始子体积分辨率为4×4×4,初始嵌入大小为32。在训练阶段,我们首先得到体积的最小边界框,然后将其随机划分为128×128×128。为了使数据分布更加复杂,缓解过拟合问题,我们采用了几种数据放大方法,包括随机缩放、三个方向的随机翻转、高斯噪声、高斯模糊和随机对比度。在测试阶段,我们使用滑动的重叠率为0.6的窗口方法。
IV. EXPERIMENT
A. Dataset and Evaluation Metrics
data:BraTS Challenge 2021
Evaluation metrics:Dice score and 95% Hausdorff distance (HD95)
B. Comparisons with SOTA Models
C. Ablation Studies
D. Comparison with Different Fusion Strategies
V. CONCLUSION
在本文中,我们提出了一种新的临床知识丰富的脑肿瘤分割模型,具有四种输入MRI模式,称为CKD-TransBTS。我们深入分析了放射科医生如何从多种模式中评估和诊断脑肿瘤的方式,并将临床知识引入到我们的多模式融合策略中。通过根据输入模式的成像原理简单地重新分组,我们的模型可以得到明显的改进,如定量和定性实验所示。这种多模态融合策略有效地改进了分割结果,使分割结果的边界更精确,并抑制了假阳性。将临床知识纳入模型设计可能是一种非常有效的方法,有利于模型表示,并让模型学习除标签之外的数据的固有特征。
从技术的角度来看,我们利用了变压器和CNN的优势,提出了一个混合变压器模型。在编码器阶段,我们提出了一种新的模态相关交叉注意(MCCA)块来融合和提取多模态特征。在解码阶段,提出了一种Trans&CNN特征校准(TCFC)块来弥补变压器与CNN特征之间的差距和偏差。通过实验对所有新技术的有效性进行了评价。