miccai2021CoTr:有效地连接CNN和Transformer用于三维医学图像分割
https://github.com/YtongXie/CoTr
网络中使用的卷积运算由于其局部性和权值共享的归纳偏差,在建模远程依赖时不可避免地存在局限性。虽然Transformer的诞生是为了解决这个问题
在本文中,我们提出了一个新的框架,有效地连接卷积神经网络和变压器(CoTr),以实现精确的三维医学图像分割。在该框架下,构造CNN来提取特征表示,并构建一个有效的可变形变压器(DeTrans)来建模对提取的特征映射的远程依赖。
与普通的Transformer对所有图像位置一视同仁不同,我们的DeTrans通过引入可变形的自我注意机制,只注意一小部分关键位置。
因此,DeTrans的计算和空间复杂性已经大大降低,使其能够处理多尺度和高分辨率的特征图,这通常是图像分割的最重要的。
我们对覆盖11个主要人体器官的颅穹外多图谱标记(BCV)数据集进行了广泛的评估。结果表明,在三维多器官分割任务中,我们的CoTr方法比其他基于cnn、基于变压器和混合方法的性能有了显著提高。
为了扩大CNN的接受域,从而提高其上下文建模能力,人们做出了许多努力。
Yu等[22]提出了扩展速率可调的atrous卷积,在语义分割[5]上表现出了优越的性能。
Zhao等[26]采用多特征尺度的金字塔池法聚合多尺度的全球信息。
Wang等[20]提出了非局部操作,该操作通常嵌入在编码器的末端,以捕获远程依赖性。
虽然在一定程度上改进了上下文建模,但这些模型仍然不可避免地受到CNN体系结构的限制,接受范围有限。
Transformer中的自注意机制可以根据输入内容动态调整接收域,因此在建模长期依赖关系方面优于卷积运算。
但由于自注意[19]的存在,该模型的优化具有一定的挑战性。
首先,它需要非常长的训练时间来集中注意力,最初是均匀地投射到每个像素上,在突出的位置上,特别是在3D场景中。其次,普通的Transformer[19]由于计算复杂度高,很难处理多比例尺和高分辨率的特征图,而多比例尺和高分辨率的特征图在图像分割中起着至关重要的作用
在本文中,我们提出了一个混合框架,有效地连接卷积神经网络和变压器(CoTr)用于三维医学图像分割。
CoTr具有编码器-解码器结构。
在编码器中,采用了简洁的CNN结构来提取特征映射,使用Transformer来捕获远程依赖关系(见图1)。
受[7,29]的启发,我们向Transformer引入了可变形的自注意机制。这种注意机制只关注一小部分关键采样点,因此极大地降低了Transformer的计算复杂度和空间复杂度。
因此,Transformer可以处理CNN生成的多尺度特征图,并保留丰富的高分辨率信息进行分割。本文的主要贡献有三个方面:
(1)首次将Transformer应用于三维医学图像分割,特别是在计算效率和空间效率方面;
(2)引入可变形的自注意机制,降低了vanilla Transformer的复杂性,从而使我们的CoTr能够使用多尺度特征对远程依赖进行建模;
(3)在三维多器官分割任务上,我们的CoTr方法优于竞争对手的基于cnn、基于变压器和混合方法。
由于卷积运算的固有局部性,cnn -编码器不能有效地捕获像素间的长程依赖性。为此,我们提出了引入多尺度可变形自注意(MS-DMSA)机制的DeTrans-encoder,以实现高效的远程上下文建模。
在Transformer的体系结构中,自我注意层将查看特性图中所有可能的位置。该算法收敛速度慢,计算复杂度高,难以处理多尺度特征。为了解决这个问题,我们设计了MS-DMSA层,它只关注参考位置周围的一小部分关键采样位置,而不是所有位置。
设zq∈RC是查询q的特征表示形式,为参考点的归一化三维坐标。对于cnn -编码器最后L个阶段提取的多尺度特征映射{fl}Ll=1,第i个注意头的特征表示可计算为