Abstract-摘要
对于复杂和低对比度的解剖结构,医学图像分割仍然特别具有挑战性。本文提出的一种U-Transformer网络,它将Transformer中的self-attention和Cross attention融合进了UNet,这样克服了UNet无法建模长程关系和空间依赖的缺点,从而提升对关键上下文的分割。本文集合了两种注意力机制:自注意力机制建立编码器之间的全局交互,交叉注意力被添加到跳跃连接当中。通过过滤非语义特征在UNet Decoder中恢复空间信息。
Introduction
尽管FCN,Unet系列都取得了不错的性能,但是仍然具有局限性,这种网络结构处理有局部二义性或者低对比度器官时表现不佳。
本文提出的U-Transformer,借助Transformer的特性来帮助建模长程依赖关系和空间依赖关系,U-Transformer保留了原始的U型架构提取归纳偏置,此外引入了两种注意力机制来改善网络的决策能力。
首先。self-attention在编码器的结尾用来显式的建模语义之间的全局交互关系,其次在跳跃连接中加入了Cross attention从而过滤到非语义特征,从而更好的协助U-Net恢复空间信息。
The U-Transformer结构
U型网络的编码器结构可以有效的提取全局上下文信息进行复杂的医学图像分割任务,本文的U-Transformer将多头Transformer中的模块引入UNet,通过两种注意力机制(多头自注意力和多头交叉注意力)来提取长程关系和空间依赖性。其网络结构如下图:
</