原文地址:https://arxiv.org/pdf/2105.05537.pdf
作者:慕尼黑大学+复旦大学+华为。作者在华为实习所写
首篇将transformers用于医疗分割的文章
设计的Idea:UNet + Swin Transformer(CVPR2021 best paper) ,使用的具体模块:SwinT+skip connection
Eecoder: pure transformer, not using CNN
Decoder: symmetrical to encoder
目录
2.3 Self-attention/Transformer to complement CNNs
4.3 Experiment results on Synapse dataset
4.4 Experiment results on ACDC dataset
Effect of the number of skip connections:
摘要
我们提出了Swin-Unet,这是一种类似Unet的pure transformer,用于医学图像分割。tokenized image patches被送到基于 Transformer 的 带有skip-connections的U-型 Encoder-Decoder 架构中,用于局部与全局语义特征学习。具体来说,我们使用带有移位窗口shifted windows的分层 Swin Transformer 作为编码器来提取上下文特征。基于对称 Swin Transformer 的解码器具有patch expanding层,旨在执行上采样操作,以恢复特征图的空间分辨率。通过直接将输入输出进行4×的上采样和下采样,进行了多器官和心脏分割任务的实验。
1 Introduction
ViT、DeiT和Swin Transformer在图像 识别任务中的成功证明了Transformer在视觉领域的应用潜力。vision transformer(ViT)执行图像识别任务。ViT 以位置编码的 2D 图像patch作为输入,并在大型数据集上进行预训练,实现了与基于 CNN 的方法相当的性能。此外,data-efficient image transformer (DeiT) 表明Transformer可以在中型数据集上进行训练,并且可以通过将其与e distillation 相结合来获得更强大的Transformer。在[19]中,开发了一个分层的Swin Transformer, 在图像分类、对象检测和语义分割方面取得了最先进的表现(CVPR2021最佳论文,所以说本文站在了巨人的肩膀上)。
在Swin Transformer[19]成功的推动下,我们提出Swin-Unet,利用Transformer的强大功能进行2D医学图像分割。
2 related work
2.1 CNN-based methods
2.2 Vision Transformers
2.3 Self-attention/Transformer to complement CNNs
近年来,研究人员试图将自我注意机制引入CNN,以提高网络的性能[13]。···但是,这仍然是基于CNN的方法。目前,CNN和Transformer的结合正在做出一些努力,以打破CNN在医学图像分割中的主导地