TransUNet：Transformers Make Strong Encoders for Medical Image Segmentation用于医疗图像分割的transformers编码器详解

山城火锅有点甜

已于 2023-07-24 22:05:07 修改

阅读量1.5w

点赞数 25

分类专栏： semantic segmentation 文章标签：深度学习人工智能

于 2022-03-20 01:56:18 首次发布

本文链接：https://blog.csdn.net/weixin_43656644/article/details/123563646

版权

原文地址：https://arxiv.org/pdf/2102.04306.pdf

收录：暂无

代码: https://github.com/Beckschen/TransUNet

首篇将transformers用于医疗分割的文章

设计的Idea：UNet +transformers的结合体，使用的具体模块:ViT+ResNet50+skip connection

对关键的公式，和结构图进行了个人的一些注释，供大家参考。

摘要

1 Introduction

2 related work

2.1 CNN-based self-attention methods

2.2 Transformers

3 method

3.1 Transformer as Encoder

3.2 TransUNet

4 Experiments and Discussion

4.1 Dataset and Evaluation

4.2 Implementation Details

4.3 Comparison with State-of-the-arts

4.4 Analytical Study

4.5 Visualizations

4.6 Generalization to Other Dataset

摘要

在医学图像中， U-Net, 已经成为了 de-facto standard 并取得很大的成功。但是它有着缺陷：explicitly modeling long-range dependency 显式建模的长期依赖. Transformers 天生具有全局的self attention机制，但是因为不充足的low-level特征，导致有限的局部定位能力。

本文提出TransUNet，以结合Unet和transformers的优点。一方面，为了提取全局contexts，transformers encodes 来自CNN feature map的标记化图像patches（ tokenized image patches）。另一方面，decoder对encoded的特征进行上采样，然后与高分辨率的CNN feature maps结合，以增加局部精度。

TransUNet 取得了巨大的成功在多器官和心脏分割数据集上 multi-organ segmentation and cardiac segmentation。

1 Introduction

我们发现一个有趣的事，如果直接将transformer编码后的输出，直接上采样到原分辨率，这样不能达到满意的分割效果。这是因为transformer专注于在各个阶段对全局context进行建模，因此生成的是缺失细节的局部信息的low -resolution features。然后这种特征不能直接通过上采样，被有效地恢复到原分辨率，会导致粗糙的分割结果。另一方面, CNN提供了提取低级的可视化线索，可以补救这些细微的空间细节。

实验证明，Transformer-based architecture 能更好地利用 self-attention (SA) 相比之前的 CNN-based SA methods。此外，我们观察到，更多密集地和low-level特征结合，可以达到更高的分割正确率。

2 related work

2.1 CNN-based self-attention methods

许多的文章基于特征maps，通过对所有像素点的全局交互建模，以试图将SA机制整合到CNN中。 Wang et al. 设计了一个非局部的operator，可以插入多个中间卷积层。Schlemper et al. 基于编码器-解码器 U 形架构，提出 additive attention gate modules ，其被整合到 skip-connections中。与这些方法不同，我们直接采用Transformer来整合全局的SA到我们的方法中。

2.2 Transformers

在许多NLP任务中，首先通过[14]提出了Transformer，此后在许多NLP任务中建立了最先进的方法。为了使Transformer也适用于计算机视觉任务，许多modifications的工作已被发表。Parmar et al. [11] 仅在局部邻域的每个query像素上应用SA，而不是全局应用。最近，Vision Transformer (ViT) [4]达到state-of-the-art在ImageNet 分类任务上，通过直接应用 Transformers with global self-attention到 full-sized images. 所以我们所提出的TransUnet是第一个基于Transformer的医学图像分割框架，其在取得巨大成功的ViT上构建。

3 method

给定图像，其空间分辨率为H×W，通道数为C。我们的目标是预测相应像素级label map，尺寸为H×W。最常见的方法是直接训练CNN（例如UNet），首先将图像encode为 high-level feature representations，然后将其decode回 full spatial re

最低0.47元/天解锁文章