TransUNet:Transformers Make Strong Encoders for Medical Image Segmentation用于医疗图像分割的transformers编码器详解

原文地址:https://arxiv.org/pdf/2102.04306.pdf

收录:暂无

代码: https://github.com/Beckschen/TransUNet


首篇transformers用于医疗分割的文章

设计的Idea:UNet +transformers的结合体,使用的具体模块:ViT+ResNet50+skip connection

对关键的公式,和结构图进行了个人的一些注释,供大家参考。


目录

摘要

1 Introduction

2 related work

2.1 CNN-based self-attention methods

2.2 Transformers

3 method 

3.1 Transformer as Encoder

3.2 TransUNet

4 Experiments and Discussion

4.1 Dataset and Evaluation

4.2 Implementation Details

4.3 Comparison with State-of-the-arts

4.4 Analytical Study

4.5 Visualizations

4.6 Generalization to Other Dataset


摘要

在医学图像中, U-Net, 已经成为了 de-facto standard 并取得很大的成功。但是它有着缺陷:explicitly modeling long-range dependency 显式建模的长期依赖.  Transformers 天生具有全局的self attention机制,但是因为不充足的low-level特征,导致有限的局部定位能力。

本文提出TransUNet,以结合Unet和transformers的优点。一方面,为了提取全局contexts,transformers encodes 来自CNN feature map的标记化图像patches( tokenized image patches)。另一方面,decoder对encoded的特征进行上采样,然后与高分辨率的CNN  feature maps结合,以增加局部精度。

TransUNet 取得了巨大的成功在多器官和心脏分割数据集上 multi-organ segmentation and cardiac segmentation。


1 Introduction

我们发现一个有趣的事,如果直接将transformer编码后的输出,直接上采样到原分辨率,这样不能达到满意的分割效果。这是因为transformer专注于在各个阶段对全局context进行建模,因此生成的是缺失细节的局部信息的low -resolution features。然后这种特征不能直接通过上采样,被有效地恢复到 原分辨率,会导致粗糙的分割结果。 另一方面, CNN提供了提取低级的可视化线索,可以补救这些细微的空间细节。

实验证明,Transformer-based architecture 能更好地利用 self-attention (SA) 相比之前的 CNN-based SA methods。此外,我们观察到,更多密集地和low-level特征结合,可以达到更高的分割正确率。


2 related work

2.1 CNN-based self-attention methods

许多的文章基于特征maps,通过对所有像素点的全局交互建模,以试图将SA机制整合到CNN中。 Wang et al. 设计了一个非局部的operator,可以插入多个中间卷积层。Schlemper et al. 基于编码器-解码器 U 形架构,提出 additive attention gate modules ,其被整合到 skip-connections中。与这些方法不同,我们直接采用Transformer来整合全局的SA到我们的方法中。

2.2 Transformers

在许多NLP任务中,首先通过[14]提出了Transformer,此后在许多NLP任务中建立了最先进的方法。 为了使Transformer也适用于计算机视觉任务,许多modifications的工作已被发表。Parmar et al. [11] 仅在局部邻域的每个query像素上应用SA,而不是全局应用。最近,Vision Transformer (ViT) [4]达到state-of-the-art在ImageNet 分类任务上,通过直接应用 Transformers with global self-attention到 full-sized images. 所以我们所提出的TransUnet是第一个基于Transformer的医学图像分割框架,其在取得巨大成功的ViT上构建


3 method 

给定图像,其空间分辨率为H×W,通道数为C。 我们的目标是预测相应像素级label map,尺寸为H×W。最常见的方法是直接训练CNN(例如UNet),首先将图像encode为 high-level feature representations,然后将其decode回 full spatial re

评论 24
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值