TransBTS：使用Transform进行多模态脑肿瘤的分割

最新推荐文章于 2024-05-08 09:36:43 发布

不想敲代码的小杨

最新推荐文章于 2024-05-08 09:36:43 发布

阅读量1.9k

点赞数 1

分类专栏：脑肿瘤分割论文笔记医学图像分割的Transformer 文章标签：人工智能计算机视觉自然语言处理

本文链接：https://blog.csdn.net/weixin_43921949/article/details/126760567

版权

脑肿瘤分割论文笔记同时被 2 个专栏收录

26 篇文章 50 订阅

订阅专栏

医学图像分割的Transformer

10 篇文章 16 订阅

订阅专栏

Title:TransBTS: Multimodal Brain Tumor Segmentation Using Transformer

摘要-Abstract

本文考虑的是将Transformer和CNN二者结合起来处理脑肿瘤分割任务，使网络同时兼具了Transformer和CNN的优点。

局部和全局特征对于密集预测任务非常关键，尤其对于3D医学图像分割任务来说，为了捕获局部3D上下文，编码器首先利用3D CNN来提取空间特征图，同时对输入到Transformer的特征进行全局特征建模的Token改造，解码器利用Transformer嵌入的特征来执行上采样来预测详细的分割图。

Introduction

在卷积神经网络CNN中，由于卷积核的感受野有限的，很难建立起显式的长距离关系。

本文提出的网络结构为编码器-解码器结构，编码器首先利用3D CNN提取体积空间特征并对输入的3D图像进行下采样，从而生成紧凑体积特征图，有效的捕获本地3D上下文信息，然后将每个体素重新reshape为一个Token并输入Transformer进行全局特征建模。3D CNN解码器从Transformer中获取特征嵌入并执行上采样以预测全分辨率分割图。

Method-方法

整体架构图如下所示：

网络结构的整体概述

具体而言，首先给定输入数据X，我们首先利用3D CNN生成紧凑的特征图，捕获空间和深度信息。紧接着Transformer对全局空间中的长距离依赖性进行建模，之后反复叠加上采样的卷积层，逐渐产生高分辨率的分割结果。

网络的编码器部分

本文为了解决VIT中的Transformer无法跨空间和深度维度对图像的上下文进行建模以进行体积分割这一难题.

本文通过堆叠3*3*3卷积块（Stride=2）来逐渐将输入图像编码为低分辨率高级特征表示F ∈ RK× H/8 × W/8 × D/8 (K = 128)通过这种方式丰富的局部3D上下文特征被有效的嵌入到F中。然后将F输入到Transformer编码器当中以进一步学习全局感受野的长相关性

Transformer编码器的特征嵌入

给定特征图F，为了确保每个体素的全面表示，使用线性投影（一个3*3*3的卷积层）将通道维度从128增加到512.Transformer层一般来说将序列作为输入，因此我们将空间维度和深度维度折叠成一维得到一个d*N（N=H/8 × W/8 × D/8）的特征图f，也可以看做是N个d维标记，并且为了编码在分割任务中至关重要的位置信息引入了位置编码。将位置编码和特征图相加融合从而创建了Transformer的输入变量--特征嵌入公式为：

Zo=f+PE=W*F+PE

式子中的W起到升维的作用，PE是位置编码，Zo代表的是特征嵌入

Transformer层

Transformer由一个多头注意力块和一个前馈网络组成。Transformer可以通过以下式子进行计算

式子中的LN表示 Layer Norm，FFN表示一个前馈神经网络。

网络解码器

为了在原始3D图像空间中生成分割结果，本文引入了3D CNN的解码器来执行特征上采样，为了适应3D CNN解码器的输入维度，将只有Transformer才能处理的序列数据投影回标准的4D特征映射。具体来说，首先将Transformer的输出序列zL ∈ Rd×N重新reshape为d*H/8 × W/8 × D/8,并且为了降低解码器的计算复杂度，采用卷积块将通道维数从d降低到K。通过这些操作，特征映射Z在特征编码部分获得了与F相同维数。