【论文】CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation

糖

已于 2022-02-25 17:03:52 修改

阅读量1.4k

点赞数 1

文章标签： transformer cnn 3d

于 2021-12-24 11:18:05 首次发布

本文链接：https://blog.csdn.net/weixin_48252774/article/details/122123936

版权

CoTr原理

1. 简介

CNNs：3D医学图像分割中的标准，局限性：卷积网络局部性和权重共享的归纳偏差，带来长距离依赖的局限性。

Transformer：sequence-to-sequence的预测框架，其中的自注意力机制可以动态调整接受域，使transformer具备长距离依赖建模的能力。局限性：处理高分辨率 3D 特征图时遇到了极端的计算和空间复杂度。

本文工作：有效连接CNN和Transformer（CoTr），并且CoTr具备编码器-解码器结构。在编码器中：

（1）利用CNN用来提取特征；

（2）提出可变形Transformer（DeTrans），对提取的特征进行长距离依赖建模。与同等对待所有位置的Transformer不同，DeTrans通过引入可变形的自注意力机制只注意一小部分重要的位置，从而降低计算和空间复杂度。

本文的贡献：

（1）第一个探索利用Transformer进行3D医学图像分割，尤其是在高效计算和空间使用上；

（2）引入可变形的自注意力机制来减少复杂度，从而使得CoTr模型能够利用多维特征进行长距离依赖建模；

（3）CoTr在3D多器官分割任务上的表现优于基于CNN、基于Transformer和混合模型的表现。

2. 方法

CoTr的目的是通过桥接CNN和变压器来学习更有效的医学图像分割表示。如图所示，它由一个用于特征提取的CNN编码器（CNN-encoder），一个用于长距离依赖建模的可变形变压器编码器（DeTrans-encoder），以及一个用于分割的解码器组成。

在这里插入图片描述

2.1 CNN-encoder

CNN编码器 $F^{CNN}(·)$ 包含一个Conv-IN-ReLU块和三个stages的3D残差模块。

（1）Conv-IN-ReLU块包含一个3D卷积层，然后是实例归一化（IN）和激活函数ReLU。

（2）三个stages的3D残差块数量分别为3，3，2。

给定输入图像长H，宽W，深 $D$ （切片数量），则由 $F^{CNN}(·)$ 产生的特征可以表示为：

在这里插入图片描述

$L$ 表示特征层的数量， $\theta$ 代表CNN编码层的参数， $C$ 代表通道数。

2.2 DeTrans-encoder

DeTrans-encoder引入多尺度可变形自注意(MS-DMSA)机制，用于高效的远距离建模。

DeTrans-encoder是由input-to-sequence层和*L_D*堆叠DeTrans层。

（1）Input-to-sequence Transformation由于Transformer是以sequence-to-sequ的方式处理信息，因此首先将CNN-encoder产生的特征 $\{f_l\}^L_{l=1}$ 展开成1D的sequence。然而，将特征扁平化会使得部分重要信息缺失，因此，在展开的中 $\{f_l\}^L_{l=1}$ 补充3D的位置编码序列 $\{p_l\}^L_{l=1}$ 。使用不同频率的正弦sin和余弦cos来计算每个维度的位置坐标pos：

在这里插入图片描述

${D, H, W}$ 表示3个维度中每个维度， $v=1/10000^{2k/\frac{C}{3}}$ 。对每一个特征层 $l$ ，拼接 $PE_D$ ， $PE_H$ ， $PE_W$ 作为3D位置编码 $p_l$ ,并将其与前面展开得到的 $f_l$ 进行元素求和，得到DeTrans-encoder的输入序列。

（2）MS-DMSA Layer只关注参考位置周围的一小部分关键采样位置，而不是所有位置。

$z_q∈R^C$ 是查询矩阵 $q$ 的特征表示，$\hat{A}q∈[0,1]^{3\$是参考点归一化后的3D坐标。给定的多尺度特征图${f_l}}L{l=1}$ 是从CNN-encoder编码器的后 $L$ stages提取的，第 $i$ 个注意力头计算公式：

在这里插入图片描述

$K$ 是采样关键点的数量， $\Lambda(z_q)_{ilqk}∈[0,1]$ 是注意力权重， $\Delta_{Pilqk}∈R^3$ 是第 $l$ 个特征级别的第 $k$ 个采样点的采样偏移量， $\sigma_l(·)$ 重新缩放 $\hat{p}_q$ 到第 $l$ 个特征。 $\Lambda(z_q)_{ilqk}$ 和 $\Delta_{Pilqk}$ 通过查询特征 $z_q$ 上的线性投影获得，因此，MS-DMSA层可以公式化为：

在这里插入图片描述

这里 $H$ 是注意力头的数量， $\Phi(·)$ 是线性投影层，用于加权和聚合所有头的特征表示。

（3）DeTrans Layer是由MS-DMSA层和前馈网络构成，每一层后面是归一化层。跳跃连接策略被用在每一个子层来避免梯度消失。DeTrans-encoder是由重复堆叠DeTrans层来构成的。

2.3 Decoder

将DeTrans-encoder的输出序列根据每一个尺度的大小被重塑为特征图。

（1）解码器是一个CNN结构，使用转置卷积将特征图上采样至输入的分辨率（如 $D \times H \times W$ ），然后使用3D残差块来细化上采样特征图

（2）增加了编码器和解码器之间的跳跃连接以保持更多低层细节

（3）添加辅助loss，Dice loss和cross-entropy loss。

2.4 实施细节

首先使用[-958，327]的范围截断每个扫描的HU值以过滤不相关的区域，然后通过减去82.92（均值）和除以136.97（标准差）来归一化。

将BCV数据集分为两个部分：21个扫描用于训练，9个扫描用于测试，随机选择6个训练扫描作为验证集，该验证集仅仅用于选择CoTr的超参数。测试集中的最终结果是由所有训练扫描训练得到的模型获得。

在训练阶段，我们从CT扫描中随机裁剪大小为48×192×192的子体积作为输入。为了缓解有限训练数据的过拟合，我们采用了在线数据论证，包括随机旋转、缩放、翻转、添加高斯白噪声、高斯模糊、调整右度和对比度、低分辨率模拟和伽马变换，以使训练集多样化。

由于实例归一化的优点，我们采用了小批量规模为2的微批量训练策略。为了权衡训练时间成本和绩效奖励之间的平衡，CoTr训练1000轮，每轮包含250次迭代。我们采用了momentum=0.99，learning rate=0.01的随机梯度下降算法作为优化器。

MS-DMSA和前馈神经网络中的hidden size分别为384和1536，根据经验设置超参数 $L_D = 6$ 、 $H = 6$ 和 $K = 4$ 。

此外，我们用小的CNN编码器形成了CoTr的两个变体，分别表示为 $CoTr^∗$ 和 $CoTr^†$ ，在 $CoTr^∗$ 中，每一个CNN编码器的stage中3D残差块数量为1，在 $CoTr^†$ 中，每一个CNN编码器的stage中3D残差块数量为2。

在测试模块中，我们使用滑动窗口机制，其中窗口大小等于训练块大小。此外，为了提高分割的稳健性，采用了Gaussian重要性加权和沿所有轴翻转的测试实时增强。为了定量评估分割结果，计算了Dice相关性分数来度量预测与真值之间的重叠。

糖

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【论文】CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation

CoTr原理1. 简介CNNs：3D医学图像分割中的标准，局限性：卷积网络局部性和权重共享的归纳偏差，带来长距离依赖的局限性。Transformer：sequence-to-sequence的预测框架，其中的自注意力机制可以动态调整接受域，使transformer具备长距离依赖建模的能力。局限性：处理高分辨率 3D 特征图时遇到了极端的计算和空间复杂度。本文工作：有效连接CNN和Transformer（CoTr），并且CoTr具备编码器-解码器结构。在编码器中：（1）利用CNN用来提取特征
复制链接

扫一扫