CoTr: Efficiently Bridging CNN andTransformer for 3D Medical Image Segmentation

卜萝a

已于 2022-12-13 08:51:36 修改

阅读量773

点赞数

分类专栏：深度学习文章标签： cnn 深度学习人工智能

于 2022-11-17 16:51:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53841792/article/details/127865809

版权

深度学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

miccai2021CoTr:有效地连接CNN和Transformer用于三维医学图像分割

https://github.com/YtongXie/CoTr

网络中使用的卷积运算由于其局部性和权值共享的归纳偏差，在建模远程依赖时不可避免地存在局限性。虽然Transformer的诞生是为了解决这个问题

在本文中，我们提出了一个新的框架，有效地连接卷积神经网络和变压器(CoTr)，以实现精确的三维医学图像分割。在该框架下，构造CNN来提取特征表示，并构建一个有效的可变形变压器(DeTrans)来建模对提取的特征映射的远程依赖。

与普通的Transformer对所有图像位置一视同仁不同，我们的DeTrans通过引入可变形的自我注意机制，只注意一小部分关键位置。

因此，DeTrans的计算和空间复杂性已经大大降低，使其能够处理多尺度和高分辨率的特征图，这通常是图像分割的最重要的。

我们对覆盖11个主要人体器官的颅穹外多图谱标记(BCV)数据集进行了广泛的评估。结果表明，在三维多器官分割任务中，我们的CoTr方法比其他基于cnn、基于变压器和混合方法的性能有了显著提高。

为了扩大CNN的接受域，从而提高其上下文建模能力，人们做出了许多努力。

Yu等[22]提出了扩展速率可调的atrous卷积，在语义分割[5]上表现出了优越的性能。

Zhao等[26]采用多特征尺度的金字塔池法聚合多尺度的全球信息。

Wang等[20]提出了非局部操作，该操作通常嵌入在编码器的末端，以捕获远程依赖性。

虽然在一定程度上改进了上下文建模，但这些模型仍然不可避免地受到CNN体系结构的限制，接受范围有限。

Transformer中的自注意机制可以根据输入内容动态调整接收域，因此在建模长期依赖关系方面优于卷积运算。

但由于自注意[19]的存在，该模型的优化具有一定的挑战性。

首先，它需要非常长的训练时间来集中注意力，最初是均匀地投射到每个像素上，在突出的位置上，特别是在3D场景中。其次，普通的Transformer[19]由于计算复杂度高，很难处理多比例尺和高分辨率的特征图，而多比例尺和高分辨率的特征图在图像分割中起着至关重要的作用

在本文中，我们提出了一个混合框架，有效地连接卷积神经网络和变压器(CoTr)用于三维医学图像分割。

CoTr具有编码器-解码器结构。

在编码器中，采用了简洁的CNN结构来提取特征映射，使用Transformer来捕获远程依赖关系(见图1)。

受[7,29]的启发，我们向Transformer引入了可变形的自注意机制。这种注意机制只关注一小部分关键采样点，因此极大地降低了Transformer的计算复杂度和空间复杂度。

因此，Transformer可以处理CNN生成的多尺度特征图，并保留丰富的高分辨率信息进行分割。本文的主要贡献有三个方面:

(1)首次将Transformer应用于三维医学图像分割，特别是在计算效率和空间效率方面;

(2)引入可变形的自注意机制，降低了vanilla Transformer的复杂性，从而使我们的CoTr能够使用多尺度特征对远程依赖进行建模;

(3)在三维多器官分割任务上，我们的CoTr方法优于竞争对手的基于cnn、基于变压器和混合方法。

由于卷积运算的固有局部性，cnn -编码器不能有效地捕获像素间的长程依赖性。为此，我们提出了引入多尺度可变形自注意(MS-DMSA)机制的DeTrans-encoder，以实现高效的远程上下文建模。

在Transformer的体系结构中，自我注意层将查看特性图中所有可能的位置。该算法收敛速度慢，计算复杂度高，难以处理多尺度特征。为了解决这个问题，我们设计了MS-DMSA层，它只关注参考位置周围的一小部分关键采样位置，而不是所有位置。

设zq∈RC是查询q的特征表示形式，为参考点的归一化三维坐标。对于cnn -编码器最后L个阶段提取的多尺度特征映射{fl}Ll=1，第i个注意头的特征表示可计算为

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
CoTr: Efficiently Bridging CNN andTransformer for 3D Medical Image Segmentation

首先，它需要非常长的训练时间来集中注意力，最初是均匀地投射到每个像素上，在突出的位置上，特别是在3D场景中。其次，普通的Transformer[19]由于计算复杂度高，很难处理多比例尺和高分辨率的特征图，而多比例尺和高分辨率的特征图在图像分割中起着至关重要的作用。在本文中，我们提出了一个新的框架，有效地连接卷积神经网络和变压器(CoTr)，以实现精确的三维医学图像分割。因此，DeTrans的计算和空间复杂性已经大大降低，使其能够处理多尺度和高分辨率的特征图，这通常是图像分割的最重要的。
复制链接

扫一扫

专栏目录

卜萝a CSDN认证博客专家 CSDN认证企业博客

码龄4年

16: 原创

77万+: 周排名

161万+: 总排名

2万+: 访问

: 等级

203: 积分

4: 粉丝

1: 获赞

3: 评论

30: 收藏

私信

关注

热门文章

分类专栏

最新评论

DR-GAN: Conditional Generative AdversarialNetwork for Fine-Grained Lesion Synthesis onDiabetic Ret
CSDN-Ada助手: 恭喜您撰写第15篇博客！标题“DR-GAN: Conditional Generative Adversarial Network for Fine-Grained Lesion Synthesis on Diabetic Ret”引人入胜。您在这个领域的研究令人印象深刻，并且标题中所提及的条件生成对抗网络在糖尿病视网膜病变细粒度病变合成方面具有重要意义。在下一步创作中，我谨虚心建议您考虑探索更多实际应用方面的可能性。您可以进一步深入研究如何应用这一技术来辅助医生进行糖尿病视网膜病变的诊断和治疗。此外，您还可以尝试与其他相关领域的研究者合作，以进一步提高您的研究成果的实用性。期待看到您在未来的创作中继续取得进展！
Orthogonal Annotation Benefits Barely-supervised Medical Image Segmentation
CSDN-Ada助手: 恭喜您撰写了第16篇博客！标题“Orthogonal Annotation Benefits Barely-supervised Medical Image Segmentation”听起来非常引人入胜。您的专注于医学图像分割的研究令人印象深刻。持续创作对于推动该领域的发展至关重要。在下一步的创作中，或许您可以考虑深入探讨如何应用这种正交标注在医学图像分割中的价值。这可能包括对其在不同疾病类型或数据集上的应用进行实证研究，并进一步探索其潜在的临床应用。同时，您还可以考虑与其他领域的专家进行合作，以进一步提高这种方法的准确性和可靠性。再次恭喜您，期待您未来更多有关医学图像分割的研究成果！请继续保持谦虚的态度，将这一领域推向更高的水平。加油！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。