CiT-Net:Convolutional Neural Networks Hand in Hand with Vision Transformersfor Medical Image Segmen

CiT-Net:卷积神经网络与视觉变换器相结合用于医学图像分割

摘要:卷积神经网络(CNNs)和Transformer的混合架构在医学图像分割中非常流行。然而,它面临两个挑战。首先,虽然CNNs分支可以使用普通卷积来捕获局部图像特征,但它不能实现自适应特征学习。其次,尽管Transformer分支可以捕捉全局特征,但它忽略了通道和跨维自关注,导致复杂内容图像的分割精度较低。为了应对这些挑战,我们提出了一种新的卷积神经网络与视觉转换器(CiT-Net)的混合架构,用于医学图像分割。我们的网络有两个优势。

首先,我们设计了一种动态可变形卷积,并将其应用于CNNs分支,克服了由于卷积核大小固定以及不同输入之间共享核参数的僵硬设计而导致的特征提取能力较弱的问题。其次,我们设计了一个移位窗口自适应互补注意力模块和一个紧凑的卷积投影。我们将它们应用于Transformer分支,以了解医学图像的跨维度长期依赖性。实验结果表明,我们的CiT-Net比流行的SOTA方法提供了更好的医学图像分割结果。此外,我们的CiT-Net需要更低的参数和更少的计算成本,并且不依赖于预训练。

(不懂的词:

自适应特征学习:模型自动学习适应任务的特征表示,而无需手动设计特征提取方法,比如,CNN模型通过反向传播过程中的权重更新自适应地学习了图像中的特征,而不需要手动设计特征提取器。

通道自注意力:通道自注意力(Channel Self-Attention)是一种注意力机制,通常用于深度学习模型中,以帮助模型更好地处理输入数据的不同特征通道(通常也称为特征映射或特征图)。通道自注意力允许模型在学习期间自动决定哪些特征通道对于任务更重要,以便提高模型性能。

通道自注意力与传统的自注意力机制(例如在Transformer中使用的注意力机制)有所不同。传统的自注意力机制是在序列或图像中的不同位置之间计算注意力权重,以确定它们之间的依赖关系。而通道自注意力是在特征通道之间计算注意力权重,以确定不同通道之间的依赖关系。

"跨维自注意力"(Cross-Dimensional Self-Attention)是一种注意力机制,通常用于深度学习模型中,以处理输入数据的不同维度之间的关系。这个注意力机制允许模型在学习期间自动捕捉和建模不同维度(通常是特征或通道)之间的依赖关系,以更好地理解输入数据并提高性能。

“动态可变形卷积”:动态可变形卷积(Dynamic Convolution)是一种卷积神经网络(CNN)中的高级卷积操作,它允许卷积核在每个位置上动态地调整其形状以适应输入数据的局部结构。这种操作旨在改进CNN在处理变化复杂性和不规则形状的图像或特征时的性能。通常情况下,标准的卷积操作使用固定形状的卷积核(通常是矩形或正方形),在输入数据的不同位置上滑动并计算加权和。然而,对于某些图像,特别是包含物体的图像,不同位置的物体可能有不同的形状,因此传统的固定形状卷积核可能无法捕捉到这些局部结构。动态可变形卷积引入了可变形卷积核,这些卷积核可以在每个位置上自适应地调整其形状。这样,模型可以根据输入数据的局部结构动态地改变卷积核的形状,以更好地捕捉特定位置的特征。这些可变形卷积核的形状通常是通过学习来获得的,因此模型可以根据任务和数据自动调整卷积核的形状。(简而言之,根据输入图像卷积过程中动态调整卷积核的大小形状)

自适应互补注意力(Adaptive Complementary Attention):这是一种注意力机制,它允许模型自动学习输入序列或特征之间的依赖关系。它通过计算每个位置的注意力权重,以确定哪些位置对于当前位置的表示是最重要的。这有助于模型更好地理解输入数据的结构和关系。

移位窗口(Shifted Window):移位窗口是在自适应互补注意力中的一个概念,它引入了一种滑动窗口的机制,用于限制模型在局部区域内计算注意力。这个滑动窗口可以帮助模型集中注意力在与当前位置相关的局部信息上,而不是整个输入序列或特征。这有助于处理序列中的局部结构和减少计算复杂性。

移位窗口自适应互补注意力的核心思想是在自注意力机制中引入窗口限制,并通过自适应学习来调整窗口的大小和位置,以适应不同位置和任务的需要。这种机制在处理长序列数据或具有复杂结构的数据时可能特别有用,因为它可以改善模型的建模能力,同时保持计算效率。(我的理解:移位窗口自适应互补注意力是在swin transformer的SW-MSA的基础上规定注意力的窗口是自适应的

变形偏移:变形偏移的核心思想是允许卷积核在每个位置上动态地调整其位置以适应输入数据的局部结构。通过引入偏移场(offset field)来实现的,该偏移场指定了每个卷积核在每个位置上的偏移量。卷积核根据这些偏移量动态地调整其位置,以适应输入数据的局部结构。这使得模型能够更好地捕捉不同位置的特征。

1 介绍

医学图像分割是指将医学图像分割成具有独特特性的几个特定区域。医学图像分割结果不仅可以实现对人体区域的异常检测,而且可以用于指导临床医生。因此,精确的医学图像分割已成为计算机辅助诊断和治疗、患者病情分析、图像引导的关键组成部分手术、组织和器官重建以及治疗计划。与常见的RGB图像相比,医学图像通常存在高密度噪声、低对比度和边缘模糊等问题。因此,如何从医学图像中快速准确地分割出特定的人体器官和病变,一直是智能医学领域的巨大挑战。

近年来,随着计算机硬件资源的快速发展,研究人员在大量实验的基础上,不断开发出许多新的医学图像自动分割算法。现有的医学图像分割算法可分为两类:基于卷积神经网络(CNNs)和基于Transformer网络。

早期的传统医学图像分割算法是基于医学专家利用专业知识设计的手动特征[Suetens,2017]。这些方法有很强的数学基础和理论支持,但这些算法对人体不同器官或病变的泛化能力较差。后来,受全卷积网络(FCN)[Long等人,2015]和编码器-解码器的启发,Ronnebreger等人设计了UNet[Roneberger等人,2015]network,该网络首次应用于医学图像分割。该网络提出后,其对称的U型编解码器结构受到了广泛关注。同时,由于U-Net网络的参数

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值