论文解读：医学影像中的注意力机制

最新推荐文章于 2024-07-02 00:05:18 发布

视学算法

最新推荐文章于 2024-07-02 00:05:18 发布

阅读量3.2k

点赞数 3

文章标签：计算机视觉人工智能深度学习机器学习 python

原文链接：https://bbs.cvmart.net/topics/2925

版权

来源｜Daniel Liu@知乎，https://zhuanlan.zhihu.com/p/138555896

Multi-scale self-guided attention for medical image segmentation

该论文的方法为2019年发布的在CHAOS MRI Dataset上进行医学图像分割的最优方法，最终的Dice为86.75.

Introduction：对过往医学图像分割方法的看法

一、对于过往的模型的看法

1、在多数经典模型中对于多尺寸的使用，如unet结构,FCN结构。由于在一开始就是同样的low-level信息进行不断的特征提取，所以会造成信息的冗余使用。

2、过往模型应用在像素级别的分割挑战中的时候（如，医学领域的分割），可能会表现出判别能力的不足。

二、对于当下用于提高学习特征表达能力的方法，如多尺度的上下文融合，使用空洞卷积，pooling等方式的看法

1、尽管之前的做法可以获得目标在不同尺寸下的信息，但是对于所有的image的上下文联系都是homogenous的和非自适应的, 忽略了在不同类别中，local-feature和上下文依赖之间的差异。

2、这些多尺度的上下文依赖基本上都是人为设定的，缺乏模型自身的灵活性. 这使得对于图像中的一些长距离的联系没有办法被充分利用，而这些对于医学图像分割却是至关重要的。

三、对于注意力机制的看法

1、注意力机制的运用可以很好的突触分割区域的特征，并且抑制其他的噪音部分。

2、作者在本文中也使用了较为完善的注意力机制：a.对于不同尺寸的语义信息使用注意力机制；b.每个注意力模型均由position注意力模型和channel注意力模型两个部分组成；通过这样的方式可以让模型学习到更加广泛和丰富的上下文依赖信息，以及提升不同channel间上下文的依赖程度。

Method：对论文模型的详细描述

一、模型的总体描述

由于在常规的CNN中，global feature通常都是基于local receptive field 获得的。所以对于long-range的上下文依赖并没有被充分的表达出来。因此作者引入了注意力机制来解决该问题。首先通过多尺寸的策略来获取全局feature, 然后将所学习到的全局特征引入到注意力模块中。注意力模块由空间注意力模块和channel注意力模块两部分组成。注意力模块一方面可以帮助局部特征与全局特征的融合，另一方面也可以过滤到不相关的噪音信息。模型整体结构如下图所示：

二、多尺寸注意力机制

整个模型是基于ResNet-101进行的改进，Res-2, Res-3, Res-4, Res-5所生成的特征图F0，F1，F2, F3; 将他们通过线性插值的方式上采样到相同的尺寸，即F's. 讲所生成的F'0, F'1, F'2, F'3进行concate操作，而后进行卷积操作，生成多尺寸融合特征图FMS:

接着，把生成的FMS与F'0, F'1, F'2, F'3分别进行concate操作，而后进行卷积，最后fed into 注意力模型。得到不同的尺寸下的注意力特征图A0, A1,A2,A3:

三、空间和channel注意力特征图

这篇文章中的spatial and channel attention self-attention modules 主要来自于另外一篇论文：Dual Attention Network for Scene Segmentation

position attention module part：用于捕获长距离的依赖，解决局部感受野的问题。

前三个分支中，前两个分支F0和F1计算位置间的相关性矩阵

再由位置之间的相关性矩阵

指导第三条分支

计算得到空间注意力图，与输入进行加权和：

channel attention module(CAM):捕获通道间存在的依赖关系，增强特定的语义特征表示。

与spatial attention module 类似，三个分支中，前两个分支先计算channel中不同位置的相关性矩阵，再与第三个分支相乘，得到关于channel的注意力图，最终与输入进行加权和：

最后将空间注意力图与通道注意力图进行元素加操作得到空间-通道注意力特征图。

四、注意力loss

通过设置不同的loss，来引导模型在训练中，自我调整需要注意的信息，对于某一个尺寸的注意力机制模型图如下：

F一方面输入到注意力模型中产生注意力特征图，另一方面进入一个unet结构中，两个encode部分生产第一个注意力loss：

两个unet结构输出的结构生成第二个注意力loss:

分割loss为：

最终的总loss为：

参考资料

论文地址：https://arxiv.org/pdf/1906.02849.pdf

代码地址:

[1] sinAshish/Multi-Scale-Attentiongithub.com

[2]https://blog.csdn.net/gefeng1209/article/details/92986915?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3

[3] http://openaccess.thecvf.com/content_CVPR_2019/html/Fu_Dual_Attention_Network_for_Scene_Segmentation_CVPR_2019_paper.html