Medical Image Segmentation Using Squeeze-and-Expansion Transformers 论文阅读笔记

Medical Image Segmentation Using Squeeze-and-Expansion Transformers 论文阅读笔记

  • 这是arxiv上的一篇医学图像分割的文章

  • 两个亮点,一个是Sequeeze-and-Expansion 结构的transformer,一个是新的位置编码方法
  • 文章认为,transformer在image任务上,有几个可改进的方面:
    1. attention matrix太大了( N × N N\times N N×N),容易过拟合(批判看待,我觉得,attention matrix是生成的,不是参数,不会因为特征图太大而引起过拟合,只会因为参数太多而引起过拟合)
    2. 只有一组transformer可能不足以捕捉数据特完整特征。文章用的是混合高斯比单一高斯建模能力更好的例子。可我觉得,Q K V的不同维度,已经算是对不同特征进行建模了,这个理由听起来也觉得不是很好。
    3. 像素之间的联系用attention建模,而attention是用Q K来实现的,而Q K是各自生成的,也就是说A像素对B像素的注意力与B像素对A像素的注意力是不对称的,而文章提出,图像不同像素之间的注意力通常是对称的,比如“两个像素是否属于同一个分割的类别”。这一点有那么一点道理,但是个人觉得还是得批判看待。就算有些联系是对称的,也有些联系是不对称的吧,比如目标与背景之间的关系。一个非对称的注意力,是可以同时拟合对称和非对称的联系的(只要Q K出来的结果使得A对B的注意力等于B对A的注意力即可),而单一的对称注意力,就无法拟合非对称的联系。但如果加入“对称注意力”这样的先验约束,也可能使得网络性能提升。所以我个人认为,这个还是要靠实验结果说话。
    4. 现有的position embedding方法没有考虑像素的局部性和语义连续性。

三个小trick:

Squeezed Attention Block

  • 一个是用到了 “Set transformer: A framework for attention-based permutation-invariant neural networks,” 中的ISAB方法。简单来说就是,原先transformer不是对m个元素计算对m个元素自身的注意力嘛,所以注意力矩阵就是 m × m m\times m m×m,然后为了缩小注意力矩阵,可以先计算m个元素到n个inducing point的注意力,然后再计算n个inducing point到m个元素的注意力,把一个 m × m m\times m m×m的矩阵,分解为了两个 m × n m\times n m×n,通常n远小于m,所以计算复杂度和计算速度都有了显著提升。之所以这样做是针对前面说的四个改进之处的第一点。虽然说是这样,毕竟是别人的方法,换个名字Squeezed Attention Block 就写到了自己的论文中作为自己的亮点之一。。。这里Squeezed Attention Block仅指从m到n的过程,变回去的过程是下一个模块。

Expanded Attention Block

  • 这个模块的公式是这样的,但是并没有解释清楚Mode是什么,只知道是一个映射,可以理解为,X输入后,进入了 N m N_m Nm个分支,最后用自注意力的方式将这 N m N_m Nm个分支合并。反正论文讲得很模糊很不清楚,并且似乎也是借鉴别人的方法 在这里插入图片描述
  • 文章还给了个配图说明EAB和multi-head attention的区别
    在这里插入图片描述

Learnable Sinusoidal Positional Encoding

  • 公式如下:
    在这里插入图片描述
  • 也就是说通过可学习的参数a b c去先对坐标进行线性映射,再一半正弦一半余弦作为位置编码。其中,x,y是归一化后的坐标。

网络结构

在这里插入图片描述

  • 首先经过一个CNN 的backbone比如ResNet-101或者EfficientNet-D4,得到一系列feature pyramid

  • 然后利用其中两个pyramid做了融合,即Input FPN:
    在这里插入图片描述
    这里, f 4 f_4 f4是最后一个pyramid,即原图的1/16,而 f 3 f_3 f3是1/8

  • 然后将特征图展平,加入position embedding,送进transformer

  • transformer的输出 g 34 g_{34} g34会再进行一次output FPN,如下:
    在这里插入图片描述

  • 最后的segmentation head仅是一层 1 × 1 1\times1 1×1的卷积

总的来说,个人认为,文章虽然有值得借鉴的一些点,但是仍显得创新点和信服力不是很足。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值