Medical Image Segmentation Using Squeeze-and-Expansion Transformers 论文阅读笔记

最新推荐文章于 2024-08-26 17:15:31 发布

ssf-yasuo

最新推荐文章于 2024-08-26 17:15:31 发布

阅读量508

点赞数 3

分类专栏：论文阅读笔记文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_44326452/article/details/119711299

版权

论文阅读笔记专栏收录该内容

162 篇文章 38 订阅

订阅专栏

Medical Image Segmentation Using Squeeze-and-Expansion Transformers 论文阅读笔记

这是arxiv上的一篇医学图像分割的文章

两个亮点，一个是Sequeeze-and-Expansion 结构的transformer，一个是新的位置编码方法
文章认为，transformer在image任务上，有几个可改进的方面：
1. attention matrix太大了（ $N\times N$ ），容易过拟合（批判看待，我觉得，attention matrix是生成的，不是参数，不会因为特征图太大而引起过拟合，只会因为参数太多而引起过拟合）
2. 只有一组transformer可能不足以捕捉数据特完整特征。文章用的是混合高斯比单一高斯建模能力更好的例子。可我觉得，Q K V的不同维度，已经算是对不同特征进行建模了，这个理由听起来也觉得不是很好。
3. 像素之间的联系用attention建模，而attention是用Q K来实现的，而Q K是各自生成的，也就是说A像素对B像素的注意力与B像素对A像素的注意力是不对称的，而文章提出，图像不同像素之间的注意力通常是对称的，比如“两个像素是否属于同一个分割的类别”。这一点有那么一点道理，但是个人觉得还是得批判看待。就算有些联系是对称的，也有些联系是不对称的吧，比如目标与背景之间的关系。一个非对称的注意力，是可以同时拟合对称和非对称的联系的（只要Q K出来的结果使得A对B的注意力等于B对A的注意力即可），而单一的对称注意力，就无法拟合非对称的联系。但如果加入“对称注意力”这样的先验约束，也可能使得网络性能提升。所以我个人认为，这个还是要靠实验结果说话。
4. 现有的position embedding方法没有考虑像素的局部性和语义连续性。

三个小trick：

Squeezed Attention Block

一个是用到了 “Set transformer: A framework for attention-based permutation-invariant neural networks,” 中的ISAB方法。简单来说就是，原先transformer不是对m个元素计算对m个元素自身的注意力嘛，所以注意力矩阵就是 $m\times m$ ，然后为了缩小注意力矩阵，可以先计算m个元素到n个inducing point的注意力，然后再计算n个inducing point到m个元素的注意力，把一个 $m\times m$ 的矩阵，分解为了两个 $m\times n$ ，通常n远小于m，所以计算复杂度和计算速度都有了显著提升。之所以这样做是针对前面说的四个改进之处的第一点。虽然说是这样，毕竟是别人的方法，换个名字Squeezed Attention Block 就写到了自己的论文中作为自己的亮点之一。。。这里Squeezed Attention Block仅指从m到n的过程，变回去的过程是下一个模块。

Expanded Attention Block

这个模块的公式是这样的，但是并没有解释清楚Mode是什么，只知道是一个映射，可以理解为，X输入后，进入了 $N_m$ 个分支，最后用自注意力的方式将这 $N_m$ 个分支合并。反正论文讲得很模糊很不清楚，并且似乎也是借鉴别人的方法
文章还给了个配图说明EAB和multi-head attention的区别