学习记录——SpectFormer、DilateFormer、ShadowFormer、MISSFormer-CSDN博客

本文链接：https://blog.csdn.net/weixin_45464524/article/details/131780945

本文介绍了SpectFormer、DilateFormer、ShadowFormer和MISSFormer四种Transformer模型在视觉任务中的应用。SpectFormer结合频谱层和多头注意力，提高图像识别性能；DilateFormer采用多尺度空洞注意力，平衡计算复杂度与感受野大小；ShadowFormer利用全局上下文辅助图像阴影去除；MISSFormer则通过ReMix-FFN和Transformer Context Bridge增强医学图像分割效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SpectFormer: Frequency and Attention is what you need in a Vision Transformer, arXiv2023

频域混合注意力SpectFormer 2023

论文：https://arxiv.org/abs/2304.06446
代码：https://badripatro.github.io/SpectFormers/

摘要视觉变压器已经成功地应用于图像识别任务中。已有类似于原文模型的基于多头自注意的研究(ViT[14]、DeIT[53])，或最近基于谱层的研究(Fnet[29]、GFNet[47]、AFNO[17])。我们假设谱注意力和多头注意力都起主要作用。我们通过这项工作研究了这一假设，并观察到谱和多头注意层的结合确实提供了更好的变压器架构。因此，我们提出了一种结合了频谱层和多头注意层的变压器的新频谱结构。我们相信结果表示允许转换器适当地捕获特征表示，并且它比其他转换器表示产生更好的性能。例如，与GFNet-H和LiT相比，它在ImageNet上提高了2%的top-1精度。specformer - s在ImageNet- 1k上达到了84.25%的top-1精度(小版本的最新水平)。

此外，specformer - l达到了85.7%，这是同类基础版变压器的最新水平。我们进一步确保在其他场景中获得合理的结果，例如在标准数据集(如CIFAR-10、CIFAR-100、Oxford-IIIT-flower和stanford Car数据集)上的迁移学习。然后，我们研究了它在MS-COCO数据集上的下游任务(如对象检测和实例分割)中的使用情况，并观察到specformer显示出与最佳骨干网相当的一致性能，并且可以进一步优化和改进。因此，我们认为结合光谱层和注意层是视觉变压器所需要的。

在文本模型中，既有类似于原始工作的基于多头自我注意的（ViT，DeIT），也有最近基于光谱层的（Fnet，GFNet，AFNO）。受光谱和层次Transformer相关工作的启发，论文观察到光谱和多头注意力层的结合能提供更好的Transformer架构，因此提出SpectFormer，使用傅立叶变换实现的光谱层来捕捉架构初始层中的相关特征。 此外，在网络的深层使用多头自我注意。 SpectFormer架构简单，它将图像标记转换到傅立叶域，然后使用可学习的权重参数应用门控技术，最后进行傅立叶逆变换以获取信号。 SpectFormer结合了光谱注意力和多头注意力。