Swin Transformer, SwinIR, SwinFIR

最新推荐文章于 2024-08-29 10:17:23 发布

yyyang404

最新推荐文章于 2024-08-29 10:17:23 发布

阅读量1k

点赞数 2

文章标签： transformer 计算机视觉

本文链接：https://blog.csdn.net/yyyang_/article/details/127746712

版权

Swin Transformer通过滑动窗口注意力机制解决了尺度变化问题，降低了计算复杂度，同时保持全局连接。与ViT相比，Swin Transformer采用多尺度特征，更适合局部注意力计算。在SwinIR模型中，它包括浅层特征提取、深层特征提取和高质图像重建三个模块，应用于图像恢复任务，如降噪和JPEG压缩伪影消除。

摘要由CSDN通过智能技术生成

Swin Transformer

痛点：尺度变化 – 提出Hieracical

attention的变化： sliding window attention，减少了attention的计算复杂度，同时通过sliding增强connection，实现全局attention

和ViT的区别：ViT16*下采样，尺寸单一；Swin Transformer多尺度

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W37DSRfP-1667876270378)(1103 Swin Transformer.assets/image-20221023201931256.png)]

local的思维：在一个小范围算attention是基本够用的，全局算self-attention有浪费。（基于假设：属性相似的目标距离是相对接近的）

Patch Partition: 相当于打碎成block

Patch Merging: MaxPooling，提供多尺度特征

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ofrHCWXf-1667876270379)(1103 Swin Transformer.assets/image-20221023203559144.png)]

从H * W * C变换为H/2 * W/2 * 2C

总backbone:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-E63nNxJC-1667876270379)(1103 Swin Transformer.assets/image-20221023204154777.png)]

回顾一下Attention is all you need: 从CNN, RNN变为Transformer

CNN：Transformer借鉴了CNN的多通道以提取不同特性的特征，另外CNN的金字塔结构可以将相隔较远的信息归纳在一起
RNN：认为RNN结构并行化差，序列化执行效率低下纳在一起 RNN：认为RNN结构并行化差，序列化执行效率低下
总体来说就是借鉴了优点、改进缺陷

SwinIR: Swin Transformer for Image Restoration

Related Work(IR的方法)

Traditional model-based
CNN-based (SRCNN…):

a flurry of CNN-based models have been proposed to improve model representation ability by using more elaborate neural network architecture designs, such as residual block, dense block and others . Some of them have exploited the attention mechanism inside the CNN framework, such as channel attention, non-local attention and adaptive patch aggregation.
Vision Transformer