前言
该算法将Swin Transformer应用于图像复原的领域,主要网络结构分为三个部分:①浅层特征提取 ②深层特征提取 ③高质量图像重建。主要应用于图像复原的三个方向,图像超分辨、图像降噪、由于JPEG压缩造成的伪影减少。主要是借鉴了Swin Transformer即有局部特征又可以全局特征的特点,而且可以使用更少的参数来达到更好的效果。
网络框架
下图是SwinIR的整体框架图,主要包括三个部分,第一个部分是浅层特征提取网络,主要提取图像里面的低频信息;第二个部分是深层特征提取网络,主要提取高频信息,这也是最重要的一环,因为图像复原主要是恢复图像的高频信息;最后一个是根据前面提取到的信息进行图像重建。
图1 SwinIR框架图
1. 浅层特征提取
文章里面直接使用了一个3×3的卷积核对大小为H×W×C的输入图像进行特征提取,给出的解释是卷积层有利于Transformer的早期图像处理,可以带来更好的结果。引用的论文为:Early Convolutions Help Transformers See Better,感兴趣可以自己去了解下。
2.深层特征提取
深层特征提取为重点,主要也是参考了Swin Transformer来进行设计的,是一个叫RSTB模块,如下图左,整个模块的为串联结构,主要由STL的子模块和一个3×3的卷积层组成(我也不知道为什么要用一个3×3