前言
本文也是结合Transformer设计出来的网络结构用作图像恢复领域,主要包括图像去雨、运动去模糊、失焦去模糊和图像降噪(其中又包括了高斯彩色/灰度图的降噪、真是图像降噪)。
创新点:①提出一种基于编码器-解码器的Restormer网络。
②提出了一种新的局部transformer模块MDTA,可以加强局部和非局部有关联像素之间的联系。
③一种新的门控前向传递网络。
网络结构
总体来看整体网络结构其实也是借鉴编码器-解码器的结构,而且仔细看中间下凸的那部分其实也就是Unet的网络结构,而且很凑巧的是最后实验出来的效果也是四层的网络效果最好,跟Uformer不谋而合。
首先,一幅H×W×3的图像经过卷积层生成H×W×C的特征图。然后经过4层编码器-解码器结构网络,每一层都是由一个Transformer模块和一个下采样层组成,通过四层transformer模块和下采样层之后,再经过解码器也是跟前面一样的模块,只是改成了上采样,并且和之前下采样得到的特征图经过一个1×1的卷积核按比例相加进行输出,最后经过一个transformer模块对特征进行改进,再进入一个卷积层还原回恢复后的图像。
MDTA
在这个模块中,先经过一个1×1的卷积结合通道之间的信息,然后通过一个3×3的卷积结合单个通道的空间信息,然后才是SA的流程,在这之中没有使用偏置,这样既结合了通道之间的信息又结合了局部的空间信息。
Gated-Dconv Feed-Forward Network
门控前向网络主要由两条路组成,都分别由一个1×1和3×3的卷积层组成,门控的关键点在于下面那条支流会通过一个非线性的GELU函数,可以将比较好的特征得以保留,然后通过与上面那个直流得到的原特征图相乘从而达到加强较好特征部分的目的。
实验
去雨
运动去模糊
失焦去模糊
降噪
消融实验
主要是对网络结构进行研究,看看哪个结构效果比较好。
总结
总体来看的话,Restormer和Uformer其实设计出来的网络结构也是相似的,都是基Transformer、编码器-解码器、Unet的结构,而且网络层数做出来的结果都一样,并且都自己设计了一个transformer模块和一个前向传递网络。个人认为,编码器和解码器结构上是不是可以向着不一样的结构发展一下会不会有更好的效果。其次是,最后出来的实验效果对比来看,各有所长吧,但是restormer上比如去雨部分就没有拿Uformer来做对比,不知道为什么,我看了下Uformer的效果在论文里面是要比它高很多的在这项任务上。最后,个人看来的亮点就是设计的时候不仅仅关注了空间上的局部信息,还关注了通道间的信息,通过一个1×1的卷积层来实现,这个想法还是不错。