代码:https://github.com/ZhendongWang6/Uformer.
1.摘要
本文提出一种运用于图像恢复的Transformer,本文取名为Uformer。其中我们使用Transformer块构建了一种类似于U-net的分层编码器-解码器网络。在Uformer中,有两个核心设计。首先,我们引入了一种新的局部增强窗口(LeWin) Transformer块,它执行基于非重叠窗口的自关注,而不是全局自关注。在获取局部上下文的同时,显著降低了高分辨率特征图的计算复杂度。其次,我们提出了一种多尺度空间偏置形式的可学习多尺度恢复调制器,用于调整Uformer解码器的多层特征。在这两种设计的支持下,Uformer具有捕获本地和全局依赖关系以进行图像恢复的高能力。为了评估我们的方法,在几个图像恢复任务上进行了大量的实验,包括图像去噪、运动去模糊、离焦去模糊和去训练。
2.本文方法
本文的创新主要集中在两个方面,第一点是提出了一种改善的Transformer模块,然后运用到一种类似于Unet的结构中,第二点三在框架中加入了多尺度恢复调制器。下面将从总结构,Transformer模块和多尺度恢复调制器这三个方面详细介绍本文。完成本文的理解需要详细了解。
2,1总体结构
如下图是我们网络的主要结构:
如图所示,所提出的Uformer的整体结构是一个类似Unet的分层网络。具体来说,给定图像
Uformer首先使用一个带有LeakyReLU的3× 3卷积层来提取底层特征。
接下来,按照Unet的设计,将特征