SwinIR: Image Restoration Using Swin Transformer论文翻译
翻译只供学习,请勿用于商用!!
原文链接:https://ar5iv.labs.arxiv.org/html/2108.10257
Github项目:https://github.com/JingyunLiang/SwinIR
文章中出现的引用、高亮是我自己查的和加的,原论文中没有,请读者注意。
SwinIR:使用Swin Transformer 进行图像恢复
摘要
图像恢复是一个长期存在的低级视觉问题,旨在从低质量图像(例如,缩小、噪声和压缩图像)中恢复高质量图像。 虽然最先进的图像恢复方法基于卷积神经网络,但在使用Transformers方面尝试的很少,而Transformers在高级视觉任务上展现出令人印象深刻的性能。在本文中,我们提出了一个基于Swin Transformer的强大基准模型,名为SwinIR,用于图像恢复。SwinIR由三部分组成:浅层特征提取、深层特征提取和高质量图像重建 。特别地,深层特征提取模块由多个残差Swin Transformer块(RSTB)组成,每个块包括多个Swin Transformer层和一个残差连接。我们在三个代表性任务上进行了实验证明:图像超分辨率(包括经典、轻量级和实际图像超分辨率)、图像去噪(包括灰度和彩色图像去噪)以及JPEG压缩伪影降低。实验结果表明,SwinIR在不同任务上的性能优于最先进的方法,提升了0.14∼0.45dB,同时可以将参数总数减少高达67%。
分贝(dB):通常用来度量信号的相对强度或性能的相对改善,数值越高表示改善越明显。
一、引言
图像恢复,如图像超分辨率(SR)、图像去噪以及JPEG压缩伪影降低,旨在从其低质量的受损副本中重建高质量的清晰图像。自从一些具有突破性的工作[18, 40, 90, 91]之后,卷积神经网络(CNN)已经成为图像恢复的主要工具,大多数基于CNN的方法侧重于精心设计的架构,如残差学习[43, 51]和密集连接[97, 81]。尽管与传统基于模型的方法[73, 14, 28]相比,它们的性能得到了显著提升,但它们通常面临着两个基本问题,这源自于基本构建模块,即卷积层。首先,图像和卷积核之间的相互作用是与内容无关的。使用相同的卷积核来恢复不同的图像区域可能不是一个好的选择。其次,基于局部处理原则,卷积对于长距离的依赖建模并不有效。
作为对CNN的替代,Transformer [76]设计了一种自注意机制,用于捕捉上下文之间的全局相互作用,并在几个视觉问题中展示了令人期待的性能[6, 74, 19, 56]。然而,用于图像恢复的视觉 Transformer [9, 5]通常将输入图像划分为固定大小的小块(例如,48×48),并独立处理每个小块。这种策略不可避免地会产生两个缺点。首先,恢复后的图像可能会在每个小块周围引入边界伪影。其次,每个小块的边缘像素会失去信息,从而影响更好的恢复效果。虽然可以通过重叠小块来缓解这个问题,但这会增加额外的计算负担。
最近,Swin Transformer [56]显示出了巨大的潜力,因为它将CNN和Transformer的优势整合在一起。一方面,它利用了由于局部注意机制而能够处理具有大尺寸的图像的CNN的优势。另一方面,它利用了具有移动窗口方案的Transformer来建模长程依赖关系的优势。
在本论文中,我们提出了一个基于Swin Transformer的图像恢复模型,名为SwinIR。具体而言,SwinIR由三个模块组成:浅层特征提取、深层特征提取和高质量图像重建模块。浅层特征提取模块使用卷积层来提取浅层特征,直接传递到重建模块以保留低频信息。深层特征提取模块主要由残差Swin Transformer块(RSTB)组成,每个块使用多个Swin Transformer层进行局部注意力和窗口间交互。此外,我们在块的末尾添加了一个卷积层进行特征增强,并使用残差连接提供特征聚合的快捷方式。最后,在重建模块中融合了浅层和深层特征,用于高质量图像的重建。与普遍采用CNN的图像恢复模型相比,基于Transformer的SwinIR具有以下几个优点:(1) 图像内容和注意力权重之间的基于内容的交互,可以解释为具有空间变化的卷积。 (2) 通过移动窗口机制实现了对长距离依赖关系的建模。(3) 在更少的参数下获得更好的性能。如图1所示,与现有的图像超分辨率方法相比,SwinIR在更少的参数下实现了更好的PSNR。
PSNR:是“峰值信噪比”(Peak Signal-to-Noise Ratio)的缩写,是一种用于衡量图像质量的指标。它通过比较原始图像和经过处理后的图像之间的峰值信号强度与噪音强度之比来评估图像的失真程度。
PSNR的数值越高,表示图像的质量损失越小,因此通常用于图像处理和压缩等领域中,以评估算法的性能。PSNR以分贝(dB)为单位,公式如下:
P S N R = 10 ⋅ log 10 ( 峰值信号强度 2 均方误差 ) PSNR = 10 \cdot \log_{10}\left(\frac{{\text{峰值信号强度}^2}}{{\text{均方误差}}}\right) PSNR=10⋅log10(均方误差峰值信号强度2)
在此公式中,峰值信号强度是原始图像的最大可能像素值,均方误差是经过处理后的图像与原始图像之间的均方差。
总的来说,PSNR越高,表示图像的质量越好。
二、相关工作
2.1 图像恢复
相对于通常是基于模型的传统图像恢复方法[28, 72, 73, 62, 32],以及学习方法,特别是基于卷积神经网络(CNN)的方法,由于其令人印象深刻的性能,变得越来越受欢迎。它们通常通过从大规模配对的数据集中学习低质量图像和高质量图像之间的映射关系来进行工作。自开创性的工作SRCNN(用于图像超分辨率)、DnCNN(用于图像去噪)和ARCNN(用于JPEG压缩伪影降低)[18, 90, 17]之后,一系列基于CNN的模型被提出,通过使用更大更深的神经网络架构设计(如残差块[40, 7, 88]、稠密块[81, 97, 98]以及其他方法[10, 42, 93, 78, 77, 79, 50, 48, 49, 92, 70, 36, 83, 30, 11, 16, 96, 64, 38, 26, 41, 25])来改善模型的表征能力。其中一些模型利用了CNN框架内的注意机制,如通道注意[95, 15, 63]、非局部注意[52, 61]和自适应补丁聚合[100]。
2.2 视觉Transformer
最近,在计算机视觉领域,自然语言处理模型 Transformer [76]变得非常受欢迎。当用于视觉问题,如图像分类[66, 19, 84, 56, 45, 55, 75]、目标检测[6, 53, 74, 56]、分割[84, 99, 56, 4]以及人群计数[47, 69]时,它学会通过探索不同区域之间的全局交互来关注重要的图像区域。由于其令人印象深刻的性能, Transformer 也被引入到了图像恢复中[9, 5, 82]。陈等人[9]提出了一个基于标准 Transformer 的IPT骨干模型,用于各种恢复问题。然而,IPT依赖于大量的参数(超过115.5M个参数)、大规模数据集(超过1.1M张图像)和多任务学习以获得良好的性能。 曹等人[5]提出了VSR-Transformer,它使用了自注意机制来在视频超分辨率中实现更好的特征融合,但图像特征仍然是从CNN中提取的。此外,IPT和VSR-Transformer都是基于补丁的注意力,这可能不适合图像恢复。一项同时进行的工作[82]提出了一个基于Swin Transformer的U形架构。
三、 模型
3.1 网络架构
如图2所示,SwinIR包括三个模块:浅层特征提取、深层特征提取和高质量图像重建模块。我们对所有恢复任务使用相同的特征提取模块,但对不同任务使用不同的重建模块。
浅层和深层特征提取。 给定一个低质量(LQ)输入图像
I
L
Q
∈
R
H
×
W
×
C
i
n
I_{LQ} \in R^{H×W×C_{in}}
ILQ∈RH×W×Cin (其中
H
H
H 、
W
W
W 和
C
i
n
C_{in}
Cin 分别是图像的高度、宽度和输入通道数),我们使用一个 3×3 的卷积层
H
S
F
(
⋅
)
H_{SF}(·)
HSF(⋅) 来提取浅层特征
F
0
∈
R
H
×
W
×
C
F_0 \in \R^{H×W×C}
F0∈RH×W×C,如下:
F
0
=
H
S
F
(
I
L
Q
)
F_0 = H_{SF}(I_{LQ})
F0=HSF(ILQ)
其中
C
C
C 是特征通道数。卷积层在早期视觉处理方面表现良好,导致了更稳定的优化和更好的结果 [86]。它还提供了将输入图像空间映射到更高维特征空间的简单方法。然后,我们从
F
0
F_0
F0 中提取深层特征
F
D
F
∈
R
H
×
W
×
C
F_{DF} \in \R^{H×W×C}
FDF∈RH×W×C 如下:
F
D
F
=
H
D
F
(
F
0
)
F_{DF} = H_{DF}(F_0)
FDF=HDF(F0)
其中
H
D
F
(
⋅
)
H_{DF}(·)
HDF(⋅) 是深层特征提取模块,它包含
K
K
K 个残差 Swin Transformer 块(RSTB)和一个 3×3 的卷积层。更具体地说,中间特征
F
1
,
F
2
,
.
.
.
,
F
K
F_1, F_2, . . . , F_K
F1,F2,...,FK 和输出的深层特征
F
D
F
F_{DF}
FDF 会逐块提取,如下:
F
i
=
H
R
S
T
B
i
(
F
i
−
1
)
,
i
=
1
,
2
,
.
.
.
,
K
,
F
D
F
=
H
C
O
N
V
(
F
K
)
,
F_i = H_{RSTB_i}(F_{i-1}),\ \ i =1,2,...,K,\\F_{DF} = H_{CONV}(F_K) ,
Fi=HRSTBi(Fi−1), i=1,2,...,K,FDF=HCONV(FK),
这里
H
R
S
T
B
i
(
⋅
)
H_{RSTB_i}(·)
HRSTBi(⋅) 表示第
i
i
i 个残差 Swin Transformer 块(RSTB),
H
C
O
N
V
H_{CONV}
HCONV 是最后一个卷积层。在特征提取的末尾使用卷积层可以将卷积操作的归纳偏差引入基于 Transformer 的网络中,并为后续浅层和深层特征的聚合打下更好的基础。
图像重建。 以图像超分辨率为例,我们通过聚合浅层和深层特征来重建高质量图像
I
R
H
Q
=
I
R
H
Q
=
H
R
E
C
(
F
0
+
F
D
F
)
I_{RHQ}=I_{RHQ}=H_{REC}(F_0+F_{DF})
IRHQ=IRHQ=HREC(F0+FDF)
其中
H
R
E
C
(
⋅
)
H_{REC}(·)
HREC(⋅) 是重建模块的函数。浅层特征主要包含低频信息,而深层特征专注于恢复丢失的高频信息。通过长的跳跃连接,SwinIR 可以直接将低频信息传递到重建模块,从而帮助深度特征提取模块集中在高频信息上并稳定训练。对于重建模块的实现,我们使用子像素卷积层 [68] 对特征进行上采样。对于不需要上采样的任务,如图像去噪和JPEG压缩伪影降低,我们使用单个卷积层进行重建。此外,我们使用残差学习来重建低质量图像和高质量图像之间的残差,而不是直接重建高质量图像。具体表达如下:
I
R
H
Q
=
H
S
w
i
n
I
R
(
I
L
Q
)
+
I
L
Q
I_{RHQ} = H_{SwinIR}(I_{LQ}) + I_{LQ}
IRHQ=HSwinIR(ILQ)+ILQ
其中
H
S
w
i
n
I
R
(
⋅
)
H_{SwinIR}(·)
HSwinIR(⋅) 表示SwinIR的函数。
损失函数。 对于图像超分辨率,我们通过最小化L1像素损失来优化SwinIR的参数:
L
=
∥
I
R
H
Q
−
I
H
Q
∥
1
\mathcal{L} = \| I_{RHQ} - I_{HQ} \|_1
L=∥IRHQ−IHQ∥1
其中
I
R
H
Q
I_{RHQ}
IRHQ 是将
I
L
Q
I_{LQ}
ILQ 作为SwinIR的输入得到的结果,
I
H
Q
I_{HQ}
IHQ 是相应的高质量图像。对于经典和轻量级图像超分辨率,我们仅使用朴素的L1像素损失,与以前的工作相同,以显示所提出的网络的有效性。对于实际图像超分辨率,我们使用像素损失、GAN损失和感知损失的组合 [81, 89, 80, 27, 39, 81] 来提高视觉质量。对于图像去噪和JPEG压缩伪影降低,我们使用Charbonnier损失 [8]:
L
=
∥
I
R
H
Q
−
I
H
Q
∥
2
+
ϵ
2
\mathcal{L} = \sqrt{ \|I_{RHQ} - I_{HQ}\|^2 + \epsilon^2 }
L=∥IRHQ−IHQ∥2+ϵ2
其中
ϵ
\epsilon
ϵ 是经验设置的常数,通常设为
1
0
−
3
10^{-3}
10−3。
3.2 残差Swin Transformer块
如图2(a) 所示,残差Swin Transformer块(RSTB)是一个带有Swin Transformer层和卷积层的残差块。
给定第
i
i
i 个RSTB的输入特征
F
i
,
0
F_{i,0}
Fi,0,我们首先通过 L个Swin Transformer层提取中间特征
F
i
,
1
,
F
i
,
2
,
…
,
F
i
,
L
F_{i,1},F_{i,2},\ldots,F_{i,L}
Fi,1,Fi,2,…,Fi,L,如下:
F
i
,
j
=
H
S
w
i
n
i
,
j
(
F
i
,
j
−
1
)
,
j
=
1
,
2
,
…
,
L
F_{i,j} = H_{Swin_{i,j}}(F_{i,j-1}), \quad j=1,2, \ldots , L
Fi,j=HSwini,j(Fi,j−1),j=1,2,…,L
其中
H
S
w
i
n
i
,
j
(
⋅
)
H_{Swin_{i,j}}(·)
HSwini,j(⋅)是第i个RSTB中的第
j
j
j 个Swin Transformer层。然后,在残差连接之前添加一个卷积层。RSTB的输出公式如下:
F
i
,
o
u
t
=
H
C
O
N
V
i
(
F
i
,
L
)
+
F
i
,
0
F_{i,out} = H_{CONV_i}(F_{i,L}) + F_{i,0}
Fi,out=HCONVi(Fi,L)+Fi,0
其中
H
C
O
N
V
i
(
⋅
)
H_{CONV_i}(·)
HCONVi(⋅)是第i个RSTB中的卷积层。这种设计有两个好处。首先,尽管Transformer可以被视为具有空间变化卷积的特定实例[21, 75],但具有空间不变滤波器的卷积层可以增强SwinIR的平移等变性。其次,残差连接提供了来自不同块到重建模块的短身份连接,允许不同级别特征的聚合。
Swin Transformer层。 Swin Transformer层(STL)[56]基于原始 Transformer 层[76]的标准多头自注意机制。主要的区别在于局部注意力和移动窗口机制。如图2(b) 所示,给定尺寸为
H
×
W
×
C
H \times W \times C
H×W×C的输入,Swin Transformer首先通过将输入分成非重叠的
M
×
M
M \times M
M×M局部窗口来将输入重新整形为
H
W
/
(
M
2
)
×
M
2
×
C
HW/ (M^2)\ \times \ M^2\ \times \ C
HW/(M2) × M2 × C 的特征,其中
H
W
/
(
M
2
)
HW/(M^2)
HW/(M2)是窗口的总数。然后,它分别为每个窗口(即局部注意力)计算标准的自注意力。对于局部窗口特征
X
∈
R
M
2
×
C
X \in R^{M^2 \times C}
X∈RM2×C,计算查询,键和值矩阵
Q
,
K
Q,K
Q,K和
V
V
V如下:
Q
=
X
P
Q
,
K
=
X
P
K
,
V
=
X
P
V
Q = XP_Q, \quad K = XP_K, \quad V = XP_V
Q=XPQ,K=XPK,V=XPV
其中
P
Q
,
P
K
P_Q, P_K
PQ,PK和
P
V
P_V
PV是在不同窗口之间共享的投影矩阵。通常我们有
Q
,
K
,
V
∈
R
M
2
×
d
Q, K, V \in \R^{M^2 \times d}
Q,K,V∈RM2×d。因此,通过局部窗口中的自注意机制计算注意矩阵如下:
Attention
(
Q
,
K
,
V
)
=
SoftMax
(
Q
K
T
/
d
+
B
)
V
\text {Attention}(Q,K,V) = \text {SoftMax}(QK^T/\sqrt{d} + B)V
Attention(Q,K,V)=SoftMax(QKT/d+B)V
其中
B
B
B是可学习的相对位置编码。在实践中,遵循[76],我们同时并行地进行
h
h
h 次注意力计算,并将结果连接起来以获得多头自注意力(MSA)。
接下来,我们使用一个多层感知机(MLP),其中间有两个全连接层,它们之间使用GELU非线性激活函数进行特征变换。在MSA和MLP之前都添加了LayerNorm(LN)层,并对两个模块都使用了残差连接。整个过程公式化如下:
X
=
M
S
A
(
L
N
(
X
)
)
+
X
,
X
=
M
L
A
(
L
N
(
X
)
)
+
X
.
X = MSA(LN(X))+X,\\X = MLA(LN(X))+X.
X=MSA(LN(X))+X,X=MLA(LN(X))+X.
然而,当对不同层次固定分区时,局部窗口之间没有连接。因此,需要交替使用常规和偏移窗口分区以实现跨窗口连接[56],其中偏移窗口分区意味着在分区之前将特征向右和向下移动 ( ⌊ M / 2 ⌋ , ⌊ M / 2 ⌋ ) (⌊M/2⌋, ⌊M/2⌋) (⌊M/2⌋,⌊M/2⌋)个像素。
四、 实验
4.1 实验设置
对于经典图像超分辨率、实际图像超分辨率、图像去噪和JPEG压缩伪影降低,通常将RSTB数量、STL数量、窗口大小、通道数量和注意力头数设置为6、6、8、180 和 6 。唯一的例外是JPEG压缩伪影降低,窗口大小设置为 7 ,因为我们观察到在使用 8 时性能显著下降,可能是因为JPEG编码使用 8×8 的图像分区。对于轻量级图像超分辨率,我们将RSTB数量和通道数量减少到 4 和 60 。遵循[95, 63],当在测试中使用自我集成策略[51]时,我们用符号“+”标记模型,例如SwinIR+。训练和评估的详细信息在附录中提供。
4.2 消融研究和讨论
对于消融研究,我们在DIV2K [1]上训练SwinIR进行经典图像超分辨率(×2),并在Manga109 [60]上进行测试。通道数量、RSTB数量和STL数量的影响: 在图3(a)、3(b)和3(c) 中展示了通道数量、RSTB数量和RSTB中STL数量对模型性能的影响。观察到PSNR与这三个超参数呈正相关关系。尽管对于较大的通道数量,性能会持续提高,但总参数数量会呈二次增长。为了在性能和模型大小之间取得平衡,我们选择将通道数量设为180进行后续实验。至于RSTB数量和层次数量,性能提升趋于逐渐饱和。我们选择将两者都设为 6 以获得一个相对较小的模型。
补丁大小和训练图像数量的影响;模型收敛比较: 我们将提出的SwinIR与代表性的基于CNN的模型RCAN进行比较,以探索基于Transformer和基于CNN的模型之间的差异。从**图3(d)**可以看出,SwinIR在不同的补丁大小上的性能优于RCAN,当补丁大小较大时,PSNR增益更大。图3(e) 展示了训练图像数量的影响。在训练中,当百分比大于100%(800张图像)时,会使用来自Flickr2K的额外图像。有两个观察结果。首先,如预期的那样,SwinIR的性能随着训练图像数量的增加而提高。其次,与在IPT中观察到的情况不同,基于Transformer的模型不依赖于大量训练数据,即使数据集很小(即25%,200张图像),SwinIR也能比使用相同训练数据的基于CNN的模型取得更好的结果。我们还在 图3(f) 中绘制了SwinIR和RCAN的训练过程中的PSNR。很明显,SwinIR的收敛速度比RCAN更快且更好,这与以前的观察相矛盾,因为基于Transformer的模型通常会遭受较慢的模型收敛。
RSTB中的残差连接和卷积层的影响。 表1展示了RSTB中四种残差连接变体:没有残差连接,使用1×1卷积层,使用3×3卷积层和使用三个3×3卷积层(中间层的通道数设为网络通道数的四分之一)。
设计 | 无残差 | 1 × 1卷积 | 3 × 3卷积 | 三个3 × 3卷积 |
---|---|---|---|---|
PSNR | 39.42 | 39.45 | 39.58 | 39.56 |
从表中可以得到以下观察结果。首先,RSTB中的残差连接很重要,因为它可以将PSNR提高0.16dB。其次,使用1×1卷积只带来了微小的改善,可能是因为它不能像3×3卷积那样提取局部邻域信息。第三,虽然使用三个3×3卷积层可以减少参数数量,但性能略有下降。
4.3. 图像超分辨率结果
经典图像超分辨率。 表2显示了SwinIR(中等尺寸)与最先进方法(DBPN [31]、RCAN [95]、RRDB [81]、SAN [15]、IGNN [100]、HAN [63]、NLSA [61]和IPT [9])之间的定量比较结果。
可以看到,在DIV2K上训练时,SwinIR在几乎所有五个基准数据集以及所有尺度因子上都取得了最佳性能。在Manga109上,尺度因子为4时,最大PSNR提升达到了0.26dB。值得注意的是,RCAN和HAN引入了通道和空间注意力,IGNN提出了自适应块特征聚合,NLSA基于非局部注意力机制。然而,所有这些基于CNN的注意机制的性能都不如所提出的基于Transformer的SwinIR,这表明了所提出模型的有效性。当我们在一个更大的数据集上训练SwinIR时,性能进一步大幅提高(高达0.47dB),甚至比相同基于Transformer的模型IPT的准确度更高,即使IPT在训练中使用了ImageNet(超过130万张图像)并拥有庞大的参数数量(115.5M)。相比之下,即使与最先进的基于CNN的模型相比(15.4∼44.3M),SwinIR的参数数量也很小(11.8M)。至于运行时,代表性的基于CNN的模型RCAN、IPT和SwinIR在1,024×1,024的图像上测试时分别需要约0.2、4.5秒和1.1秒。我们在图4中展示了尺度因子为4时的视觉比较结果。
SwinIR可以恢复高频细节并减轻模糊伪影,从而产生锐利自然的边缘。相比之下,大多数基于CNN的方法不能恢复正确的纹理,产生模糊的图像甚至不同的结构。IPT相对于基于CNN的方法生成了更好的图像,但它会受到图像失真和边缘伪影的影响。
轻量级图像超分辨率。 我们还将SwinIR(小尺寸)与最先进的轻量级图像超分辨率方法进行了比较:CARN [2]、FALSR-A [12]、IMDN [35]、LAPAR-A [44]和LatticeNet [57]。除了PSNR和SSIM之外,我们还报告了参数总数和乘加运算次数(在1280×720的高清图像上进行评估),以比较不同模型的模型大小和计算复杂度。如表3所示,SwinIR在不同基准数据集上的PSNR比竞争对手的方法高出最多0.53dB,且具有类似的参数总数和乘加运算次数。这表明SwinIR架构非常高效。
实际图像超分辨率。 图像超分辨率的最终目标是实际应用。最近,Zhang等人[89]提出了一个实用的退化模型BSRGAN用于实际图像超分辨率,并在实际场景中取得了令人惊讶的结果。为了测试SwinIR在实际超分辨率中的性能,我们重新使用了与BSRGAN相同的退化模型进行低质量图像合成,并在实际超分辨率基准数据集RealSRSet [89]上进行了测试。由于没有高质量参考图像,我们只提供了与代表性的双三次模型ESRGAN [81]以及最先进的实际图像超分辨率模型FSSR [24]、RealSR [37]和BSRGAN [89]的视觉比较。如图5所示,SwinIR生成了视觉上令人愉悦的图像,具有清晰锐利的边缘,而其他比较方法可能会遭受不令人满意的伪影。
此外,为了充分发挥SwinIR在实际应用中的潜力,我们进一步提出了一个大型模型,并在更大的数据集上进行训练。实验证明,它可以处理更复杂的损坏,并在实际图像上取得比当前模型更好的性能。由于篇幅限制,详细信息请参见我们的项目页面https://github.com/JingyunLiang/SwinIR。
4.4. JPEG压缩伪影减少结果
表4显示了SwinIR与最先进的JPEG压缩伪影减少方法的比较结果:ARCNN [17]、DnCNN-3 [90]、QGAC [20]、RNAN [96]、RDN [98]和DRUNet [88]。
所有比较的方法都是基于CNN的模型。按照[98, 88]的做法,我们在两个基准数据集(Classic5 [22]和LIVE1 [67])上测试不同质量因子(10、20、30和40)的不同方法。==正如我们所看到的,所提出的SwinIR在两个测试数据集上对于不同质量因子至少有0.11dB和0.07dB的平均PSNR增益。==此外,与之前最佳模型DRUNet相比,SwinIR只有11.5M个参数,而DRUNet是一个具有32.7M个参数的大型模型。
4.5. 图像降噪结果
我们在表5和表6中展示了灰度图像和彩色图像降噪的结果,比较的方法包括传统模型BM3D [14]和WNNM [29],基于CNN的模型DnCNN [90]、IRCNN [91]、FFDNet [92]、N3Net [65]、NLRN [52]、FOCNet [38]、RNAN [96]、MWCNN [54]和DRUNet [88]。
按照[90, 88]的做法,比较的噪声水平包括15、25和50。正如我们所看到的,我们的模型在所有比较的方法中都取得了更好的性能。特别是,在包含100张高分辨率测试图像的大型Urban100数据集上,我们的模型比最先进的模型DRUNet的性能提高了高达0.3dB。值得指出的是,SwinIR只有12.0M的参数,而DRUNet有32.7M的参数。这表明了SwinIR架构在学习恢复的特征表示方面非常高效。
灰度图像和彩色图像降噪的不同方法的视觉比较如图6和图7所示。
正如我们所看到的,我们的方法可以去除严重的噪声污染并保留高频图像细节,从而产生更锐利的边缘和更自然的纹理。相比之下,其他方法要么过于平滑,要么过于锐利,无法恢复丰富的纹理。
五、结论
在本文中,我们提出了基于Swin Transformer的图像恢复模型SwinIR。该模型由浅层特征提取、深层特征提取和高分辨率重构模块组成。特别地,我们使用一堆残差型Swin Transformer块(RSTB)进行深层特征提取,每个RSTB由Swin Transformer层、卷积层和残差连接组成。大量实验证明,SwinIR在三个代表性的图像恢复任务和六种不同的设置下均取得了最先进的性能:经典图像超分辨率、轻量级图像超分辨率、实际场景图像超分辨率、灰度图像去噪、彩色图像去噪和JPEG压缩伪影减少,这证明了所提出的SwinIR模型的有效性和通用性。在未来,我们将将模型扩展到其他恢复任务,如图像去模糊和去雨水。