Learning Texture Transformer Network for Image Super-Resolution(CVPR2020)

原文链接


Abstract

我们研究图像超分辨率(SR),旨在从低分辨率(LR)图像中恢复逼真的纹理。最近通过以高分辨率图像作为参考(Ref)取得了进展,以便可以将相关纹理转移到 LR 图像。然而,现有的 SR 方法忽略了使用注意力机制从 Ref 图像中传输高分辨率 (HR) 纹理,这在具有挑战性的情况下限制了这些方法。在本文中,我们提出了一种新颖的用于图像超分辨率 (TTSR) 的纹理变换器网络,其中 LR 和 Ref 图像分别表示为变换器中的查询和键。TTSR 由四个密切相关的模块组成,这些模块针对图像生成任务进行了优化,包括 DNN 的可学习纹理提取器、相关嵌入模块、用于纹理转移的硬注意模块和用于纹理合成的软注意模块。这种设计鼓励跨 LR 和 Ref 图像的联合特征学习,其中可以通过注意力发现深层特征对应,从而可以转移准确的纹理特征。所提出的纹理变换器可以以跨尺度方式进一步堆叠,从而能够从不同级别(例如,从 1 倍到 4 倍放大率)进行纹理恢复。大量实验表明,TTSR 在定量和定性评估方面都比最先进的方法取得了显着改进。

源代码下载地址


1、Introduction

图像超分辨率旨在从退化的低分辨率图像中恢复高分辨率图像的自然和逼真的纹理。最近图像SR的成功可以为了更好的用户体验极大提升媒体内容的质量。例如,用于移动相机的数字变焦算法和用于数字电视的图像增强技术。此外,这项基础技术可以使广泛的计算机视觉任务受益,例如医学成像 和卫星成像。

图像超分辨率的研究通常在两种范式上进行,包括单图像超分辨率(SISR)和基于参考的图像超分辨率(RefSR)。传统 SISR 经常导致模糊效果,因为高分辨率(HR)纹理在退化过程中被过度破坏,无法恢复。尽管提出了基于生成对抗网络 (GAN)的图像 SR 方法来缓解上述问题,但由 GAN 引起的幻觉和伪影进一步对图像 SR 任务提出了巨大挑战。

基于参考的图像超分辨率 (RefSR) 取得了最新进展,它从给定的参考图像中转移 HR 纹理以产生视觉上令人愉悦的结果。然而,最先进的(SOTA)方法通常采用直接的方式来传输纹理,这可能会导致不满意的 SR 图像(如图 1 所示)。例如,zheng等人 [43] 采用基于流的方法,当面对 LR 和 Ref 图像之间的大视点变化时,通常会搜索和传输不准确的纹理(用红色表示)。zhang等人 [41]采用由预训练分类模型定义的特征空间来搜索和传输LR和Ref图像之间的纹理。然而,这种高级语义特征不能有效地表示 HR 纹理,这仍然会产生难以置信的结果。

在这里插入图片描述
为了解决这些问题,我们提出了一种新颖的用于图像超分辨率 (TTSR) 的纹理变换器网络。具体来说,提出了四个针对图像生成任务优化的密切相关的模块。首先,我们提出了一种可学习的纹理提取器,其中参数将在端到端训练期间更新。这样的设计能够实现 LR 和 Ref 图像的联合特征嵌入,这为在 SR 任务中应用注意力机制奠定了坚实的基础。其次,我们提出了一个相关嵌入模块来计算 LR 和 Ref 图像之间的相关性。更具体地说,我们将从 LR 和 Ref 图像中提取的特征表示为转换器 [31] 中的查询和键,以获得硬注意力图和软注意力图。最后,我们提出了一个 hard-attention 模块和一个 soft-attention 模块,通过注意力图将 Ref 图像中的 HR 特征转换和融合到从主干提取的 LR 特征中。 TTSR 的设计鼓励一种更准确的方式来搜索和传输相关纹理从 Ref 到 LR 图像。

此外,我们提出了一个跨尺度特征集成模块来堆叠纹理变换器,其中在不同尺度(例如,从 1× 到 4×)学习特征以实现更强大的特征表示。如图 1 所示,整体设计使我们的 TTSR 能够从 Ref 图像(由绿色表示)中搜索和传输相关纹理,与 SOTA 方法相比,这实现了更好的视觉效果。本文的主要贡献是:

  • 据我们所知,我们是最早将 transformer 架构引入图像生成任务的人之一。更具体地说,我们提出了一种纹理转换器,它具有四个密切相关的图像 SR 模块,与 SOTA 方法相比有了显着的改进。
  • 我们为图像生成任务提出了一种新颖的跨尺度特征集成模块,它使我们的方法能够通过堆叠多个纹理转换器来学习更强大的特征表示。

2、Related Work

在本节中,我们回顾了与我们的工作最相关的单图像超分辨率(SISR)和基于参考的图像超分辨率(RefSR)的先前工作。

2.1 单图像超分辨率

近年来,基于深度学习的 SISR 方法比传统的基于非学习的方法取得了显着的进步。 SISR 中基于深度学习的方法将此问题视为密集图像回归任务,该任务在 LR 和 HR 图像之间学习由 CNN 表示的端到端图像映射函数。Dong等人 提出了 SRCNN,它首先将深度学习引入 SISR,使用三层 CNN 来表示映射函数。后来通过用原始 LR 图像替换插值 LR 图像并在最后一层使用反卷积来放大特征图,进一步加快了 SR 过程。不久之后,Kim 等人提出了具有更深层次残差学习网络的 VDSR 和 DRCN 。Shi等人用亚像素卷积层替换了反卷积,以减少棋盘伪影。残差块 在 SRResNet 中被引入 SISR,并在 EDSR中得到改进。在残差块的帮助下,许多工作都集中在设计更深或更宽的网络。Zhang等人和Tong等人采用密集块[10]来组合来自不同级别的特征。Zhang等人通过增加通道注意力来改进残差块。Liu等人 提出了一种用于图像恢复的非局部循环网络。Dai等人引入了二阶统计数据,以实现更具区分性的特征表示。

上述方法使用均方误差(MSE)或平均绝对误差(MAE)作为目标函数,忽略了人类感知。近年来,越来越多的工作旨在提高感知质量。Johnson等人在 SR 任务中引入了感知损失,而 SRGAN 采用了生成对抗网络 (GAN) 并显示出视觉上令人满意的结果。Sajjadi等人 使用基于 Gram 矩阵的纹理匹配损失来强制执行局部相似纹理,而 ESRGAN 通过引入具有相对论对抗性损失的 RRDB 来增强 SRGAN。最近提出的 RSRGAN 训练了一个排名器并使用排名内容损失来优化感知质量,从而实现了最先进的视觉效果。

2.2 基于参考的图像超分辨率

与 SISR 不同,RefSR 可以从 Ref 图像中获取更准确的细节。这可以通过几种方法来完成,例如图像对齐或补丁匹配。一些现有的 RefSR 方法选择对齐 LR 和 Ref 图像。 Landmark 通过全局配准将 Ref 图像与 LR 图像对齐,以解决能量最小化问题。Wang等人 通过在特征合成之前反复应用非均匀翘曲来增强 Ref 图像。 CrossNet 采用光流来对齐不同尺度的 LR 和 Ref 图像,并将它们连接到解码器的相应层中。然而,这些方法的性能很大程度上取决于 LR 和 Ref 图像之间的对齐质量。此外,光流等对齐方法耗时长,不利于实际应用。

其他 RefSR 方法]采用“补丁匹配”方法来搜索正确的参考信息。Boominathan等人匹配了 LR 的梯度特征和下采样的 Ref 图像之间的补丁。Zheng等用卷积神经网络中的特征替换简单的梯度特征来应用语义匹配,并使用SISR方法进行特征合成。最近的工作 SRNTT 在 LR 和 Ref 图像的 VGG 特征之间应用补丁匹配来交换相似的纹理特征。然而,SRNTT 忽略了原始特征和交换特征之间的相关性,并将所有交换特征平等地馈送到主网络中。

为了解决这些问题,我们提出了一个纹理变换器网络,它使我们的方法能够搜索并将相关纹理从 Ref 传输到 LR 图像。此外,我们的方法的性能可以通过将多个纹理变换器与提出的跨尺度特征集成模块堆叠在一起来进一步提高。


3、Approach

在本节中,我们介绍了提出的用于图像超分辨率 (TTSR) 的纹理变换器网络。在纹理转换器之上,我们提出了一个跨尺度特征集成模块(CSFI)来进一步提高模型性能。纹理转换器和 CSFI 将分别在第 3.1 节和第 3.2 节中讨论。用于优化建议网络的一组损失函数将在第 3.3 节中解释。

3.1 纹理转换器

纹理变换器的结构如图2所示。LR、LR↑和Ref分别代表输入图像、4×双三次上采样输入图像和参考图像。我们在 Ref 上依次应用相同因子 4 倍的双三次下采样和上采样,以获得与 LR↑ 域一致的 Ref↓↑。纹理变换器以Ref、Ref↓↑、LR↑和主干产生的LR特征为输入,输出合成的特征图,进一步用于生成HR预测。纹理转换器有四个部分:可学习纹理提取器(LTE)、相关嵌入模块(RE)、用于特征转移的硬注意模块(HA)和用于特征合成的软注意模块(SA)。细节将在下面讨论。

在这里插入图片描述

可学习的纹理提取器
在 RefSR 任务中,参考图像的纹理提取是必不可少的,因为准确和适当的纹理信息将有助于 SR 图像的生成。我们没有使用由 VGG 等预训练分类模型提取的语义特征,而是设计了一个可学习的纹理提取器,其参数将在端到端训练期间更新。这样的设计鼓励跨 LR 和 Ref 图像的联合特征学习,其中可以捕获更准确的纹理特征。纹理提取的过程可以表示为:

Q = L T E ( L R ↑ ) (1) Q=LTE(LR\uparrow)\tag{1} Q=LTE(LR)(1)
K = L T E ( R e f ↓ ↑ ) (2) K = LTE(Ref\downarrow\uparrow)\tag{2} K=LTE(Ref)(2)
V = L T E ( R e f ) (3) V=LTE(Ref)\tag{3} V=LTE(Ref)(3)

其中 L T E ( . ) LTE(.) LTE(.)表示我们的可学习纹理提取器的输出。提取的纹理特征 Q Q Q(查询)、 K K K(键)和 V V V(值)表示 transformer 内部注意机制的三个基本元素,并将在我们的相关嵌入模块中进一步使用。

相关嵌入
相关嵌入旨在通过估计 Q Q Q K K K 之间的相似性来嵌入 LR 和 Ref 图像之间的相关性。我们将 Q Q Q K K K 展开为块,表示为 q i ( i ∈ [ 1 , H L R × W L R ] ) q_i(i\in[1,H_{LR}\times W_{LR}]) qi(i[1,HLR×WLR]) k j ( j ∈ [ 1 , H R e f × W R e f ] ) k_j(j\in[1,H_{Ref}\times W_{Ref}]) kj(j[1,HRef×WRef])。然后对于 Q Q Q中的每个补丁 q i q_i qi K K K中的 k j k_j kj,我们通过归一化内积来计算这两个补丁之间的相关性 r ( i , j ) r_(i,j) r(i,j):
r i , j = ⟨ q i ∣ ∣ q i ∣ ∣ , k j ∣ ∣ k j ∣ ∣ ⟩ (4) r_{i,j}=\langle \frac {q_i}{||q_i||},\frac {k_j}{||k_j||}\rangle \tag{4} ri,j=qiqi,kjkj(4)
相关性进一步用于获得硬注意力图和软注意力图。

Hard-Attention
我们提出了一个 hard-attention 模块来从 Ref 图像中转移 HR 纹理特征 V。传统的注意力机制对每个查询 qi 取 V 的加权和。然而,这样的操作可能会导致模糊效果,缺乏传递HR纹理特征的能力。因此,在我们的硬注意力模块中,我们只为每个查询 qi 从 V 中最相关的位置转移特征。

更具体地说,我们首先计算一个 hard-attention 图 H H H ,其中第 i i i个元素 h i ( i ∈ [ 1 , H L R × W L R ] ) h_i(i \in [1, H_{LR} \times W_{LR}]) hi(i[1,HLR×WLR]) 由相关性 r i , j r_{i,j} ri,j 计算得出:
h i = a r g m a x r i , j (5) h_i=argmax r_{i,j}\tag{5} hi=argmaxri,j(5)

h i h_i hi的值可以看作是一个硬索引,它表示 Ref 图像中的位置与 LR 图像中的第 i 个位置最相关。为了从 Ref 图像中获得转移的 HR 纹理特征 T T T,我们使用硬注意力图作为索引对 V 的展开块应用索引选择操作:
t i = v h i (6) t_i=v_{h_i}\tag{6} ti=vhi(6)

其中 t i t_i ti 表示 T T T 在第 i i i 个位置的值,它是从 V V V 的第 i i i个位置中选择的。

结果,我们获得了 LR 图像的 HR 特征表示 T T T,它将在我们的软注意力模块中进一步使用。

Soft-Attention.

我们提出了一个软注意力模块,用于从转移的 HR 纹理特征 T T T 和来自 DNN 主干的 LR 图像的 LR 特征 F F F 合成特征。在合成过程中,应该增强相关的纹理转移,而应该重新体验不太相关的纹理转移。为了实现这一点,从 r i , j r_{i,j} ri,j 计算出一个软注意力图 S S S,以表示 T T T 中每个位置的传输纹理特征的置信度:
s i = m a x   r i , j (7) s_i=max\space r_{i,j}\tag{7} si=max ri,j(7)

其中 s i s_i si 表示软注意力图 S S S 的第 i i i个位置。我们不是直接将注意力图 S S S 应用于 T T T ,而是首先将 HR 纹理特征 T T T 与 LR 特征 F F F 融合,以利用来自 LR 图像的更多信息。这些融合特征进一步逐元素乘以软注意力图 S S S 并加回 F F F 以获得纹理转换器的最终输出。这个操作可以表示为:
F o u t = F + C o n v ( C o n c a t ( F , T ) ) ⋅ S (8) F_{out}=F+Conv(Concat(F,T))\cdot S\tag{8} Fout=F+Conv(Concat(F,T))S(8)

其中 F o u t F_{out} Fout 表示合成的输出特征。 C o n v Conv Conv C o n c a t Concat Concat 分别表示卷积层和 C o n c a t e n a t i o n Concatenation Concatenation 操作 。 ⋅ \cdot 表示特征图之间的逐元素乘法。
总之,纹理变换器可以有效地将相关 HR 纹理特征从 Ref 图像转换为 LR 特征,从而促进更准确的纹理生成过程。

3.2 跨尺度特征集成

我们的纹理转换器可以通过跨尺度特征集成模块以跨尺度方式进一步堆叠。架构如图 3 所示。堆叠纹理转换器输出三个分辨率尺度(1×、2× 和 4×)的合成特征,从而可以将不同尺度的纹理特征融合到 LR 图像中。为了在不同尺度上学习更好的表示,受 [25, 37] 的启发,我们提出了一个跨尺度特征集成模块(CSFI)来在不同尺度的特征之间交换信息。每次将 LR 特征上采样到下一个比例时,都会应用一个 CSFI 模块。对于 CSFI 模块内的每个尺度,它通过上/下采样从其他尺度接收交换的特征,然后在通道维度上进行连接操作。然后卷积层将特征映射到原始通道数。在这样的设计中,从堆叠的纹理转换器传输的纹理特征在每个尺度上进行交换,从而实现了更强大的特征表示。这种跨尺度特征集成模块进一步提高了我们方法的性能。
在这里插入图片描述

3.3 损失函数

我们的方法中有 3 个损失函数。整体损失可以解释为:
L o v e r a l l = λ r e c L r e c + λ a d v L a d v + λ p e r L p e r (9) L_{overall}=\lambda _{rec}L_{rec}+\lambda _{adv}L_{adv}+\lambda_{per}L_{per}\tag{9} Loverall=λrecLrec+λadvLadv+λperLper(9)
重建损失。第一个损失是重建损失:
L r e c = 1 C H W ∣ ∣ I H R − I S R ∣ ∣ 1 (10) L_{rec}=\frac{1}{CHW}||I^{HR}-I^{SR}||_1\tag{10} Lrec=CHW1IHRISR1(10)
其中 (C, H, W ) 是 HR 的大小。我们使用 L1 损失,与 L2 损失相比,它已被证明在性能方面更清晰,更容易收敛。

对抗性损失。生成对抗网络被证明在生成清晰且视觉上有利的图像方面是有效的。在这里,我们采用 WGAN-GP ,它提出了梯度范数的惩罚来代替权重裁剪,从而使训练更稳定,性能更好。这种损失可以解释为:

在这里插入图片描述
感知损失。感知损失已被证明可用于提高视觉质量,并已在 [13, 16, 22, 41] 中使用。感知损失的关键思想是增强预测图像和目标图像在特征空间中的相似性。这里我们的感知损失包含两部分:
在这里插入图片描述
其中第一部分是传统的感知损失,其中 ϕ i v g g ( ⋅ ) \phi_{i}^{vgg}(\cdot) ϕivgg()表示VGG19的第 i i i 层的特征图, ( C i , H i , W i ) (C_i, H_i, W_i) (Ci,Hi,Wi)表示该层特征图的形状。 I S R I_{SR} ISR 是预测的 SR 图像。我们的感知损失的第二部分是转移感知损失,其中 ϕ j l t e ( ⋅ ) \phi_j^{lte}(\cdot) ϕjlte() 表示从提议的 L T E LTE LTE 的第 j j j层提取的纹理特征图, ( C j , H j , W j ) (C_j, H_j, W_j) (Cj,Hj,Wj) 表示该层的形状。 T T T 是图 2 中转移的 HR 纹理特征。这种转移感知损失限制了预测的 SR 图像具有与转移的纹理特征 T 相似的纹理特征,这使得我们的方法可以更有效地转移 Ref 纹理。

3.4 实施细节

可学习的纹理提取器包含 5 个卷积层和 2 个池化层,它们以三种不同的尺度输出纹理特征。为了减少时间和 GPU 内存的消耗,相关嵌入只应用于最小的尺度,并进一步传播到其他尺度。对于鉴别器,我们采用 SRNTT [41] 中使用的相同网络并删除所有 BN 层。

在训练期间,我们通过随机水平和垂直翻转,然后随机旋转 90°、180° 和 270° 来增强训练图像。每个 mini-batch 包含 9 个大小为 40 × 40 的 LR 补丁以及 9 个大小为 160 × 160 的 HR 和 Ref 补丁。 L r e c L_{rec} Lrec L a d v L_{adv} Ladv L p e r L_{per} Lper 的权重系数分别为 1、1e-3 和 1e-2。 使用Adam 优化器 β1 = 0.9、β2 = 0.999 和 ϵ = 1 e − 8 \epsilon=1e-8 ϵ=1e8,学习率为 1e-4。我们首先将网络预热 2 个 epoch,其中仅应用 L r e c L_{rec} Lrec。之后,所有损失都涉及到再训练 50 个 epoch。


4、Experiments

4.1 数据集和指标

为了评估我们的方法,我们在最近提出的 RefSR 数据集 CUFED5 [41] 上训练和测试我们的模型。 CUFED5 中的训练集包含 11,871 对,每对由输入图像和参考图像组成。 CUFED5测试集中有126张测试图像,每张都附有4张相似度不同的参考图像。为了评估在 CUFED5 上训练的 TTSR 的泛化性能,我们还在 Sun80 [26]、Urban100 [11] 和 Manga109 [20] 上测试了 TTSR。 Sun80 包含 80 张自然图像,每张都与几张参考图像配对。对于 Urban100,我们使用与 [41] 相同的设置将其 LR 图像视为参考图像。由于 Urban100 都在构建具有强自相似性的图像,因此这样的设计可以实现自相似搜索和迁移的显式过程。对于同样缺少参考图像的 Manga109,我们在该数据集中随机抽取 HR 图像作为参考图像。因为这个数据集是由线条、曲线和平坦的彩色区域构成的,这些都是常见的模式。即使使用随机挑选的 HR Ref 图像,我们的方法仍然可以利用这些常见模式并取得良好的效果。 SR 结果在 YCbCr 空间的 Y 通道上的 PSNR 和 SSIM 上进行评估。

4.2 评价

为了评估 TTSR 的有效性,我们将我们的模型与其他最先进的 SISR 和 RefSR 方法进行了比较。 SISR方法包括SRCNN [3]、MDSR [17]、RDN [40]、RCAN [39]、SRGAN [16]、ENet [22]、ESRGAN [32]、RSRGAN [38],其中RCAN已经实现了state近年来在 PSNR 和 SSIM 上的最先进性能。 RSRGAN 被认为可以实现最先进的视觉质量。至于 RefSR 方法,CrossNet [43] 和 SRNTT [41] 是最近两种最先进的方法,其性能明显优于以前的 RefSR 方法。所有实验均在 LR 和 HR 图像之间以 4 倍的比例因子进行。

定量评价。为了公平比较,我们按照 SRNTT [41] 中的设置在 CUFED5 训练集上来训练所有方法,在 CUFED5 测试集、Sun80、Urban100 和 Manga109 数据集上进行测试。对于 SR 方法,有一个事实是,对抗性损失的训练通常可以获得更好的视觉质量,但会减少 PSNR 和 SSIM 的数量。因此,我们训练了我们模型的另一个版本,该版本仅针对名为 TTSR-rec 的重建损失进行了优化,以便在 PSNR 和 SSIM 上进行公平比较。

表1显示了定量评价结果。红色数字表示最高分,蓝色数字表示第二高分。如比较结果所示,TTSR-rec 在所有四个测试数据集上都显着优于最先进的 SISR 方法和最先进的 RefSR 方法。在旨在通过对抗性损失获得更好视觉质量的方法中,我们的模型在 Sun80 和 Manga109 数据集上仍然具有最佳性能。在另外两个数据集 CUFED5 和 Urban100 上,我们的模型实现了与最先进模型相当的性能。定量比较结果证明了我们提出的 TTSR 优于最先进的 SR 方法。
在这里插入图片描述
定性评价。我们的模型在视觉质量上也达到了最佳性能,如图 5 所示。TTSR 可以从参考图像中传输更准确的 HR 纹理以产生有利的结果,如图 5 中的前三个示例所示。即使参考图像不是与输入图像全局相关,我们的 TTSR 仍然可以从局部区域提取更精细的纹理,并将有效的纹理转移到预测的 SR 结果中,如图 5 中的最后三个示例所示。
在这里插入图片描述
为了进一步验证我们方法的卓越视觉质量,我们进行了一项用户研究,将 TTSR 与四种 SOTA 方法进行了比较,包括 RCAN [39]、RSRGAN [38]、CrossNet [43] 和 SRNTT [41]。该用户研究涉及 10 名受试者,在 CUFED5 测试集上收集了 2,520 票。对于每个比较过程,我们为用户提供两张图像,其中包括一张 TTSR 图像。要求用户选择具有更高视觉质量的那个。图 4 显示了我们的用户研究结果,其中 Y 轴上的值表示比其他方法更喜欢 TTSR 的用户百分比。正如我们所看到的,所提出的 TTSR 明显优于其他方法,超过 90% 的用户投票支持我们的方法,这验证了 TTSR 良好的视觉质量。
在这里插入图片描述

4.3 消融实验

在本节中,我们验证了我们方法中不同模块的有效性,包括纹理变换器、跨尺度特征集成、对抗性损失和转移感知损失。此外,我们还讨论了不同参考相似度对 TTSR 的影响。

纹理转换器。我们的纹理转换器主要包含四个部分:可学习纹理提取器(LTE)、相关嵌入模块、用于特征转移的硬注意力模块(HA)和用于特征合成的软注意力模块(SA)。消融结果如表 2 所示。我们通过仅移除所有 BN 层和 Ref 部分来重新实现 SRNTT [41] 作为我们的“基础”模型。在基线模型之上,我们逐步添加 HA、SA 和 LTE。没有 LTE 的模型使用 VGG19 特征进行相关嵌入。我们可以看到,当添加 HA 时,PSNR 性能可以从 26.34 提高到 26.59,这验证了 hard-attention 模块对特征迁移的有效性。当涉及到 SA 时,相关的纹理特征将被增强,而不太相关的纹理特征将在特征合成过程中得到缓解。这进一步将性能提升到 26.81。当用提议的 LTE 替换 VGG 时,PSNR 最终增加到 26.92,这证明了联合特征嵌入在 LTE 中的优越性。
在这里插入图片描述
为了进一步验证我们的 LTE 的有效性,我们使用硬注意力图来传输原始图像。预计更好的特征表示可以从原始图像中传输更准确的纹理。图 6 显示了 SRNTT 中的 VGG19 和 TTSR 中的 LTE 传输的原始图像。在该图中,TTSR 可以传输更准确的参考纹理并生成全局有利的结果,这进一步证明了我们的 LTE 的有效性。
在这里插入图片描述
跨尺度特征集成。在纹理转换器之上,CSFI 可以进一步实现从不同分辨率尺度(1×、2× 和 4×)的纹理恢复。我们在表 3 中进行了消融研究。第一行显示了我们的模型仅使用 TT 的性能,而第二行证明了 CSFI 的有效性,它带来了 0.17 PSNR 指标的增加。为了验证性能提升不是由参数大小的增加带来的,我们将“Base+TT”模型的通道数增加到 80 和 96。可以看到,“Base+TT”几乎没有增长(C80)”,其参数编号与“Base+TT+CFI”几乎相同。即使我们将参数数量增加到 9.10M 以获得“Base+TT(C96)”模型,仍然存在性能差距。这表明 CSFI 可以以相对较小的参数大小有效地利用参考纹理信息。

对抗性损失。确保感知质量的提高受益于模型设计而不是对抗性损失。我们在“Baserec”、“Base”、TTSR-rec 和 TTSR 之间进行消融,其中 TTSR 可以解释为“Base+TT+CSFI”,“-rec”表示只有重建损失的训练。图 7 显示,即使没有感知和对抗性损失,TTSR-rec 仍然可以利用 Ref 图像并恢复比“Base-rec”更多的细节。启用所有损失后,TTSR 可实现最佳视觉效果。

转移感知损失。传输感知损失限制了预测 SR 图像和传输图像 T 之间的 LTE 特征相似。如图 8 所示,使用这种损失能够以更有效的方式传输纹理,从而获得视觉上令人愉悦的结果。此外,这种损失还将 TTSR 的量化指标 PSNR 和 SSIM 从 25.20/.757 提高到 25.53/.765。
在这里插入图片描述
**不同参考相似度的影响。**为了研究 LR 和 Ref 图像之间的相关性如何影响 TTSR 的结果,我们在 CUFED5 测试集上进行了实验,该测试集具有不同相关性的参考图像。表 4 显示了五个相关级别的结果,其中“L1”到“L4”代表 CUFED5 测试集提供的参考图像,其中 L1 是最相关的级别,而 L4 是最不相关的级别。 “LR”是指使用输入图像本身作为参考图像。如表 4 所示,使用 L1 作为参考图像的 TTSR 获得了最佳性能。当使用 LR 作为参考图像时,T​​TSR 的性能仍然优于以前的最先进的RefSR 方法。

在这里插入图片描述

5.Conclusion

在本文中,我们提出了一种新颖的用于图像超分辨率 (TTSR) 的纹理变换器网络,它将 HR 纹理从 Ref 传输到 LR 图像。所提出的纹理转换器由一个可学习的纹理提取器组成,该提取器学习一个联合特征嵌入以进行进一步的注意力计算,以及两个基于注意力的模块,它们从参考图像中传输 HR 纹理。此外,提出的纹理变换器可以与提出的 CSFI 模块以跨尺度方式堆叠,以学习更强大的特征表示。大量实验证明了我们的 TTSR 在定量和定性评估方面优于最先进的方法。未来,我们将进一步将提出的纹理变换器扩展到一般图像生成任务。

Image super-resolution (SR) is the process of increasing the resolution of a low-resolution (LR) image to a higher resolution (HR) version. This is an important task in computer vision and has many practical applications, such as improving the quality of images captured by low-resolution cameras or enhancing the resolution of medical images. However, most existing SR methods suffer from a loss of texture details and produce overly smooth HR images, which can result in unrealistic and unappealing results. To address this issue, a new SR method called Deep Spatial Feature Transform (DSFT) has been proposed. DSFT is a deep learning-based approach that uses a spatial feature transform layer to recover realistic texture in the HR image. The spatial feature transform layer takes the LR image and a set of HR feature maps as input and transforms the features to a higher dimensional space. This allows the model to better capture the high-frequency details in the image and produce more realistic HR images. The DSFT method also employs a multi-scale approach, where the LR image is processed at multiple scales to capture both local and global features. Additionally, the model uses residual connections to improve the training process and reduce the risk of overfitting. Experimental results show that DSFT outperforms state-of-the-art SR methods in terms of both quantitative metrics and visual quality. The method is also shown to be robust to different noise levels and image degradation scenarios. In summary, DSFT is a promising approach for realistic texture recovery in image super-resolution. Its ability to capture high-frequency details and produce visually appealing HR images makes it a valuable tool for various applications in computer vision.
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值