Cascaded Local Implicit Transformer for Arbitrary-Scale Super-Resolution

最新推荐文章于 2024-07-17 10:32:13 发布

叶了啦

最新推荐文章于 2024-07-17 10:32:13 发布

阅读量118

点赞数

分类专栏：图像处理文章标签：深度学习计算机视觉

原文链接：https://arxiv.org/abs/2303.16513

版权

图像处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Cascaded Local Implicit Transformer for Arbitrary-Scale Super-Resolution

原文：[2303.16513] Cascaded Local Implicit Transformer for Arbitrary-Scale Super-Resolution (arxiv.org)

任意尺度超分辨率的级联局部隐式变换器

摘要

隐式神经表示最近在表示任意分辨率的图像方面显示出了很有前途的能力。在本文中，我们提出了一种局部隐式变换器（LIT），它将注意力机制和频率编码技术集成到局部隐式图像函数中。我们设计了一个跨尺度的局部注意力块来有效地聚合局部特征，并设计了一种局部频率编码块来将位置编码与傅立叶域信息相结合，以构建高分辨率图像。

为了进一步提高代表性，我们提出了一种级联LIT（CLIT），它利用多尺度特征，以及在训练过程中逐渐增加上采样尺度的累积训练策略。我们进行了广泛的实验来验证这些组成部分的有效性，并分析了各种训练策略。定性和定量结果表明，LIT和CLIT在任意超分辨率任务中都取得了良好的效果，并且优于先前的工作

1. 引言

单图像超分辨率（SISR）是从相应的低分辨率（LR）图像重建高分辨率（HR）图像的过程。SISR由于其不适定性，长期以来一直被认为是低水平视觉领域的一项具有挑战性的任务，并在过去十年中吸引了许多致力于该研究领域的研究人员[1-21]。一系列SISR研究被称为“固定尺度SR”[1-15]，重点是从LR图像中提取特征嵌入，并通过可学习的去卷积[3]或亚像素卷积[4]利用这些嵌入以预定义的因子对图像进行上采样。尽管取得了成功，但许多提出的方法都需要为每个上采样尺度建立一个不同的深度神经网络模型，该模型通常局限于有限的整数选择（例如，2×、3×、4×）。这种限制限制了SISR模型的潜在应用和部署选项。为了克服这一限制，最近出现了通过单个模型以连续方式对LR图像进行上采样的方法，并引起了相当大的关注。

在这里插入图片描述

图1。考虑附近像素进行连续上采样的不同方法的说明和比较：（a）[17]中使用的局部集成方法，以及（b）我们提出的局部注意力机制。

在过去的几年里，任意尺度的SR已经出现，并引起了研究人员的极大关注[16-21]。除了开创性的工作Meta-SR[16]外，最近的努力[17-21]通过用局部隐式图像函数取代先前方法通常采用的上采样层，实现了任意尺度的SR，并证明了良好的性能。这些局部隐式函数使用多层感知器（MLP）将2D坐标和相应的潜在表示映射到RGB值。图1说明了不同的方法如何基于查询的坐标（如红点所示）对潜在表示进行采样。图1（a）说明了当代主流方法采用的局部集成技术[17-21]。它根据周围四个像素与查询坐标的相对距离，取其加权平均值，计算查询坐标的RGB值。然而，这种方法不考虑上下文信息，仅依赖于距离。例如，在图1中，查询的坐标有意设计为位于边上。然而，仅仅计算像素的加权平均值不能反映关于图像内容的上下文信息，从而阻止了对执行SR所需特征的准确捕获。因此，尽管像素距离在SR任务中起着至关重要的作用，但必须更多地关注图像中的上下文信息。

根据上述观察结果，我们提出了一种局部隐式变换器（LIT），它扩展了参考潜在向量的数量，并通过利用注意力机制来解释上下文中的特征相关性[22]。LIT包括跨尺度局部注意块（CSLAB）、局部频率编码块（LFEB）和解码器。CSLAB基于查询坐标处的双线性插值潜在向量和从具有相对位置偏移的坐标网格采样的关键潜在向量生成注意力图[23，24]。图1的第一列和第二列。1（b）可视化由LIT生成的注意力图，其中注意力区域与边缘紧密对齐。通过将注意力图应用于特征嵌入，可以在上下文中预测查询坐标的RGB值。此外，受[21，25，26]的启发，我们引入了LFEB，它将相对坐标投影到潜在空间中，以解决隐式神经函数的谱偏问题[27]。具体地，将相对坐标编码为相对位置编码，将相对位置编码与从傅立叶域中的特征嵌入中提取的频率编码相乘，以生成频率嵌入。这种设计使得频率嵌入能够将相对位置编码与纹理信息相结合，从而增强相对坐标的表现力。最后，利用注意力特征嵌入和频率嵌入，采用解码器生成RGB值。

为了解决不同比例因子的问题并实现任意比例的超分辨率，在局部隐式图像函数中考虑上采样因子在构建高分辨率图像中的作用至关重要。然而，同时训练具有广泛上采样因子（例如，1×～30×）的局部隐式图像函数带来了重大挑战。因此，我们提出了一种累积训练策略，以逐步增强函数的代表性。该策略最初用小的上采样因子训练局部隐式图像函数，然后用交替采样的小因子和大因子对其进行微调。此外，我们提出了级联LIT（CLIT），以利用多尺度特征嵌入的优势，在一步上采样过程中补充缺失的细节和信息。累积训练策略和CLIT的结合使得能够高效、有效地处理任意规模的SR任务。

我们的工作的主要贡献总结如下：（1）我们引入了LIT架构，它将局部注意力机制融入到任意规模的SR中。（2）我们进一步开发了累积训练策略和级联框架CLIT，以有效地处理大规模上采样。（3）我们对LIT和CLIT的性能影响进行了全面分析。广泛的实验结果表明，所提出的LIT和CLIT能够在广泛的基准数据集上产生显著或可比的结果。

本文组织如下。第2节回顾了相关工作。第3节介绍了拟议的LIT和CLIT框架以及实施细节。第4节给出了实验结果。第5节结束。

2. 相关工作

内隐神经表征。 隐式神经表示是一种通过基于坐标的多层感知器（MLP）来表示连续域信号的技术。其概念已被用于各种3D任务，例如，3D对象形状建模[28-32]、3D场景重建[33-36]和3D结构渲染[25，37-39]。例如，NeRF[25]使用隐式神经表示来执行新颖的视图合成，该合成将坐标映射到特定场景的RGB颜色。在过去的几年里，也尝试了隐式神经表示的2D应用，如图像表示[40，41]和超分辨率[17-21]。我们的工作与一种名为“局部隐式神经表示”的技术有关[17，21]，该技术将LR图像编码为特征嵌入，以便在局部区域内共享类似信息。这种局部隐式神经表示被用来将LR图像升级为HR图像。

单图像超分辨率。 在过去的几年里，已经为SISR提出了各种基于深度神经网络（DNN）的架构[1-15]。在这些工作中，SRCNN[1]率先使用卷积神经网络（CNNs）以端到端的方式实现SISR。随后的几项后续工作结合了更复杂的模型架构，如残差块[6，7]、密集连接[8，9]、基于注意力的机制[10-12]或级联框架[5，42，43]，以提取SISR更有效的特征表示。最近，基于变压器的方法[13-15]被引入SISR，并取得了很好的性能。

任意比例的超分辨率。 如第1节所述，大多数当代SISR工作将其上采样尺度限制为特定的整数值，并要求为每个上采样尺度训练一个不同的模型。为了克服这一限制，提出了几种方法[16-21]来训练任意上采样尺度的统一模型。Meta-SR[16]提出了一个超高档模块，用于从坐标和尺度预测其卷积滤波器的权重。然后利用预测的权重来执行卷积以生成HR图像。与Meta-SR相反，LIIF[17]采用MLP作为局部隐式函数，该函数采用HR图像中的查询坐标、从相应LR图像中提取的其附近特征表示以及单元大小来预测该坐标的RGB值。UltraSR[18]和IPE[19]通过用嵌入的坐标替换坐标来扩展LIIF，以处理MLP中固有的光谱偏差问题[25，27，41，44，45]。LTE[21]进一步引入了一种局部纹理估计器，该估计器将坐标转换为傅立叶域信息，以丰富其局部隐函数的表示能力。与上述方法不同，我们提出的方法利用了一种新的局部注意力机制和级联框架来处理任意尺度的SR。为了与上述方法进行比较，我们类似地采用EDSR[7]、RDN[9]和SwinIR[14]作为我们的LIT和CLIT的编码器。

3. 方法

在本节中，我们首先概述了所提出的LIT框架，然后介绍了它及其主要模块的实现细节。然后我们讨论我们的累积培训策略，以及CLIT的框架。

在这里插入图片描述

图2:所提出的LIT框架。局部采样操作基于坐标网格对输入嵌入进行采样。

3.1. LIT框架概述

LIT 是一个框架，它采用了一种新颖的跨尺度局部注意力机制和局部频率编码技术来执行任意尺度的超分辨率任务。图 2(a) 提供了所提出框架的概述，该框架的目标是基于任意上采样尺度 $r = \{r_h, r_w\}$ ，从给定的低分辨率 (LR) 图像 $I^{LR} ∈ \R^{H×W×3}$ 在 2D LR 坐标 $\mathbf{x}^{LR} ∈ \mathcal{X}$ 上产生高分辨率 (HR) 图像 $I^{HR} ∈ \R^{r_hH×r_wW×3}$ 在 2D HR 坐标 $\mathbf{x}^{HR}∈\mathcal{X}$ 。 $\mathcal{X}$ 是用于在连续域中表示图像的 2D 坐标空间。编码器$ E_θ$ 首先从 $I^{LR}$ 中提取特征嵌入 $Z ∈ \R^{H×W×C}$ 。然后，将提取的 $Z$ 与 $I^{LR}$ 的 2D 坐标和单元格 $c = (2/sh, 2/sw) $一起传递到 LIT 中，以像素级方式生成残差图像 $I^{LR}_r ∈ \R^{r_hH×r_wW×3}$ 的 RGB 值。最后，通过元素级加法将残差图像 $I^{LR}_r$ 与双线性上采样图像 $I^{LR}_↑ ∈ \R^{r_hH×r_wW×3}$ 结合起来，得到最终的 HR 图像 $I^{LR}$ 。

3.2. 局部隐式变换器

LIT 是为了将连续图像域中的任何 2D 坐标映射到 RGB 颜色而开发的。如图 2(b) 所示，它由跨尺度局部注意力块 (CSLAB)、局部频率编码块 (LFEB) 和由$ φ$ 参数化的解码器 $D φ$ 组成。前两个块负责分别估计局部潜在嵌入 $\tilde z$ 和局部频率嵌入 $\tilde f ∈ \R^{G_hG_w×C}$ ，其中 $G_h$ 和 $G_w$ 表示用于执行局部坐标采样的局部网格的高度和宽度，如图 3 所示。另一方面， $D φ$ 利用这些嵌入以及提供的单元格来生成 $I^{HR}_r$ 。更具体地说，LIT 首先使用四个独立的卷积层将 $Z$ 投影以获得四个潜在嵌入，分别对应于查询 $q$ 、键 $k$ 、值 $v$ 和频率 $f$ 。基于查询的 HR 坐标 $x_q ∈ x^{HR}$ ，CSLAB 和 LFEB 估计 $\tilde{z}$ 和 $\tilde f$ 如下：

$\tilde z = CSLAB(δx, q, k, v),$

$\tilde f = LFEB(δx, f),$

$δx = \{x_q - x^{(i,j)}\}_{i∈\{1,2,...,G_h\},j∈\{1,2,...,G_w\}},$

其中 $x^{(i,j)}∈ \mathbf{x}^{LR}$ 表示局部网格中索引为 (i, j) 的 LR 坐标， $δ\mathbf{x}$ 表示由方程 (3) 定义的局部相对坐标集合。局部网格的采样方式是将其中心 $x(⌊G_h/2⌋+1,⌊G_w/2⌋+1)$ 放置在最接近 $x_q$ 的 LR 坐标处。查询潜在向量 $q ∈ \R^{1×C}$ 在 HR 坐标 $x_q$ 处通过双线性插值计算，而其余的局部潜在嵌入 $k ∈ \R^{G_hG_w×C}$ , $v∈\R^{G_hG_w×C}$ , 和 $f ∈ \R^{G_hG_w×C}$ 则在局部 LR 坐标 $\mathbf{x} = {x^{i,j}}_{i∈\{1,2,...,G_h\},j∈\{1,2,...,G_w\}}$ 处采样。有了局部潜在嵌入 $\tilde z$ 和局部频率嵌入 $\tilde f$ ， $D φ$ 的功能如下公式化：

$I^r(x_q) = D_φ(\tilde z, \tilde f, c),$
其中 $I^r(x_q)$ 是在查询坐标 xq 处预测的 RGB 值， $c = {HR_{∆h}, HR_{∆w}}$ 表示 HR 图像中像素的高度和宽度，如图 3 所示。Dφ 实现为一个使用高斯误差线性单元 (GELU) 激活的五层 MLP [46]，并在所有图像中一致使用。

在这里插入图片描述

图3。所提出的局部坐标采样方案的说明。由虚线勾勒的红色矩形区域表示尺寸为Gh×Gw的局部网格。红点表示采样的局部LR坐标，而灰点对应于HR坐标。网格尺寸LR∆h；w和HR∆h；w分别表示LR图像和HR图像中的像素的单位大小。

跨尺度局部注意力块 (CSLAB)。LIT 利用 CSLAB 在局部网格上执行局部注意力机制，为每个 HR 坐标生成局部潜在嵌入 $\tilde z$ ，如图 2( c) 所示。CSLAB 首先计算 $q$ 和 $k$ 的内积，将相对位置偏差 $B$ 加到结果上，得到注意力矩阵。然后，通过 $S o f t ma x$ 操作对这个注意力矩阵进行归一化，以产生局部注意力图。最后， $CS L A B$ 对 $v$ 和局部注意力图进行元素级乘法，得出 $\tilde z$ 。整个过程如下公式化：
$\tilde z = softmax(qk^⊤ / √C + B) × v,$

$FC(γ(δ\mathbf{x})),$

$γ(δ\mathbf{x}) = [{sin}(2^0δ\mathbf{x}), cos(2^0δ\mathbf{x}), ..., sin(2^{L−1}δ\mathbf{x}), cos(2^{L−1}δ\mathbf{x})],$

其中 $C$ 表示局部键潜在嵌入 $k$ 的通道维度， $FC$ 代表全连接层， $γ$ 是位置编码函数， $L$ 是一个超参数。在这项工作中， $L$ 设置为 10，多头注意力机制采用如下公式 (8)：
$\tilde z = concat(softmax({q_ik^⊤_i \over{\sqrt {C/H} }}+ B_ i) × v_i),$
其中 $H$ 是注意力头的数量， $i \in [1, ..., H]$ 。

在这里插入图片描述

图4。拟议的CLIT框架概述。

局部频率编码块。 图 2(d) 说明了局部频率编码块，它结合了主要频率分量来生成局部频率嵌入 $\tilde f$ 。为了考虑主要频率信息， $L FEB$ 首先使用快速傅里叶变换 (FFT) 对局部频率潜在嵌入 $f$ 进行编码，然后将其与相对位置编码相乘以生成 $\tilde f$ 。然后，将生成的局部频率嵌入 $\tilde f$ 与展平的局部潜在嵌入 $\tilde z$ 连接起来，形成一个混合嵌入，该嵌入可以由解码器（由 MLP 组成的）用来预测 RGB 值 [47]。

3.3. 累积培训策略

在本节中，我们讨论了我们提出的累积训练策略，该策略旨在提高任意尺度超分辨率的性能。累积训练策略关注训练阶段选择的单元格大小的调度，因为“单元格解码”已被认识到是局部隐式图像函数的一个重要输入[17]。最近的研究[17, 19]观察到，单元格解码对任意尺度超分辨率性能的影响对于分布内的上采样非常明显，但对于分布外的大规模上采样则显著降低。这种趋势在[17]的表3和[19]的表4中得到了展示。[21]的作者还限制了他们的单元格大小在分布内范围内，以减轻评估期间的负面影响。为了克服分布外单元格大小的退化问题，训练时加入大单元格大小似乎是一个有希望的解决方案。然而，简单地一次性训练局部隐式图像函数与多样化的单元格大小会导致性能下降。根据我们在第4.4节展示的实验观察，我们发现通过交替切换大和小单元格来训练局部隐式图像函数对性能有积极影响。基于上述观察，我们提出了一个累积训练策略，该策略首先使用大单元格大小训练局部隐式图像函数，然后使用交替训练策略进行微调，以提高在不同上采样尺度上的性能。更多关于我们训练策略的定量结果可以在第4.4节找到。

3.4. 级联局部隐式变换器

先前的工作[17, 21]通常通过单步上采样来解决任意尺度的超分辨率问题。然而，当上采样尺度较大时，单步上采样难以重建高分辨率（HR）图像[5, 42, 43]。鉴于此，我们提出了一种级联上采样策略，称为“级联局部隐式变换器（CLIT）”，用于从多尺度特征嵌入中预测残差图像。在具有N个分支的CLIT中，多尺度特征嵌入 $Z^1, Z^2, ..., Z^N$ 如下得出：

$Z^N = Z ↑_{s^1×s^2×...×s^{N−1}},$
其中 $s^1 = 1$ 且 $\mathbf s$ ，

其中 ↑ 是一个双线性上采样函数， $\mathbf s$ 是一组可配置的缩放因子。对于一个分支 $i$ ， $i \in [1, ..., N]$ ， $LIT^i$ 从特征嵌入 $Z^i$ 和相应的坐标以及单元格中估计残差图像 $I^i_r$ 。最后，最终的HR图像 $I^{HR} ∈ \R^{r_hH×r_wW×3}$ 可以估计为以下方程：

$I^{HR} = λ^{N−1}I^1_r + λ^{N−2}I^2_r + ... + λ^0I^N_r + I^{HR}_↑ .$
其中 $λ$ 是一个折扣因子，默认值为0.75。在训练阶段，CLIT使用所提出的累积训练策略进行训练。最初， $L I T 1$ 使用[17]采用的策略进行训练。随后，对 $LIT^1$ 进行微调，并初始化 $LIT^2$ ，通过应用交替训练策略。通过逐步将 $L I T s$ 纳入 $C L I T$ ，性能得到逐步提升。训练策略的详细信息在第4节中指定。

4. 实验结果

在本节中，我们展示实验结果并讨论其含义。我们首先在第4.1节简要介绍实验设置。随后，在第4.2节中，我们使用不同数据集评估我们的CLIT。然后，第4.3节展示了学到的注意力图。最后，在第4.4节中，对所提出的CLIT和LIT的各种配置进行了消融研究的比较。

4.1. 实验设置

数据集。 我们使用DIV2K数据集[48]进行网络训练。它包含1000张2K分辨率的图像，并提供低分辨率的对应图像，这些图像是通过双三次插值方法生成的，下采样比例为×2、×3、×4。另一方面，我们还评估了在DIV2K[48]、Set5[49]、Set14[50]、B100[51]和Urban100[52]验证集上的性能，以峰值信噪比（PSNR）值衡量。

训练细节。 在训练过程中，我们将大小为48×48的低分辨率图像批次输入到框架中，遵循先前的工作[7]。对于每个批次，从均匀分布r ∼ U(1, 4)中随机抽取一个上采样尺度。对于单一上采样尺度s，将HR图像裁剪成48r×48r的补丁，而相应的LR图像则裁剪成48×48的补丁。然后，通过随机水平翻转、垂直翻转和90°旋转对这些补丁进行增强。接着，我们在每个HR补丁上采样482个像素（坐标-RGB对）作为真实值。我们将批量大小设置为32，并使用Adam优化器[53]以及L1损失进行训练。我们训练LIT 1000个周期，学习率初始化为1e−4，并在[200, 400, 600, 800]周期时衰减一半。对于CLIT的累积训练，如第3.4节所讨论，我们根据训练步骤中的LITs数量N，从分布U(1, 4)中采样N个尺度因子{s1, s2, …, sN}。总上采样尺度r = s1 × s2… × sN是所有尺度因子的乘积。如果48r × 48r大于整个HR图像，我们将裁剪第一阶段的尺度因子。为了训练N个LITs，我们对模型进行500 × N个周期的微调，学习率初始化为1e−4，并在[100 × N, 200 × N, 300 × N, 400 × N]周期时衰减一半。

4.2. CLIT的验证

定量结果。 我们首先将我们提出的CLIT与现有的局部隐式神经表示方法进行比较，这些方法用于任意尺度的超分辨率，包括LIIF [17]、UltraSR [18]、IPE [19]和LTE [21]。表1总结了在DIV2k [48]上的PSNR(dB)定量结果。如表1所示，当使用EDSR-Baseline [7]、RDN [9]作为编码器时，CLIT实现了最佳性能。这些结果展示了CLIT的优势。

表2将CLIT与先前的工作[17–19, 21]在广泛使用的数据集上进行了比较，包括Set5 [49]、Set14 [50]、B100 [51]和Urban100 [52]，使用了RDN和SwinIR。请注意，RDN [9]是针对特定的上采样尺度进行训练和评估的。CLIT在大多数情况下都优于这些现有方法，并且在所有数据集和尺度上，甚至在Set5的×8尺度上实现了0.26dB的PSNR改进。

在这里插入图片描述

表1。DIV2K[48]验证集的平均PSNR（dB）。结果来自原始手稿[17-19，21]。表现最好和次佳的结果分别用红色和蓝色突出显示。

在这里插入图片描述

表2。Set5[49]、Set14[50]、B100[51]和Urban100[52]的平均PSNR（dB）。结果来自原始手稿[17-19，21]。表现最好和次佳的结果分别用红色和蓝色突出显示。

在这里插入图片描述

图5。LIIF[17]、LTE[21]和我们使用RDN[9]作为编码器的CLIT的定性结果。

定性结果。 图5比较了CLIT与基线方法LIIF [17]和LTE [21]在不同数据集DIV2k [48]、Set14 [50]、B100 [51]和Urban100 [52]上的定性结果，使用了不同的上采样尺度。我们使用了他们提供的官方代码来生成结果。在第一行中，展示了×12上采样尺度的SR可视化结果。可以观察到，LIIF和LTE在重建字母时都存在连续性问题，而CLIT结果则展示了这些字母的连续性，特别是对于’M’和’S’。在第二行中，斑马条纹在LIIF和LTE结果中显得模糊，而在CLIT结果中则更加清晰。在第三行中，桌布上的十字图案在LIIF和LTE中没有清晰呈现。相比之下，CLIT成功地生成了清晰的十字和锐利的线条。在第四行中，尽管原始LR图像模糊，CLIT捕捉到了纹理，并在旗帜上产生了直线，展示了其有效性。图6展示了使用逐渐增加的非整数上采样因子进行文本图像增强的结果，并与早期方法LIIF [17]和LTE [21]进行了比较。输入图像首先通过2.2的因子进行下采样以生成LR图像。随后，使用预定的非整数因子×1.6、×2.5、×3.4、×4.3对LR图像进行上采样。

在这里插入图片描述

图6。LIIF[17]、LTE[21]和我们的CLIT使用RDN[9]作为编码器和非整数上采样尺度的定性结果。

可以观察到，我们提出的模型有效地捕捉了图像中的文本模式，并以增强的清晰度和清晰度准确地估计了单词和数字。这种增强在第一行上下文中的单词“无穷大”、第五行的单词“阳光”和最后一行的数字“0”中变得尤为明显，因为这些元素中的每一个都表现出了相当大的改进。

4.3. 可视化局部注意力图

在这里插入图片描述

图7。坐标的局部注意力图的可视化显示为红点。

在图7中，我们提供了局部注意力图的可视化。通过将双三次下采样应用于HR图像并使用尺度因子{×4.5, ×6, ×6}，生成了LR图像。随后，使用RDN [9]编码器的所提出的CLIT生成HR预测。可以观察到，注意力图与边缘紧密对齐，表明跨尺度局部注意力块有效地捕获了局部区域内的相似潜在代码。这证实了我们提出的设计能够从LR对应物生成SR图像，最终在输出中产生干净、锐利的边缘。

4.4. 消融实验

在本节中，我们进行了一系列消融分析，以证实本文提出的设计决策的有效性。所有消融实验都是在DIV2K [48]验证集上进行的，使用EDSR-baseline [7]作为编码器，并采用PSNR指标进行评估。

表3。不同设计选择的平均PSNR（dB）。符号-a/f/c分别表示去除跨尺度局部注意力块、频率编码块和单元大小，+e表示添加局部系综。表现最好的一个用粗体表示。

在这里插入图片描述

表4。多个局部网格大小的平均PSNR（dB）和训练时间（小时）。粗体数字表示最佳性能。

在这里插入图片描述

表5。不同训练策略的平均PSNR（dB）。表现最好的结果以粗体显示。

在这里插入图片描述

设计选择的验证。 表3总结了与每个LIT组件相关的定量贡献。采用跨尺度局部注意力块时观察到显著的性能提升，而频率编码块的相对增益较小，分别与LTE与LTE (-a)和LTE (-f)进行比较。此外，LTE (-c)显示，去除单元格解码会导致分布内上采样尺度的性能下降比分布外上采样尺度更为严重，突显了单元格解码对于分布内上采样尺度的重要性。最后，在LIT (+e)中加入局部集成技术，虽然进一步提升了整体性能，但增益相对较小。

局部网格的有效性。 表4提供了在局部坐标采样方案中使用的各种局部网格大小的性能比较，如第3节所述。表4中的结果表明，增加局部网格大小有助于性能提升，尽管这会增加训练时间。因此，本研究采用了7×7的局部网格大小，以在有效性和效率之间取得理想的平衡。

训练策略的分析。表5提供了所提出的累积训练策略与其他训练策略的定量比较，用于训练LIT。基线策略从均匀分布r ∼ U(1, 4)中采样上采样尺度来训练LIT。将采样尺度分布扩展到r ∼ U(1, 12)在大尺度上采样时提高了性能，同时在小尺度上采样时的性能有所妥协。为了在所有上采样尺度范围内实现高质量的结果，替代训练策略通过在r ∼ U(1, 4)和r ∼ U(4, 12)之间交替切换采样尺度来训练LIT。另一方面，所提出的累积训练策略首先使用r ∼ U(1, 4)训练LIT，然后使用替代训练策略进行微调。这种渐进式方法通过逐渐扩大上采样尺度的分布来提高LIT的性能。将累积训练的LIT的结果与表1中的EDSR-baselineCLIT的结果进行比较，揭示了所提出的累积训练策略对LIT和CLIT都有效。此外，这些表的结果表明，级联框架在解决任意尺度SR任务方面更为有效。

5. 结论

在本文中，我们介绍了注意力机制和频率编码技术来处理任意规模的SR任务。为了实现这一目标，我们提出了LIT框架，该框架由跨尺度局部注意力块和局部频率编码块组成。前者被设计为找到局部潜在嵌入以重建相应的RGB值，而后者专注于用从特征嵌入中导出的频率信息对坐标进行编码。为了增强捕捉精细细节的能力，我们提出了CLIT和相应的累积训练策略，该策略通过逐步增加的上采样尺度来训练模型。基于实验结果，定量和定性评估都显示了与现有方法相比，LIT和CLIT的优越性能。此外，我们的综合分析验证了培训策略及其所采用的组成部分的有效性。

叶了啦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Cascaded Local Implicit Transformer for Arbitrary-Scale Super-Resolution

隐式神经表示最近在表示任意分辨率的图像方面显示出了很有前途的能力。在本文中，我们提出了一种局部隐式变换器（LIT），它将注意力机制和频率编码技术集成到局部隐式图像函数中。我们设计了一个跨尺度的局部注意力块来有效地聚合局部特征，并设计了一种局部频率编码块来将位置编码与傅立叶域信息相结合，以构建高分辨率图像。为了进一步提高代表性，我们提出了一种级联LIT（CLIT），它利用多尺度特征，以及在训练过程中逐渐增加上采样尺度的累积训练策略。我们进行了广泛的实验来验证这些组成部分的有效性，并分析了各种训练策略。
复制链接

扫一扫