【Arxiv2021】Fourier Space Losses for Efficient Perceptual Image Super-Resolution

Fourier Space Losses for Efficient Perceptual Image Super-Resolution 🚀

论文信息

题目: Fourier Space Losses for Efficient Perceptual Image Super-Resolution
傅里叶空间损失用于高效的感知图像超分辨率
源码:https://github.com/yysdck/SFFNet

摘要

许多超分辨率(SR)模型仅针对高性能进行优化,由于模型复杂度高,缺乏效率。🚀 大模型在实际应用中往往不太实用,因此我们研究并提出了新的损失函数,以便通过更高效的模型实现具有高感知质量的超分辨率。对于给定的低复杂度生成器网络,只有在强大的引导下朝着最优参数集训练,才能充分发挥其代表性。我们证明,仅通过应用我们提出的损失函数,就可以提高最近引入的高效生成器架构的性能。具体而言,我们使用傅里叶空间监督损失,从真实图像中更好地恢复缺失的高频(HF)内容,并设计了一种直接在傅里叶域中工作的判别器架构,以更好地匹配目标高频分布。我们发现,与之前针对此任务提出的损失函数相比,我们的损失函数在傅里叶空间中直接关注频率,显著提高了感知图像质量,同时保持了较高的恢复质量。通过结合空间域和频率域损失,性能进一步提升,因为这两种表示在训练过程中提供了互补信息。🌟 最重要的是,经过训练的生成器与最先进的感知超分辨率方法RankSRGAN和SRFlow相比,分别快2.4倍和48倍,且能取得相当的结果。
在这里插入图片描述

1. 引言

超分辨率(SR)旨在解决从低分辨率(LR)图像 x ∈ R H × W × C x \in \mathbb{R}^{H \times W \times C} xRH×W×C 重建高频(HF)信息的问题。👇 在对高分辨率(HR)图像 y ∈ R r H × r W × C y \in \mathbb{R}^{rH \times rW \times C} yRrH×rW×C 进行下采样后,由于LR空间中较低的奈奎斯特频率,这些高频信息会丢失( r r r 表示缩放因子)。 最近的单图像超分辨率(SISR)方法 [3, 16, 20, 18, 9, 13] 在重建缺失的高频细节方面取得了显著成果,重点在于准确恢复真实帧中的频率内容。这通常通过有监督训练来实现,即使用已知的内核(如双三次插值)对真实图像 y y y 进行下采样,以获得LR输入图像 x x x

虽然在某些应用中,希望在尽可能少的假设下,将频率恢复到尽可能接近目标的状态,但这个不适定问题限制了SR网络生成更高频率的分量,因为基于像素的监督损失在训练过程中会促使网络做出保守的估计。这通常会导致图像模糊,看起来比相应的HR图像质量更低。🤔

文献 [19, 31] 中通过采用不同的损失函数来解决这个问题,这些损失函数旨在促进更高频率的生成,从而获得更符合感知的图像。这些有监督的目标函数通常与生成对抗网络(GAN) [7] 结合使用,以便对高频空间进行额外的分布学习。👆 基于条件GAN的学习能够在无需精确真实数据的情况下,生成合理的高频信息。 许多研究致力于设计这样的感知损失函数,并寻找合适的组合以获得令人满意的结果。

如今,越来越多基于深度学习的算法在智能手机上实现,这就要求网络具有低复杂度,以便快速推理和低成本部署。因此,设计重点正逐渐从使用高复杂度网络的高质量、高性能方法,转向更快且资源需求更少的高效增强器。与简单地增加深度神经网络的复杂度(通常较为直接)来提升性能不同,找到一个高效且高性能的网络是一个更具挑战性的任务。寻找与最先进方法相当的、高效且高性能的低复杂度网络,是网络设计中的最终挑战。 💪

为了最大化深度神经网络的性能和效率,需要三个主要要素。首先,必须确定适合该任务的最佳架构设计。通常,这项任务由专家手动完成。除了手工设计,最近还提出了神经架构搜索算法 [6, 5] 来实现这一任务的自动化。其次,设计最优的损失函数对于充分发挥网络性能至关重要。第三,数据的数量和质量对于最大化性能起着关键作用。现有的超分辨率文献大多关注第一点。我们认为第三点的解决方案相对直接,因为对于大多数应用来说,可以高效地收集数据。 在本文中,我们针对第二点提出了解决方案,并尝试仅通过应用我们提出的损失函数,最大化最近提出的用于感知超分辨率的高效低复杂度网络 [13, 34] 的性能。

感知损失函数的设计主要集中在空间域 [31, 19]。然而,超分辨率与频率域紧密相关,因为在降采样过程中仅高频部分被去除。 我们利用这一事实,通过快速傅里叶变换(FFT)计算频率分量,在傅里叶空间中提出了新的损失函数,以直接关注频率内容。我们提出了一种直接参考傅里叶域中真实数据的监督损失,以实现准确的重建。此外,我们设计了一种判别器架构,在直接在傅里叶空间中工作的对抗训练设置中学习高频分布。据我们所知,我们是首个在超分辨率中直接对傅里叶系数应用GAN损失的团队。 我们的消融实验表明,对于感知超分辨率任务,与空间损失相比,我们的方法有明显优势。而且,由于傅里叶变换的特性,在傅里叶空间中使用损失函数能够引入全局指导,而不是像基于像素的评估那样仅提供局部信息。👇 为了同时利用全局和局部指导,我们还添加了相应的空间监督损失和GAN损失。 再加上额外的感知损失,在我们的消融实验中,这种组合优于所有其他配置。除了我们提出的损失函数相对于现有函数的优势外,我们还将训练后的高效生成器与高性能的最先进方法进行了比较。结果表明,我们的损失函数可以显著提升低复杂度生成器的性能,甚至能够与更大的网络竞争。 🚀

2. 相关工作

超分辨率是一个热门话题, [30, 1, 2, 34, 32, 33, 21] 举办了一系列竞赛,这些竞赛对近年来该领域的研究和发展进行了全面概述。

基于恢复学习的方法已被证明在解决超分辨率问题方面非常有效,因此在研究中被广泛使用。SRCNN [3] 是最早一批基于卷积神经网络(CNN)且超越非CNN超分辨率算法的方法之一,VDSR [16] 是其改进版本,采用了更深的网络以提升性能。人们还探索了更多的概念和改进方法 [19, 20, 18, 9, 13],旨在将LR图像中缺失的细节重建得尽可能接近真实情况。

2.1 感知超分辨率

尽管上述方法中最好的也往往会生成模糊的图像,另一类方法 [19, 31, 36] 试图通过牺牲恢复质量来增加高频内容的生成,从而进一步提高感知图像质量 [2]。为此,SRGAN [19] 提出应用生成对抗网络(GAN) [7] 来更好地对图像中的高频分布进行建模。作者还提出了一种基于VGG [29] 特征的感知损失,这显著提升了感知质量。ESRGAN [31] 通过采用改进的GAN损失公式 [15] 和更强的生成器架构扩展了这一概念。RankSRGAN [36] 是另一种实现更高感知图像质量的方法。它使用排序器,使得可以使用不可微的手工制作的无参考图像质量指标进行基于梯度的训练。首先,准备一个包含图像对及其计算出的质量分数的数据集,然后训练一个排序器以可微的方式对两幅图像进行相对排序。之后,学习到的可微排序器被用于基于梯度的对抗训练设置中。最近,SRFlow [22] 使用归一化流 [27] 进行感知图像超分辨率。该方法明确对HR空间中的模糊性进行建模,并使用一个设计上可逆的网络通过最大似然进行训练。

2.2 基于频率的超分辨率

由于超分辨率是恢复频率分量的问题,一些研究 [11, 4, 8, 14] 提出以各种配置更贴近频率空间对该问题进行建模。WaveletSRNet [11] 使用小波通过哈尔变换分解LR图像,并生成缺失的高频小波系数,而不是直接生成HR图像。此外,通过根据一些启发式方法对小波系数进行加权,优化损失函数以提高感知图像质量,从而平衡不同子带的重要性。DWSR [8] 采用类似的方法,但没有加权方案,并且仅使用四个子带,没有明确的感知组件。 [11] 中的损失由更多子带组成,但它没有像我们应用傅里叶变换那样对图像进行完全分解。最近的一项工作 [14] 提出在傅里叶空间中使用监督损失作为生成任务的额外损失。然而,这项工作使用了不同的损失公式,即它直接计算复数分量之间的差异,而不转换为幅度和相位。据我们所知,我们是首个在傅里叶空间中也直接应用GAN损失的。

3. 提出的方法

图像超分辨率的任务是将图像 x ∈ R H × W × C x \in \mathbb{R}^{H \times W \times C} xRH×W×C 的分辨率从LR域提升到相应的HR域 y ∈ R r H × r W × C y \in \mathbb{R}^{rH \times rW \times C} yRrH×rW×C,缩放因子为 r r r。根据奈奎斯特-香农采样定理,为了从目标HR域 y y y 中获得图像 y y y,必须恢复高于奈奎斯特频率 n c n_c nc 的缺失高频内容。与图像在空间域中的表示不同,这些缺失的频率在傅里叶域中可以清晰地分离。因此,我们在频率域中提出了两种损失函数,以直接强调对相关频率的训练。此外,由于傅里叶变换的特性,频率分量在训练过程中提供全局指导。 🎯
在这里插入图片描述

3.1 生成器

我们的目标是降低生成器网络的计算复杂度,以实现更快的运行时间,同时尽可能保持其超分辨率的表示能力。💪 因此,设计更有效的损失函数至关重要。改进损失函数的设计可以产生更强的梯度信号,从而在训练过程中更好地引导生成器。 为了测试我们提出的损失函数的有效性,我们使用了基于同一作者的IMDN网络 [13] 的轻量级模型。该模型是 “AIM 2019 Challenge on Constrained SR” [34] 的获胜者。我们将这个网络作为高效生成器架构的示例,展示我们的损失函数相对于现有典型损失函数的优势。该网络由重复的信息多蒸馏块(IMDB)组成,旨在有效地将LR空间中的信息整合到HR空间中。出于效率考虑,整个处理过程在LR空间中进行。仅在最后一个处理步骤中,使用标准的混洗块 [28] 对细化后的HR图像进行上采样。生成器 G G G 将LR图像 x ∈ R H × W × C x \in \mathbb{R}^{H \times W \times C} xRH×W×C 超分辨率为HR图像 y ^ = G ( x ) ∈ R r H × r W × C \hat{y} = G(x) \in \mathbb{R}^{rH \times rW \times C} y^=G(x)RrH×rW×C

3.2 傅里叶变换与超分辨率

傅里叶变换广泛用于分析信号的频率内容。它也可以应用于多维信号,如图像,其中像素强度的空间变化在频率域中有独特的表示。离散傅里叶变换(DFT)将图像 x ∈ R H × W × C x \in \mathbb{R}^{H \times W \times C} xRH×W×C 从空间域分解到傅里叶域。傅里叶空间由复正交基函数张成,其中复频率分量 X ∈ C U × V × C X \in \mathbb{C}^{U \times V \times C} XCU×V×C 表征图像。
F { x } u , v = X u , v = 1 H W ∑ h = 0 H − 1 ∑ w = 0 W − 1 x h , w e − i 2 π ( u h H + v w W ) \mathcal{F}\{x\}_{u, v} = X_{u, v} = \frac{1}{\sqrt{H W}} \sum_{h=0}^{H-1} \sum_{w=0}^{W-1} x_{h, w} e^{-i 2 \pi \left(u \frac{h}{H} + v \frac{w}{W}\right)} F{ x}u,v=Xu,v=HW 1h=0H1w=0W1xh,wei2π(uHh+vWw)

由于图像由多个颜色通道组成,我们分别为每个通道计算傅里叶变换,并对每个通道进行变换。在我们的公式中省略了通道的明确表示。每个复分量 X u , v X_{u, v} Xu,v 可以用幅度 ∣ F x u , v ∣ |F{x}_{u, v}| Fxu,v 和相位 ∠ F x u , v \angle F{x}_{u, v} Fxu,v

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shanks66

你的鼓励是我创作的最大动力!!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值