盲超分辨率的无监督退化表示学习

**

盲超分辨率的无监督退化表示学习 Unsupervised Degradation Representation Learning for Blind Super-Resolution

**
贡献:引入降级感知SR(DASR)网络,其可以根据学到的表示灵活地适应各种降级。
Code is available at: https://github.com/LongguangWang/DASR.

*一、

大多数现有的基于CNN的超分辨率(SR)方法都是基于一个假设,即退化是固定的和已知的(例如,双三次下采样)。然而,当实际性能退化与其假设不同时,这些方法的性能会严重下降。为了处理实际应用中的各种未知退化,以前的方法依赖退化估计来重建SR图像。然而,退化估计方法通常很耗时,并且可能由于较大的估计误差而导致SR失败。本文针对无显式退化估计的盲随机共振,提出了一种无监督退化表示学习方案。具体来说,我们学习抽象表示来区分表示空间中的各种退化,而不是像素空间中的显式估计。此外,我们还引入了一种降级感知SR(DASR)网络,该网络可以根据学习到的表示灵活地适应各种降级。结果表明,我们的退化表示学习方案可以提取有区别的表示,以获得准确的退化信息。对合成图像和真实图像的实验表明,我们的网络在盲SR任务方面达到了最先进的性能。

退化表示学习的好处有两方面:首先,与提取完整表示来估计退化相比,学习抽象表示来区分不同的退化更容易。因此,我们可以获得一个有区别的退化表示,以在单个推断中提供准确的退化信息。第二,退化表征学习不需要地面真实退化的监督。因此,它可以在无监督的情况下进行,更适合具有未知退化的实际应用。

本文介绍了盲SR的一种无监督退化表示学习方案。具体来说,我们假设退化在一幅图像中是相同的,但对于不同的图像可以不同,这是文献[42,3,40]中广泛使用的一般情况。因此,图像补丁应该与同一图像中的其他补丁相似(即具有相同的降级),而与降级表示空间中其他图像中的补丁不同(即具有不同的降级)。此外,我们提出了一种基于学习表示的退化感知SR(DASR)网络,能够灵活适应不同的退化。具体来说,我们的DASR通过从退化表示预测卷积核和信道调制系数,结合退化信息来执行特征自适应。实验结果表明,我们的网络可以处理各种退化,并在盲设置下对合成图像和真实图像都产生有希望的结果。
**

二、

SRCNN使用三层网络来学习单图像SR的LR HR映射。EDSR,RDN,RCAN,SAN
具有多重降级的SR。尽管上述SR方法取得了重要进展,但它们是针对固定的双三次退化而定制的,当实际退化与双三次不同时,性能会严重下降[12]。为了处理各种退化,已经做出了一些努力[42、38、40、20]来研究非盲SR问题。具体来说,降级首先用作SRMD[42]中的附加输入,以在不同降级下超分辨率LR图像。后来,动态卷积被进一步合并到UDVD[38]中,以获得比SRMD更好的性能。最近,Zhang等人[40]开发了一种展开式SR网络(USRnet),通过交替解决数据子问题和先前的子问题来处理不同的退化。Hussein等人[20]引入了一种闭合形式校正滤波器来变换LR图像,以匹配双三次退化生成的图像。然后,可以使用经过双三次退化训练的现有网络对变换后的LR图像进行超分辨。还研究了零激发方法,以实现多重降解的SR。在ZSSR[33]中,训练是在测试时使用降级和LR图像作为输入进行的。因此,网络可以适应给定的降级。然而,ZSSR需要数千次迭代才能收敛,非常耗时。为了解决这一局限性,MZSR[34]中使用了基于优化的元学习,以使网络在推理过程中的几次迭代中适应特定的退化。由于退化被用作上述方法的输入,因此它们高度依赖于盲SR的退化估计方法[28,3]。因此,退化估计错误最终会给SR结果带来不希望出现的伪影[12]。为了解决这个问题,Gu等人[12]提出了一种迭代核校正(IKC)方法,通过观察以前的SR结果来校正估计的退化。Luo等人[25]通过迭代估计退化并恢复SR图像,开发了深度交替网络(DAN)。
2.2.对比学习对比学习已证明其在无监督表征学习中的有效性。以前的方法[8、43、29、11]通常通过最小化输出和固定目标(例如,自动编码器的输入本身)之间的差异来进行表示学习。对比学习不是使用预先定义的固定目标,而是最大化表示空间中的相互信息。具体来说,查询样本的表示应该吸引积极的对应方,而排斥消极的对应方。正对应项可以是输入的转换版本[37、5、17]、输入的多个视图[35]以及同一图像中的相邻面片[30、18]。在本文中,使用相同退化生成的图像补丁被视为正对应,并进行对比学习以获得内容不变的退化表示,如图1所示。

在这里插入图片描述

三、**

我们的盲SR框架由降级编码器和降级感知SR网络组成,如图2所示。首先,将LR图像馈送到降级编码器(图2(a)),以获得降级表示。然后,将该表示纳入退化感知SR网络(图2(b)),以生成SR结果
3.2.1退化表示学习
退化表示学习的
目标是以无监督的方式从LR图像中提取有区别的表示。如图1所示,我们使用对比学习框架[17]进行退化表征学习。请注意,我们假设每个图像中的退化是相同的,并且不同的图像会有所不同

**构想。**给定一个图像补丁(图1中用橙色框注释)作为查询补丁,从同一个LR图像中提取的其他补丁(例如,用红色框注释的补丁)可以被视为阳性样本。相反,来自其他LR图像的补丁(例如,用蓝色方框注释的补丁)可以称为阴性样本。然后,我们使用六层卷积网络将查询、正片和负片编码为退化表示(图2(a))。正如SimCLR[5]和MoCo v2[6]中所建议的那样,生成的表示被进一步送入双层多层感知器(MLP)投影头,以获得x、x+和x−. 鼓励x与x+相似,而与x不同−. 继MoCo[17]之后,使用InfoNCE损失来衡量相似性。

其中N是负样本数,τ是温度超参数,·表示两个矢量之间的点积。
讨论现有的退化估计方法[28,3,12]旨在估计像素级的退化(通常是模糊核)。也就是说,这些方法学习提取退化的完整表示。然而,它们很耗时,因为在推理过程中需要多次迭代。例如,KernelGAN在测试期间进行网络培训,单个图像需要60秒以上的时间[3]。与这些方法不同,我们的**目标是学习一种“好的”抽象表示法,以区分特定退化和其他退化,而不是明确估计退化。**第4.2节证明了我们的退化表示学习方案是有效且高效的,并且可以在单个推理中获得有区别的表示。此外,我们的方案不需要地面真相退化的监督,可以在无监督的情况下进行。
在这里插入图片描述

3.2.2降级感知SR网络通过降级表示学习,提出了一种降级感知的SR(DASR)网络,以使用结果表示超级解析LR图像,如图2(b)所示。网络架构。图2(b)说明了DASR网络的架构。降级感知块(DA块)用作构建块,并采用RCAN的高级结构[44]。我们的DASR网络由5个剩余组组成,每个组由5个DA块组成。
在每个DA块中,使用两个DA卷积层根据退化表示来调整特征,如图2(c)所示。由于观察到针对不同恢复级别训练的模型的卷积核具有相似的模式,但具有不同的统计[15],我们的DA卷积层学习预测以退化表示为条件的深度卷积核。具体来说,退化表示R被馈送到两个全连接(FC)层和一个重塑层,以产生卷积核w∈ R^C×1×3×3。然后,用3×3深度卷积(使用w)和1×1卷积处理输入特征F以生成F1。此外,受CResMD[16](使用控制变量重新缩放不同通道以处理多重降级)的启发,我们的DA卷积层还学习根据退化表示生成调制系数,以执行信道特性自适应。具体来说,R被传递给另外两个FC层和一个S形激活层,以生成信道调制系数v。然后,v被用于重新缩放F中的不同信道分量,从而生成F2。最后,F1与F2相加,并被馈送到后续层,以产生输出特征Fout。
讨论用于多重退化的现有SR网络[42,38]通常将退化表示与图像特征连接起来,并将其提供给CNN以利用退化信息。然而,由于退化表示和图像特征之间存在领域差距,直接使用卷积将它们作为一个整体进行处理将引入干扰[12]。与这些网络不同,通过学习根据退化代表预测卷积核和调制系数,我们的DASR可以很好地利用退化信息来适应特定退化。第4.2节表明,我们的DASR得益于DA卷积,能够灵活适应各种退化,具有更好的SR性能。

**

四、实验**

4.1数据集和实现细节
我们根据公式1合成LR图像,用于训练和测试。继[12]之后,我们使用DIV2K[1]中的800张训练图像和Flickr2K[36]中的2650张训练图像作为训练集,并包括四个基准数据集(Set5[4]、Set14[39]、B100[27]和Urban100[19])进行评估。根据[12],高斯核的大小固定为21×21。我们首先用各向同性高斯核对网络进行无噪声退化训练。对于×2/3/4 SR,核宽度σ的范围分别设置为[0.2,2.0]、[0.2,3.0]和[0.2,4.0]。然后,我们的网络被训练为具有各向异性高斯核和噪声的更一般的退化。考虑了以高斯概率密度函数N(0,∑)(平均值为零,协方差矩阵为变化∑)为特征的各向异性高斯核。协方差矩阵∑由两个随机特征值λ1、λ2确定∼ U(0.2,4)和随机旋转角θ∼ U(0,π)。噪声级范围设置为[0,25]。在培训期间,
在训练过程中,随机选取32幅HR图像,通过随机旋转和翻转进行数据增强。然后,我们从上述范围中随机选择32个高斯核来生成LR图像。对于一般退化,还将高斯噪声添加到生成的LR图像中。接下来,随机裁剪64个大小为48×48的LR斑块(如第3.2.1节所示,每个LR图像中有两个斑块)及其对应的HR斑块。在我们的实验中,我们将式3中的τ和Nqueue分别设置为0.07和8192。使用β1=0.9和β2=0.999的Adam方法[23]进行优化。我们首先通过优化100个周期的Ldegrade来训练降级编码器。初始学习率设置为1×10−3个,减少到1×10−60个时代之后。然后,我们对整个网络进行了500个时代的培训。初始学习率设置为1×10−4,每125个时期减少一半。总体损失函数定义为L=LSR+Ldegrade,其中LSR是SR结果和HR图像之间的L1损失。
表1,在Set上获得的*4SR.*的PSNR结果:SRMDNF是用无噪声样本训练的SRMD 的一个版本
4.2.各向同性高斯核的无噪退化实验
我们首先使用各向同性高斯内核进行无噪退化的烧蚀实验。然后,我们将DASR与最近的几个SR网络进行比较,包括RCAN[44]、SRMD[42]、MZSR[33]和IKC[12]。RCAN是一种最先进的面向PSNR的双三次降解SR方法。MZSR是一种用于同位素各向异性高斯核退化的非盲零炮SR方法。SRMD是一种用于各向同性各向异性高斯核和噪声退化的非盲SR方法。IKC是一种盲SR方法,仅考虑各向同性高斯核的退化。注意,由于DAN[25]、USRnet[40]和校正滤波器[20]的降解模型与我们的不同,因此我们不包括它们进行比较。这些方法使用s倍下采样器1而不是双三次下采样器作为等式1中的下采样操作。为了与[25,40,20]进行公平比较,我们使用其降解模型重新训练DASR,并在补充材料中提供结果。
退化表征学习。退化表示学习用于产生区分性表示,以提供退化信息。为了证明其有效性,我们通过删除退化表示学习引入了一个网络变体(模型1)。具体而言,在培训期间,在不改变网络的情况下排除了Ldegrad。此外,取消了退化编码器的单独训练,直接对整个网络进行500个周期的训练。
我们首先比较模型1和4学习到的退化表示法。具体来说,我们使用B100生成具有不同退化的LR图像,并将它们馈送到模型1和模型4以生成退化表示。然后,使用T-SNE方法将这些表示可视化[26]。可以在图3(b)中观察到,我们的退化表示学习方案可以生成区分簇。没有退化表示学习,不同核宽度的退化无法很好地区分,如图3(a)所示。这表明降级表示学习有助于我们的降级编码器学习区分表示,以提供准确的降级信息。我们进一步比较了表1中模型1和4的SR性能。如果去除退化表示学习,模型1无法很好地处理多次退化,并且产生较低的PSNR值,特别是对于较大的内核宽度。相反,模型4受益于退化表示学习提供的精确退化信息,以实现更好的SR性能。
降级感知卷积。使用降级编码器,提取的降级表示通过DA卷积合并,通过预测卷积核和信道调制系数实现对不同降级的灵活适应。为了证明这两个关键组件的有效性,我们首先引入了一个变体(模型2),用普通卷积替换DA卷积。具体来说,退化表示在被送入普通卷积之前,被拉伸并与图像特征连接,如[42]所示。然后,通过删除信道调制系数分支,我们开发了另一个变体(模型3)。请注意,我们调整了模型2和3中的通道数,以确保模型大小具有可比性。从表1中我们可以看到,我们的DASR同时受益于动态卷积核和信道调制系数,从而为各种退化产生更好的结果。
表2.使用各向同性高斯核进行无噪声退化时获得的峰值信噪比结果。注意,当内核宽度设置为0时,降级变为双三次降级。运行时间在Set14上平均。
盲SR与非盲SR。我们进一步研究了DASR网络的上界性能,通过提供基础真值退化。具体来说,我们将降级编码器替换为5个FC层,以直接从真正的降级(即模糊内核)中学习表示。然后,对该网络变体(模型5)进行了500个时期的从头训练。当提供了groundtrue降级时,模型5实现了改进的性能,并以显著的幅度超过SRMDNF。此外,SRMDNF对盲设置下的退化估计误差非常敏感,如果不能准确估计退化,PSNR值会降低(例如,对于σ=3.4,27.55 vs.26.66/26.18)。相比之下,我们的DASR(模型4)受益于退化表示学习,以实现更好的盲SR性能。
退化表征研究。我们的降级表示旨在从LR图像中提取内容不变的降级信息。为了证明这一点,我们进行了实验来研究不同图像内容对退化表示的影响。具体来说,给定一个HR图像,我们首先使用高斯核k生成一个LR图像I1。然后,我们随机选择另外9个HR图片,使用k生成LR图像(Ii(i=2,3,…10)。接下来,从Ii(i=1,2,…10。从图4中我们可以看到,我们的网络通过从不同的图像内容中学习到的退化表示实现了相对稳定的性能。这表明我们的降级表示对图像内容变化具有鲁棒性。

与以前的网络进行比较。我们将DASR与RCAN、SRMD、MZSR和IKC进行了比较。这些网络的预先训练模型用于按照其默认设置进行评估。定量结果如表2所示,而可视化结果如图5所示。注意,MZSR2 /IKC仅针对×2 /4 SR进行测试,因为其针对其他比例因子的预处理模型不可用。对于非盲SR方法(SRMD和MZSR),我们首先进行退化估计以提供退化信息。由于KernelGAN非常耗时(表1),因此使用IKC中的预测子网络来估计退化。
从表2可以看出,RCAN在双三次退化(即内核宽度0)方面产生最高的PSNR结果,而当测试退化与双三次不同时,性能相对较低。尽管SRMDNF和MZSR可以适应估计的降解,但这些方法对降解估计敏感,如表1所示。因此,降解估计误差可能会被SRMDNF和MZSR放大,从而导致SR性能有限。由于使用迭代校正方案来校正估计的退化,IKC优于SRMDNF,获得了更高的PSNR值。然而,IKC由于其迭代而非常耗时。与IKC相比,我们的DASR网络在不同的降级情况下都能以更短的运行时间获得更好的性能。这是因为,我们的退化表示学习方案可以提取“良好”的表示,以在单个推理中区分不同的退化。

不同方法获得的可视化结果如图5所示。由于RCAN是针对固定的双三次退化进行训练的,因此当实际退化与双三次降解不同时,它无法可靠地恢复丢失的细节。尽管SRMDNF可以处理多个降级,但降级估计错误可能会导致故障。通过迭代修正估计的退化,IKC获得了比SRMDNF更好的性能。与其他方法相比,我们的DASR产生的结果具有更清晰的细节和更高的感知质量。
4.3.各向异性高斯核和噪声的一般退化实验
我们进一步进行各向异性高斯内核和噪声的普遍退化实验。我们首先分析从一般退化中获得的表示,然后在盲设置下比较DASR与RCAN、SRMDNF和IKC的性能。退化表征研究。实验旨在研究两种不同成分(即模糊核和噪声)对退化表示的影响。我们首先在图6(a)中用各种模糊核可视化无噪声退化的表示。然后,我们随机选择一个模糊核,并在图6(b)中可视化不同噪声级别的退化表示。可以观察到,我们的降级编码器可以很容易地将具有不同噪声级别的降级分为不同的组,并大致区分不同的模糊核。
与以前的网络进行比较。我们使用9个典型的模糊核和不同的噪声级别进行性能评估。为了使用RCAN、SRMDNF和IKC超分辨含噪LR图像,我们首先在盲设置下使用DnCNN[41](一种最先进的去噪方法)对LR图像进行去噪。由于IKC的预训练模型仅在各向同性高斯核上训练,因此我们进一步对各向异性高斯核上的模型进行微调,以便进行公平比较。微调IKC模型的预测子网络用于估计SRMDNF的降解。

从表3可以看出,RCAN在复杂降解方面的性能相对较低,因为它只接受了双三次降解的训练。由于SRMDNF对退化估计误差敏感,因此其在复杂退化中的性能有限。通过迭代修正估计的退化,IKC对SRMDNF表现良好。然而,IKC更耗时,因为需要多次迭代。与专注于像素级退化估计的IKC不同,我们的DASR探索了一种有效但高效的方法来学习区别表示法,以区分不同的退化。使用我们的退化表示学习方案,DASR在不同模糊核和噪声水平下的峰值信噪比(PSNR)优于IKC,运行时间减少了7倍以上。图7进一步说明了不同方法产生的可视化结果。我们的DASR实现了更好的视觉质量,而其他方法则存在明显的模糊瑕疵。
在这里插入图片描述
在这里插入图片描述
4.4.真实降解实验
我们进一步进行真实降解实验,以证明我们的DASR的有效性。继[42]之后,利用各向同性高斯核训练的DASR对真实图像进行评估。可视化结果如图8所示。可以观察到,我们的DASR产生了更具视觉前景的结果,细节更清晰,模糊伪影更少。

五、结论

在本文中,我们提出了一种用于盲SR的无监督退化表示学习方案,以处理各种退化。我们没有明确估计退化,而是使用对比学习来提取区分性表示来区分不同的退化。此外,我们还引入了一种退化感知SR(DASR)网络,该网络基于学习的表示形式,能够灵活地适应不同的退化。结果表明,我们的退化表示学习方案可以提取有区别的表示,以获得准确的退化信息。实验结果表明,我们的网络对于各种退化的盲SR都达到了最先进的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值