Designing a Practical Degradation Model for Deep BlindImage Super-Resolution

人们普遍认为,如果假定的退化模型与实际图像中的退化模型不同,则单图像超分辨率(SISR)方法的性能不会很好。尽管一些退化模型考虑了其他因素,如模糊,但它们仍然不够有效,无法覆盖真实图像的各种退化。为了解决这个问题,本文建议设计一个更复杂但实用的退化模型,该模型由随机混洗模糊、下采样和噪声退化组成。具体来说,模糊由两个具有各向同性和各向异性高斯核的(如何通俗的解释一下高斯过程中各向同性和各向异性是什么意思? - 知乎)卷积来近似;

下采样是从最近插值、双线性插值和双三次插值中随机选择的;该噪声是通过添加不同噪声水平的高斯噪声(高斯噪声_百度百科所谓高斯噪声是指它的概率密度函数服从高斯分布(即正态分布)的一类噪声,高斯白噪声包括热噪声和散粒噪声。热噪声亦称白噪声,是由导体电子的热震动引起的,散粒噪声是由形成电流的载流子的分散性造成的,在大多数半导体器件中,它是主要的噪声来源。)

采用不同质量因子的JPEG压缩(JPEG压缩算法步骤原理_一点一点的进步的博客-CSDN博客_jpeg压缩),并通过反向前向摄像机图像信号处理(ISP)管道模型和RAW图像噪声模型生成经过处理的摄像机传感器噪声来合成的为了验证新退化模型的有效性,我们训练了一个深盲ESRGAN超分解器,然后将其应用于具有不同退化的合成图像和真实图像的超分解。实验结果表明,新的退化模型有助于显著提高深超解析器的实用性,从而为实际的SISR应用提供了一个强大的替代解决方案。

1.简介

单图像超分辨率(SISR)旨在从低分辨率(LR)图像y重建自然清晰的高分辨率(HR)对应物x[10,47],由于其高实用价值,最近受到了广泛关注。随着深度神经网络(DNN)的发展,使用前馈DNN实现快速有效的SISR的热潮急剧上升[17,23,25,27,49,61]。本文对此有贡献。
SISR方法将LR图像映射到HR对应图像,而降级模型定义了如何将HR图像映射为LR图像。两种典型的降解模型是双三次插值退化[46]和传统退化[28,45]。前者通过双三次插值生成LR图像。后者可以通过以下公式进行数学建模

 它假设LR图像是通过首先将HR图像与高斯核(或点扩散函数)k[12]卷积得到的,以获得模糊图像x⊗ k、 然后进行下采样操作↓s,比例因子s,加上标准偏差为σ的高斯白噪声n。具体来说,双三次退化可以看作是传统退化的一个特例,因为它可以通过设置适当的零噪声内核来近似[3,52]。退化模型通常由模糊核和噪声水平等因素表征。根据这些因素是否事先已知,基于DNN的SISR方法可以大致分为非盲方法和盲方法。

早期的非盲SISR方法主要用于双三次差值退化[10]。尽管在PSNR[27,61]和感知质量[24,49]方面取得了显著改善,但这些方法通常在真实图像上表现不佳。值得注意的是,这也适用于经过生成性对手损失训练的深层次模型。原因是模糊核对SISR方法的成功起着至关重要的作用[12],而双三次核过于简单。为了弥补这一点,一些作品使用了一个更复杂的退化模型,其中涉及模糊核和加性高斯白噪声(AWGN),以及一个非盲网络,将模糊核和噪声级作为条件输入[3,58]。与基于双三次降解的方法相比,这些方法更适用。是的,他们需要精确估计核和噪声水平。否则性能会严重恶化[12]。同时,只有少数方法专门设计用于SISR的核估计[3]。作为进一步的步骤,一些盲方法建议将核估计融合到网络设计中[16,31]。但对于大多数真实图像(如JPEG压缩图像),这些方法仍然无法产生令人满意的视觉效果。另一种盲SISR方法使用未配对的LR\/HR训练数据,首先从LR图像中提取核和噪声,然后用于从HR图像中合成LR图像以进行配对训练[20]。值得注意的是,在没有核估计的情况下,盲模型仍然具有良好的性能。另一方面,很难从真实图像中收集准确的模糊核和噪声模型。从上述讨论中,我们得出两个结论。首先,退化模型对基于DNN的SISR方法至关重要,一个更实用的退化模型值得研究。其次,现有的盲SISR模型不适用于具有不同退化类型的超分辨率真实图像。因此,我们看到了两个主要挑战:第一是为真实图像设计一个更实用的SISR退化模型,第二是学习一个有效的深盲模型,该模型可以很好地用于大多数真实图像。在本文中,我们试图解决这两个挑战。
       对于第一个挑战,我们认为模糊、下采样和噪声是导致真实图像退化的三个关键因素我们不使用高斯核诱导模糊、双三次下采样和简单的噪声模型,而是建议将这些因素扩展到更实际的因素。具体来说,模糊是通过两个卷积来实现的,其中一个是各向同性高斯核,另一个是各向异性高斯核;下采样更一般,但包括常用的下尺度算子,如双线性和双三次插值;采用不同噪声水平的AWGN(加性高斯白噪声AWGN_百度百科)、不同质量因子的JPEG压缩噪声对噪声进行建模,并采用反向前向摄像机图像信号处理(ISP)流水线模型和RAW图像噪声模型对摄像机传感器噪声进行处理。此外,我们不使用常用的模糊/下采样噪声添加管道,而是执行随机洗牌降级来合成LR图像。因此,我们的新退化模型涉及多个可调参数,旨在覆盖真实图像的退化空间。
对于第二个挑战,我们以端到端的监督方式,基于新的退化模型训练深度模型。给定一幅HR图像,我们可以通过为退化模型设置不同的参数来合成不同的真实LR图像。因此,可以为培训生成数量不限的成对LR\/HR培训数据。特别值得注意的是,此类培训数据不存在偏差问题。通过进一步利用DNN强大的表达能力和先进的训练,深盲模型有望为真实的LR图像产生令人满意的视觉效果。

本文的贡献是

1) 设计了一个实用的真实图像SISR退化模型。它考虑了模糊、下采样和噪声的更复杂退化,更重要的是,涉及退化洗牌策略。

2) 利用我们的退化模型生成的合成训练数据,训练一个盲SISR模型。在不同的退化情况下,它在真实图像上表现良好。

3) 据我们所知,这是首次采用一种新的手工设计的退化模型来实现一般盲图像超分辨率。

4) 我们的工作强调了基于DNNs的SISR方法的实际应用中精确退化建模的重要性。


2.相关工作

由于本文的重点是设计一个实用的退化模型来训练深盲DNN模型,接下来我们将简要概述相关的退化模型和深盲SISR方法。

2.1.降解模型

如引言所述,现有基于DNN的SISR方法通常基于双三次下采样[23,44]和传统降解[26,37,54,59,60],或一些简单变体[11,41,53,56,58]。可以发现,现有的复杂SISR退化模型通常由一系列模糊、下采样和噪声添加组成。为了便于数学计算,通常假设噪声为AWGN,这与实际图像的噪声分布几乎不匹配。实际上,噪声也可能来自摄像机传感器噪声和JPEG压缩噪声,这些噪声通常依赖于信号且不均匀[42]。无论模糊是否精确建模,当超级解析器应用于真实图像时,噪声不匹配足以导致性能下降。换句话说,当涉及到真实图像退化的复杂性时,现有的退化模型是不足的。一些工作没有考虑显式退化模型[29,51]。相反,他们使用训练数据来学习LR到HR的映射,该映射仅适用于训练图像定义的退化。

2.2.深盲SISR方法

设计和训练深非盲的SISR网络取得了显著成就。这就是说,将它们应用于盲SISR是一个非常重要的问题。应该注意的是,盲SISR方法主要用于实际的SISR应用。为此,人们尝试了不同的研究方向。
第一个方向是初步估计给定LR图像的退化参数,然后应用非盲方法获得HR结果。Bell Kligler等人[3]建议在应用非盲ZSSR[45]和SRMD[58]方法之前,通过internalGAN方法估计模糊核。是的,非盲SISR方法通常对模糊核中的错误敏感,产生过锐化或过平滑的结果。为了解决这个问题,第二个方向旨在联合估计模糊核和HR图像。Gu等人[16]提出了一种迭代校正方案,以交替改善模糊核和HR结果。Cornillere等人[8]提出了一种用于联合模糊核和HR图像估计的优化程序,通过最小化经过训练的核鉴别器预测误差。Luo等人[31]提出了一种深度交替网络,由核估计模块和HR图像恢复模块组成。虽然前景看好,但这些方法没有充分考虑噪声,因此对于有噪声的真实图像,往往存在核估计不准确的问题。事实上,噪声的存在会加剧不适定性,尤其是当噪声类型未知且复杂且噪声水平较高时。
第三个方向是学习具有捕获的真实LR\/HR对的监督模型。Cai等人[7]和Wei等人[50]分别用成对的LR\/HR相机图像建立了一个SISR数据集。然而,收集大量对齐良好的训练数据是很麻烦的,并且学习的模型受限于由捕获的LR图像定义的LR域。

考虑到真实的LR图像很少与地面真相HR一起出现,第四个方向旨在使用未配对的训练数据进行学习[48]。Y uan等人[51]提出了一种循环中循环框架,首先将噪声和模糊的LR输入映射到干净的输入,然后通过预先训练的模型超级解析中间LR图像。Lugmayr等人[29]建议通过使用循环一致性损失来学习深度退化映射,然后为监督培训生成LR\/HR对。根据类似的框架,Ji等人[20]建议估计各种模糊核,从LR图像中提取不同的噪声图,然后应用传统的退化模型合成不同的LR图像。值得注意的是,[20]是NTIRE 2020现实世界超分辨率挑战的获胜者,这证明了精确退化建模的重要性。虽然将此方法应用于因更复杂退化而损坏的训练数据似乎很简单,但它也会降低模糊核和噪声估计的精度,从而导致合成LR图像不可靠。
如上所述,现有的深盲SISR方法大多是在理想退化环境或LR训练数据定义的特定退化空间上训练的。因此,假设的退化模型和实际图像退化模型之间仍然存在不匹配。据我们所知,没有现有的深盲SISR模型可以很容易地应用于一般的真实图像超分辨率。因此,有必要设计一个实用的退化模型,以训练用于实际应用的深盲SISR模型。请注意,尽管去噪和去模糊与噪声和模糊图像超分辨率有关,但大多数超分辨率方法都是在统一而非级联的框架中处理模糊、噪声和超分辨率(参见,例如[11、12、20、28、29、30、43、45、51、52、56、58])。


3.实用退化模型

在提供我们新的实用SISR退化模型之前,有必要提及以下关于双三次和传统退化模型的事实:

1.根据传统退化模型,有三个关键因素,即模糊、下采样和噪声,影响真实图像的退化。

2.由于LR和HR图像都可能有噪声和模糊,因此无需像传统退化模型那样采用模糊/下采样噪声添加管道来生成LR图像。

3.传统退化模型的模糊核空间应随着尺度的变化而变化,这使得在实践中很难确定非常大的尺度因子。

4.虽然双三次退化很少适用于真实的LR图像,但它可以用于数据增强,确实是干净、清晰的图像超分辨率的好选择。

受第一个事实的启发,提高退化模型实用性的一个直接方法是使三个关键因素的退化空间尽可能大且逼真。基于第二个事实,我们随后通过对三个关键因素采用随机洗牌策略,进一步扩展退化空间。这样,LR图像也可能是HR图像的噪声、低采样和模糊版本。为了解决第三个问题,我们可以利用核的分析计算,从一个小因子中提取一个大尺度因子。或者,根据第四个事实,对于大比例因子,可以在使用比例因子2进行降级之前应用双三次(或双线性)降尺度。在不丧失通用性的情况下,本文重点为广泛使用的比例因子2和4设计降级模型。在下文中,我们将详细介绍以下方面的降级模型:模糊、降采样、噪声、,和随机洗牌策略。


3.1.模糊

模糊是一种常见的图像退化。我们建议从HR空间和LR空间对模糊进行建模。一方面,在传统的SISR退化模型[28,45]中。这种HR模糊实际上旨在防止混叠,并在随后的下采样后保留更多空间信息。另一方面,真实的LR图像可能是模糊的,因此在LR空间中建模此类模糊是一种可行的方法。通过进一步考虑高斯核足以完成SISR任务,我们执行了两个高斯模糊操作,即具有各向同性高斯核的B_iso和具有各向异性高斯核的B_aniso[3,43,58]。请注意,HR图像或LR图像可能会被两次模糊操作模糊(详细信息请参见第3.4节)。这样可以大大扩展模糊的退化空间。

对于模糊核设置,大小从{7×7,9×9,··,21×21}均匀采样,各向同性高斯核分别从[0.1,2.4]和[0.1,2.8]均匀采样核宽度的比例因子2和4,而各向异性高斯核分别从[0,π]均匀采样旋转角度,从[0.5,6]和[0.5,8]均匀采样标度因子2和4的每个轴的长度。采用反射填充以确保模糊输出的空间大小保持不变。由于宽度为0.1的各向同性高斯核对应于δ(单位)核,因此我们始终可以应用两个模糊操作。


3.2.降采样

为了降采样HR图像,可能最直接的方法是最近邻插值。Y et,得到的LR图像将有0.5×s的偏差− 1) 像素朝向左上角[52]。作为补救,我们将中心21×21各向同性高斯核偏移0.5×(s− 1) 像素通过2D线性网格插值方法[28],并在最近邻下采样之前将其应用于卷积。高斯核宽度从[0.1,0.6×s]中随机选择。我们将这种下采样称为。此外,我们还采用了双三次和双线性下采样方法,分别用Dsbilinear和Dsbicubic表示。此外,还采用了向下-向上采样方法Dsdown-up(=Ds\/a downDaup),该方法首先使用比例因子s对图像进行向下采样,然后使用比例因子a进行向上采样。这里的插值方法是从双线性插值和双三次插值中随机选择的,a是从[1\/2,s]中采样的。显然,上述四种下采样方法在HR空间中有一个模糊步骤,而当a小于1时,Dsdown-up可以在LR空间中引入上缩放诱导模糊。我们在第3.1节中不包括此类模糊,因为它们是在下采样过程中耦合的。我们统一对这四个降采样进行采样,以降低HR图像的比例。


3.3.噪声

噪声在真实图像中普遍存在,因为它可能由不同的来源引起。除了广泛使用的高斯噪声外,我们的新退化模型还考虑了JPEG压缩噪声和相机传感器噪声。接下来,我们将详细介绍这三种噪声类型。

高斯噪声N_G。当没有关于噪声的信息时,高斯噪声假设是最保守的选择[40]。为了合成高斯噪声,采用协方差矩阵∑的三维(3D)零均值高斯噪声模型N(0,∑)[39]。这种噪声模型有两种特殊情况:当∑=σ^2*I时,其中I是单位矩阵,它变成了广泛使用的信道无关加性高斯白噪声(AWGN)模型;当∑=σ^2*1时,其中1是所有元素都等于1的3×3矩阵,它就变成了广泛使用的灰度AWGN模型。在我们的新退化模型中,我们总是添加高斯噪声进行数据合成。特别是,应用一般情况和两种特殊情况的概率分别设置为0.2、0.4、0.4。至于σ,它是从{1\/255,2\/255、··、25\/255}均匀采样的。
JPEG压缩噪音Njpeg。JPEG是用于带宽和存储缩减的最广泛使用的图像压缩标准。是的,它引入了恼人的8×8阻塞伪影/噪声,特别是在高压缩的情况下。压缩程度由质量因子决定,它是[0,100]范围内的整数。质量因子0表示质量较低,压缩程度较高,反之亦然。如果质量因子大于90,则不会引入明显的瑕疵。在我们的新降级模型中,JPEG质量因子统一从[30,95]中选择。由于JPEG是最流行的数字图像格式,我们应用了两个JPEG压缩步骤,可能分别为0.75和1。特别是,后者被用作最终降解步骤。

处理过的摄像头传感器噪声Ns。在现代数码相机中,输出图像是通过将原始传感器数据通过图像信号处理(ISP)管道获得的。实际上,如果ISP管道不执行去噪步骤,经过处理的传感器噪声将通过引入非高斯噪声而恶化输出图像[42]。为了合成这种噪声,我们首先通过反向ISP流水线从RGB图像中获得原始图像,然后在合成的原始图像中添加噪声后,通过正向流水线重建出有噪声的RGB图像。原始图像噪声模型借用自[6]。根据Adobe Digital Negative(DNG)规范[1],我们的前向ISP管道包括去拼接、曝光补偿、白平衡、相机到XYZ(D50)的颜色空间转换、XYZ、D50到线性RGB颜色空间的转换、色调映射和gamma校正。
对于演示,采用了与matlab的演示函数相同的[34]中的方法。对于曝光补偿,从[2中选择全局缩放−0.1, 20.3]. 对于白平衡,红色增益和模糊增益统一从[1.2,2.4]中选择。对于相机到XYZ(D50)的颜色空间转换,3×3颜色校正矩阵是原始图像文件元数据中ForwardMatrix1和ForwardMatrix2的随机加权组合。对于色调映射,我们根据成对的原始图像文件和RGB输出,从[14]中为每个相机手动选择最佳拟合的色调曲线。我们使用五台数码相机,包括佳能EOS 5D Mark III和IV相机、华为P20、P30和Honor V8相机,来建立我们的ISP管道池。请注意,色调曲线和前向颜色校正矩阵不一定来自同一相机。由于色调映射是不可逆的,会导致颜色偏移问题,因此应该对HR图像应用反向正向色调映射。我们以0.25的概率应用此噪声合成步骤。


3.4.随机乱序

传统的退化模型虽然简单且数学上方便,但很难覆盖真实LR图像的退化空间。一方面,真实的LR图像也可能是HR图像的嘈杂、模糊、低采样和JPEG压缩版本。另一方面,假设LR图像是HR图像的双三次下采样、模糊和噪声版本的退化模型也可用于SISR[16,59]。因此,LR图像可能会因不同阶数的模糊、下采样和噪声而降级。因此,我们为新的退化模型提出了一种随机洗牌策略。具体来说,降解序列{Biso、Baniso、Ds、N_G、N_JPEG、N_S}是随机洗牌的,这里的Ds表示具有从{Dsnarest、Dsbilinear、Dsbicubic、Dsdown-up中随机选择的比例因子s的下采样操作。特别是,Ds\/a down和Daup for Dsdown up的顺序可以插入其他降级。请注意,[9]中提出了一种类似的随机洗牌策略,但它是为图像分类和目标检测而设计的,可以用于增强HR图像。


使用随机洗牌策略,降级空间可以大大扩展。首先,其他退化模型,如双三次和传统退化模型,以及[16,59]中提出的模型,都是我们的特例。其次,通过两种模糊操作和四种下采样方法之一的不同安排来扩大模糊退化空间。第三,模糊和下采样可以改变噪声特性,从而扩大退化空间。例如,下采样可以降低噪声强度,使噪声(例如,经过处理的相机传感器噪声和JPEG压缩噪声)对信号的依赖性降低,而Daup(a<1)可以使信号独立的高斯噪声对信号的依存性降低。真实图像中可能存在此类噪声。

图1说明了建议的退化模型。对于HR图像,我们可以通过改变降级操作和设置不同的降级参数来生成具有广泛降级的不同LR图像。如第3节所述,对于比例因子4,我们在比例因子2退化之前,以0.25的概率额外应用双线性或双三次降尺度。
图1.比例因子2的建议降级模型示意图。对于HR图像,首先执行随机洗牌的降级序列{Biso、Baniso、D2、NG、NJPEG、NS},然后应用JPEG压缩降级NJPEG,将LR图像保存为JPEG格式。比例因子为2的降尺度操作,即D2,统一从{D2最近、D2双线性、D2双三次、D2向下向上}中选择。

图1.比例因子2的建议降级模型示意图。对于HR图像,首先执行随机洗牌的降级序列{Biso、Baniso、D2、NG、NJPEG、NS},然后应用JPEG压缩降级NJPEG,将LR图像保存为JPEG格式。比例因子为2的降尺度操作,即D2,统一从{D2最近、D2双线性、D2双三次、D2向下向上}中选择。
 

4.讨论

有必要增加讨论,以进一步了解提议的新退化模型。首先,退化模型主要用于合成退化的LR图像。它最直接的应用是训练具有成对LR/HR图像的深盲超级解析器。特别是,退化模型可以在大型HR图像数据集上执行,以生成无限制的完全对齐的训练图像,这通常不会受到费力收集的成对数据的有限数据问题和未成对训练数据的错位问题的影响。其次,退化模型往往不适合对退化的LR图像建模,因为它涉及太多的退化参数,并且还采用了随机洗牌策略。第三,退化模型可以产生一些在真实场景中很少发生的退化情况,而这仍有望提高训练的深盲超解析器的泛化能力。第四,大容量DNN能够通过单一模型处理不同的降解(参见,例如[55])。值得注意的是,即使超级解析器降低了不切实际的双三次下采样的性能,它仍然是真正的SISR的首选。第五,通过更改降级参数设置和添加更合理的降级类型(例如斑点噪声和未对齐双JPEG压缩[21]),可以方便地修改降级模型,以提高某些应用的实用性。

5.深盲SISR模型训练

本文的新颖之处在于新的退化模型以及借用现有网络结构(如ESRGAN[49])训练深盲模型的可能性。为了展示所提出的退化模型的优点,我们采用了广泛使用的ESRGAN网络,并用新退化模型生成的合成LR/HR配对图像对其进行训练。在ESRGAN之后,我们首先训练一个面向PSNR的BSRNet模型,然后训练面向感知质量的BSRGAN模型。由于像素平均问题[24],面向PSNR的BSRNet模型往往会产生过度平滑的结果,因此面向感知质量的模型更适合于实际应用[5]。因此,除非另有规定,否则我们更关注BSRGAN模型。

与ESRGAN相比,BSRGAN有多种修改方式。首先,我们使用稍微不同的HR图像数据集,其中包括来自FFHQ的DIV2K[2]、Flick2K[27、46]、WED[33]和2000张人脸图像[22],以预先捕获图像。原因是BSRGAN的目标是解决通用盲图像超分辨率问题,除了退化先验,图像先验也有助于超级解析器的成功。

我们还基于图像的拉普拉斯方差去除模糊图像。其次,BSRGAN使用更大的LR补丁大小为72×72。原因是我们的退化模型可以生成严重退化的LR图像,而更大的补丁可以使深层模型捕获更多信息,以便更好地恢复。第三,我们通过最小化L1损失、VGG感知损失和基于谱范数的最小二乘PatchGAN损失[19]的加权组合(分别为权重1、1和0.1)来训练BSRGAN。特别是,VGG感知损失是在预训练的19层VGG模型的第四个而不是第五个最大池层之前的第四次卷积上操作的,因为它更稳定,可以防止颜色偏移问题。我们与Adam一起训练BSRGAN,固定学习率为1×10−5个,批量为48个。

6.实验结果

6.1.测试数据集

现有的盲SISR方法通常是在专门设计的合成数据和很少的真实图像上进行评估的。例如,IKC[16]是在模糊的双三次采样合成LR图像和两个真实图像上进行评估的;KernelGAN[3]是在合成的DIV2KRK数据集和两幅真实图像上进行评估的。因此,据我们所知,仍然缺乏具有不同模糊和噪声退化的真实LR图像数据集。

为了为盲SISR方法的评估铺平道路,我们建立了两个数据集,包括合成DIV2K4D数据集,该数据集包含四个子数据集,共有400个图像,这些图像是由具有四种不同降级类型的100个DIV2K验证图像生成的,而真实的RealSRSet包含20个从互联网下载或直接从现有测试数据集中选择的真实图像[18、35、36、57]。具体来说,DIV2K4D的四种降解类型包括1)类型I:常用的双三次降解;2) 类型II:各向异性高斯模糊,最近的下采样比例因子为4;3) 类型III:各向异性高斯模糊,最近的下采样比例因子为2,随后的双三次下采样比例因数为2,最后的JPEG压缩质量因子从[41,90]均匀采样;类型IV:我们提出的降解模型。请注意,降级类型为II的子数据集和降级类型为III的子数据集中比例因子为2的下采样图像直接从DIV2KRK数据集借用[3]。图2显示了来自两个数据集的一些示例图像,从中我们可以看到LR图像被不同的模糊和噪声退化破坏。我们认为,通用盲超解析器应该在两个数据集上取得良好的总体性能。

图2.来自DIV2K4D和RealSRSet数据集的一些示例图像。从(a)的顶部到底部,我们展示了退化类型II、III和IV生成的示例图像。

表1.DIV2K4D数据集上不同方法的PSNR和LPIPS结果。最佳和次佳结果分别以红色和蓝色突出显示。PSNR结果是在YCbCr空间的Y通道上计算的。

 图3.不同方法对比例因子为4的DIV2K4D数据集的LR图像进行超分辨率处理的结果。测试图像是通过我们提出的退化(即退化类型IV)合成的。

6.2.比较方法

我们将建议的BSRNet和BSRGAN与RRDB[49]、IKC[16]、ESRGAN[49],FSSRDPED[13]、FSSR-JPEG[13],RealSR DPED[20]和RealSR-JPGE[20]进行了比较。具体而言,RRDB和ESRGAN接受了双三次降解方面的培训;IKC是用不同的各向同性高斯核训练的盲模型;FSSR-DPED和RealSR DPED经过训练,以最大限度地提高模糊和噪声DPED数据集的性能;FSSR-JPEG经过JPEG图像超分辨率训练;RealSR JPEG是github上最近发布但尚未发布的模型。请注意,由于我们的新颖之处在于降级模型,并且RRDB、ESRGAN、FSSR-DPED、FSSR-JPEG、RealSR-DPED和RealSR-JPGA使用与我们相同的网络体系结构,因此我们没有重新训练其他模型进行比较。

6.3.在DIV2K4D数据集上的实验不同方法在DIV2K4D数据集中的PSNR和LPIPS(学习感知图像补丁相似性)结果如表1所示。注意,LPIPS用于测量感知质量,较低的LPIPS值意味着超分辨率图像在感知上更接近地面真实。我们从表1中得出了几个结论。首先,正如预期的那样,RRDB和ESRGAN在双三次降解方面表现良好,但在非双三次退化方面表现不佳,因为它们是通过简化的双三次降质进行训练的。值得注意的是,即使接受了GAN的培训,ESRGAN也可以在II-IV退化类型上略微提高LPIPS值,而不是RRDB。

其次,FSSR-DPED、FSSR-JPEG、RealSR DPED和RealSR-JPEG在LPIPS方面的表现优于RRDB和ESRGAN,因为它们考虑了更实际的降级。第三,对于退化类型II,IKC获得了有希望的PSNR结果,而RealSR DPED获得了最佳的LPIPS结果,因为他们在类似退化方面进行了训练。

对于退化类型III和IV,它们的性能严重下降。第四,我们提出的BSRNet获得了最佳的总体PSNR结果,而BSRGAN得到了最佳的整体LPIPS结果。

图3显示了从DIV2K4D数据集超分辨LR图像的不同方法的结果。可以看出,IKC和RealSR JPEG无法消除噪声并恢复锐利边缘。另一方面,FSSR-JPEG可以产生清晰的图像,但也会引入一些伪影。相比之下,我们的BSRNet和BSRGAN比其他方法产生更好的视觉效果。

 

图4.不同方法对比例因子为4的RealSRSet中的超分辨率真实图像的结果。每行中从上到下的LR图像分别为“Building”、“Chip”和“Oldphoto2”。请放大以获得更好的视图。 

6.4.RealSRSet数据集的实验

由于RealSRSet数据集的基本事实不可用,我们采用非参考图像质量评估(IQA)指标,包括NIQE[38]、NRQM[32]和PI[4]进行定量评估。从表2可以看出,BSRGAN没有显示出有希望的结果。如图BSRNet所示,Y et比其他方法产生更好的视觉效果。例如,BSRGAN可以消除“建筑物”的未知处理相机传感器噪声和“Oldphoto2”的未知复杂噪声,同时还可以生成锐利的边缘和精细的细节。相比之下,FSSR-JPEG、RealSR-DPED和RealSR-JPGA会产生一些高频伪影,但其定量结果比BSRNet更好。这种不一致表明,这些无参考IQA指标并不总是与感知视觉质量相匹配[30],IQA标准可以用新的SISR方法更新[15]。我们进一步认为,SISR的IQA度量也应该更新为新的图像退化类型,我们将其留给未来的工作。

我们注意到,我们的BSRGAN倾向于在纹理区域产生“气泡(bubble)”伪影,这可以通过新的损失函数或具有不同纹理的更多训练数据来解决。

表2.RealSRSet数据集上不同方法的无参考NIQE[38]、NRQM[32]和PI[4]结果。最佳和次佳结果分别以红色和蓝色突出显示。请注意,所有方法都使用相同的网络体系结构。

7.结论

在本文中,我们设计了一种新的退化模型来训练深盲超分辨率模型。具体而言,通过使每个退化因子(即模糊、下采样和噪声)更加复杂和实用,并通过引入随机洗牌策略,新的退化模型可以覆盖现实场景中发现的各种退化基于新退化模型生成的合成数据,我们训练了一个用于一般图像超分辨率的深盲模型。在合成和真实图像数据集上的实验表明,深盲模型在受到不同退化的图像上表现良好。我们相信,现有的深超分辨率网络可以从我们的新退化模型中受益,以提高其在实践中的实用性。

因此,这项工作为解决实际应用中的盲超分辨率问题提供了一种方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值