【论文学习】DifFace:一个建立在后验分布上的鲁棒扩散模型

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除!


前言

盲人脸复原(BFR)旨在从低质量(LQ)图像中恢复高质量(HQ)图像,低质量(LQ)图像通常受到复杂的退化,如噪声、模糊和下采样。对于任意给定的LQ图像,可能存在多个HQ解,因此BFR是一个病态的逆问题。

基于深度学习的盲脸修复方法取得了前所未有的成功,但仍然存在两个主要的局限性。当面对训练数据的复杂退化时,它们中的大多数都会恶化。其次,这些方法需要多重约束,例如保真度、感知损失和对抗损失,需要费力的超参数调整来稳定和平衡它们的影响。

因此,不禁反思如何而无需复杂的损耗得到一个鲁棒的扩散模型?

DifFace是这么一个通过建立低质量(LQ)图像到高质量(HQ)图像的后验分布,以生成具有清晰面部形状和逼真面部细节的图像,具有下列特点:

①后验分布:从LQ图像开始到理想HQ图像结束的马尔可夫链。
②在反向扩散过程中部分构建马尔可夫链以利用在预训练扩散模型中捕获的图像。
③没有复杂损失,只需要训练一个具有L2损失的神经网络,简化了训练。


论文

论文名: DifFace: Blind Face Restoration with Diffused Error Contraction
论文网址: 点我转跳哟
代码: Github(DifFace)

恢复效果:
在这里插入图片描述


网络框架

在这里插入图片描述
扩散模型由正向过程(或扩散过程)和反向过程组成。给定一个概率分布为q(x0)的数据点x0,前向过程通过反复应用以下马尔可夫扩散核,逐渐破坏其数据结构:
在这里插入图片描述
其中t∈{1,2,···,t}, {βt} t=1是预定义的或学习到的噪声方差表。

通过合理设计方差表,理论上保证q(xt)收敛于单位球状高斯分布。值得注意的是,任意时间步长t处的边际分布有如下解析形式:
在这里插入图片描述

反向过程的目的是学习一个从xt到xt−1的过渡核,定义为如下的高斯分布:
在这里插入图片描述
其中θ为可学习参数。
有了这样一个学习到的过渡核,可以通过以下的边缘分布近似地得到数据分布q(x0):
在这里插入图片描述


网络详解

将LQ图像和HQ图像表示为y0和x0。为了从退化的HQ图像中恢复HQ图像,目标是设计p(x0|y0)的合理后验分布。

考虑具有T个离散步长的扩散模型,给出了从xt到xt−1的过渡函数。借助这种转变,构造后验分布p(x0|y0)如下:
在这里插入图片描述
其中1≤N <T为任意时间步长。因此,可以使用祖先抽样从时间类型N到1对该后验进行抽样,从y0恢复到x0,如下所示:
在这里插入图片描述
由于转移核pθ(xt−1|xt)可以很容易地从预训练的扩散模型中借用,因此目标转向设计p(xN |y0)的转移分布。

通过深入研究Eq.(6),得到一个重要的观察结果。如果用Eq.(2)中定义的边际分布q(xN |x0)代替p(xN |y0),则Eq.(6)通过预训练的扩散模型退化为x0的扩散和重建过程,即:
在这里插入图片描述

由于在BFR任务中HQ图像x0是不可接近的,因此探索如何设计一个合理的p(xN |x0)来近似q(xN |x0)。
回想一下,目标是设计一个近似于q(xN |x0)的过渡分布p(xN |x0)。幸运的是,目标分布q(xN |x0)的解析形式如式(2)所示。这启发将p(xN |y0)表示为高斯分布,表达式如下:
在这里插入图片描述
f(·;w)是一个参数为w的神经网络,目的是对x0进行初始预测。值得注意的是,最终恢复的结果是通过从Eq.(6)的整个马尔可夫链中采样获得的(见图1),而不是由f(·;w),对于f(·;w),仅用于构造xN的边际分布,
接下来,考虑设计的p(xN |x0)和目标q(xN |x0)之间的Kullback-Leibler (KL)散度。

通过表示f(·;w) = e = x0−f(y0;w),有
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

如图4所示,κN随时间步长N严格单调减小,因此,N越大,越能逼近q(xN |x0),进而通过设计的Eq.(5)的后验分布得到更真实的图像。

在这里插入图片描述

但随着N的增大,xN中包含的噪声越多,如图3所示。因此,过大的N将不可避免地使恢复的结果偏离GT x0。因此,选择N会导致还原HQ图像的真实感和保真度之间的权衡。

与当前基于深度学习的方法在多个约束条件下直接学习从y0到x0的映射不同,本文提出的方法通过从y0预测xN (x0的扩散版本)来规避这一问题。与现有的方法相比,这种新的学习范式带来了几个显著的优势:

错误收缩。 考虑扩散估计量f(·;W),其预测误差记为e = x0−f(y0;w)。BFR问题被重新表述为预测xN,如第4.1节所述。根据Eq. (8), xN可被访问为:

在这里插入图片描述
其中ζ ~ N (ζ|0, I)。可以看出,在提出的预测xN的范式下,预测误差e被√αN的因子收缩,其中√αN小于1,如图4所示。

由于这种误差收缩,对扩散估计量有更大的容错能力。因此,f(·;w)可以在一些合成数据上简单地用L2损失进行训练。与最近的方法相比,这种独特的灵活性绕过了复杂的训练过程。更重要的是,这种压缩错误的能力直观地提高了方法的鲁棒性,特别是在处理严重和复杂的退化时。

扩散先验。通过Eq.(10)得到扩散的xN后,从t = N开始,到t = 1结束,从pθ(xt−1|xt)递归采样,逐渐得到理想的HQ结果。通过该采样过程,有效地利用了预训练扩散模型丰富的图像先验和强大的生成能力来帮助恢复任务。与现有方法不同,由于扩散模型完全是在HQ图像上以无监督的方式进行训练,因此减少了对人工合成的训练数据的依赖,其分布可能偏离真实退化。

这两个内在性质主要通过Eq.(5)中的构造后验传递。这种后验是专门为BFR设计的,以减轻复杂退化引起的鲁棒性问题。因此,为BFR提供了一种新的简单而鲁棒的学习范式,而不是直接应用扩散模型。


实验

数据集

训练集: FFHQ,70000张人脸,附带水平翻转

测试集-合成: CelebA-HQ数据集中提取4000张图像
测试集-真实:

  • LFWTest:1711张图像
  • WebPhoto-Test:407张图像
  • WIDER-Test:970张图像

退化方式:
在这里插入图片描述

训练细节:

  • batch size:16
  • 优化器:Adam + 余弦退火
  • 迭代次数:600k
  • 学习率:1e-4逐渐衰减到1e-6

时间步长

在图5中,展示了一些使用DifFace在不同的起始时间步长N设置下的还原结果。结果表明,可以通过选择不同的N来权衡真实感和保真度。

特别是,如果设置更大的N,与地面真实HQ图像相比,还原结果会显得更真实,但保真度较低。

图6 (a)中FID[15]和LPIPS[51]相对于N的平均分数反映了这一现象。所提出的DifFace在[400,450]范围内表现非常好,因此整个实验中都将N设置为400。
在这里插入图片描述
在实践中,按照将推理速度提高了4倍,从而为每个测试图像采样100步。

扩散估计量。图5显示了一个由DifFace恢复的例子,它将SRCNN[9]或SwinIR[26]作为扩散估计量f(·;w).。

即使最简单的SRCNN只包含几个普通卷积层,DifFace也能够恢复一个可信的HQ图像。使用像SwinIR这样更精细的架构会产生更多明显的细节(例如,毛发)。结果表明DifFace在选择扩散估计量方面具有通用性。在接下来的实验中,使用SwinIR作为扩散估计器

实验-合成

定量结果和定性结果如下:
在这里插入图片描述
总结了CelebA-Test的比较结果。DifFace在所有五个指标上均达到最佳或次优性能,表明其在BFR任务中的有效性和优越性。
在这里插入图片描述

为了进一步验证DifFace的鲁棒性,与最近最先进的方法(即CodeFormer和VQFR)进行比较,在图6 (b)中使用不同退化程度的LPIPS。通过在步骤4中逐步将比例因子从4增加到40,对CelebA-Test中的图像产生不同程度的退化。每个尺度共生成400对图像。图6 (b)记录了不同方法在这400张图像上相对于不同降采样比例因子的平均性能。虽然在小规模因素(轻微的退化)下,DifFace略逊于CodeFormer和VQFR,但在较大的因素(严重的退化)下,它的性能下降得更优雅,并超过了它们。这些结果证实了差分在退化非常严重的情况下的鲁棒性。

实验-真实

他非参考指标,如NIQE、NRQM和PI,对于基于扩散的方法,它们表现得异常悲观。

定量结果和定性结果如下:

在这里插入图片描述
在这里插入图片描述
对比结果总结于表2。可以看到,DifFace在WIDER-Test和LFW-Test上都取得了最好的性能。在WebPhoto-Test中,它也超过了最新的BFR方法。应该注意的是,WebPhoto-Test上的FID值可能不具有代表性,因为该数据集包含的图像太少(总共407张),无法估计恢复图像的特征分布。

图8中展示了这些数据集的三个典型例子。再次观察到,DifFace提供了更好的结果,特别是在具有严重未知退化的第二和第三个示例中。

在这里插入图片描述

大多数现有的BFR方法对于每个LQ输入只产生一个HQ图像,尽管可能有许多合理的可能性。这是因为它们只学习LQ和HQ图像之间的确定性映射。值得注意的是,如图9所示,通过为预训练的扩散模型设置不同的随机种子,DifFace能够为任何给定的LQ图像产生多个不同且合理的HQ解。这种“多元化”的特性在BFR中是有利的,因为存在许多不同的HQ图像,可以产生相同的LQ。

总结

总结: DifFace是一个鲁棒的基于扩散的恢复方法,只依赖于L2损失训练的恢复骨干,极大地简化了大多数当前方法中复杂的训练目标。提出了一个非常适合BFR的后验分布。由过渡核和部分借鉴于预训练扩散模型的马尔可夫链组成。前者作为一个误差压缩器,从而使DifFace对严重的退化具有更强的鲁棒性。后者有效地利用了强大的扩散模型来促进BFR。

限制: 尽管DifFace具有良好的性能,但该方法的推理效率受到继承自扩散模型的迭代采样过程的限制。未来将探索更先进的加速技术,进一步提高其推理速度。

致谢

欲尽善本文,因所视短浅,怎奈所书皆是瞽言蒭议。行文至此,诚向予助与余者致以谢意。

参考

[1]. Zongsheng Yue, Chen Change Loy. DifFace: Blind Face Restoration with Diffused Error Contraction[J], ICLR 2023, 2022

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值