【论文学习】Panini-Net:一种可根据退化程度动态融合特征复原方法

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除!

前言

盲人脸复原(BFR)旨在从低质量(LQ)图像中恢复高质量(HQ)图像,低质量(LQ)图像通常受到复杂的退化,如噪声、模糊和下采样。对于任意给定的LQ图像,可能存在多个HQ解,BFR是一个病态的逆问题。

新兴的高质量面部恢复(FR)方法通常使用预训练的GAN模型(即StyleGAN2)作为GAN先验。一般是将退化的人脸图像编码到预训练GAN的潜在空间中,利用GAN先验算法中隐含的丰富细节。由于潜在空间维数低,空间表达能力差,往往不能完全捕捉到降级后人脸图像的面部结构,通常表现为身份不一致。

为了进一步捕获退化的人脸图像的面部结构信息,同时保持GAN先验所贡献的真伪,而且还将外部特征与GAN先验特征融合在一起。这些方法比以前基于GAN先验的FR方法在恒等一致性方面取得了显著的改进。

缺点:没有为退化感知特征融合提供明确的设计,从而导致在面对不同退化水平时视觉质量的鲁棒性不足。

因此,如何退化感知及提高模型的鲁棒性成为了一个关键问题?

Panini-Net通过无监督退化表示学习策略来提取退化图像的判别退化表示,并作为动态融合的全局条件,以生成具有清晰面部形状和逼真面部细节的图像,具有下列特点:

①退化感知特征插值(DAFI)模块。
②无监督退化表示学习策略。
③特征提取模块。


论文

论文名: Panini-Net: GAN Prior Based Degradation-Aware Feature Interpolation
for Face Restoration
论文速递: 点我转跳哦
代码通道: Github(Panini)

网络框架

在这里插入图片描述

Panini-Net:由图像特征提取模块、退化感知特征插值(DAFI)模块和预训练的StyleGAN2作为GAN先验模块(GPM)组成。

给定退化的人脸图像X作为输入,图像特征提取模块提取特征FiIFE, i∈{1,…, 5},并预测潜在代码w+∈R18×512。潜在码w+可以从GPM中粗略提取出相似的高质量人脸。然后,利用5个DAFI块(记为DAFI)将FiIFE逐步插值到FiGPB中,得到退化后人脸图像的有效结构信息。预训练的退化表示编码器(DRE)将退化表示编码为矢量vDR,是指导DAFI块进行恢复的全局条件。

网络详解

图像特征提取模块

图像特征提取模块从降级的人脸图像中提取特征FIFE,生成潜在代码w+。给定输入图像X,使用图像特征提取器(IFE)逐步提取初步特征 F ‾ \overline{F} Fi IFE∈RCi×Hi×Wi:
在这里插入图片描述
其中H6IFE(·)为密集块,HiIFE(·),i∈{1,…,5},只是一个卷积层。

为了避免相邻特征的耦合,增加额外的卷积分支,进一步提取特征Fi IFE∈RCi×Hi×Wi∈RCi×Hi×Wi作为最终的融合特征:
在这里插入图片描述
最后,使用由卷积层和全连接层组成的潜在码编码器(latent code encoder, LCE)预测潜在码w+∈R18×512,表示为
在这里插入图片描述

退化感知特征插值模块

退化感知特征插值(DAFI)模块由退化表示编码器(DRE)和多个DAFI块(记为DAFIi, i∈{1,…,5})。
在这里插入图片描述

DRE的目的是提取退化后的人脸图像的退化表征。采用无监督退化表示学习(UDRL)策略对DRE进行预训练。

具体来说,通过对两个不同的图像应用相同的退化函数,得到两个退化图像xquery和xkey。以x键作为x查询的正例,使用MoCo 框架进行对比训练。将xquery作为Encoder生成向量q的输入,将xkey作为动量编码器生成向量k0的输入。动量编码器生成的历史可以形成一个队列k0, k1,…对于每个q,由于k0是由x键生成的,与x查询具有相同的退化模式,因此向量k0应该与q相似,而队列中的其他向量应该与q不同。使用InfoNCE loss作为训练目标,鼓励q的编码接近k0,远离k1, k2,…, kn,公式为:

在这里插入图片描述
首先使用UDRL策略在MoCo框架下对DRE进行预训练,然后使用固定DRE对Panini-Net进行微调。给定退化图像X,其退化表示(DR)被有效地编码为向量vDR∈R1×256 :
在这里插入图片描述
在这里插入图片描述
如图3所示,在全局条件为vDR的情况下,每个DAFI块首先应用一个专用的MLP,然后进行Softmax操作,生成一个自适应的感知降级的信道掩码mask∈R1×Ci , i∈{1,…,5},即:
在这里插入图片描述

图像特征与GAN先验之间的退化感知插值公式为:
在这里插入图片描述
其中⊙表示通道的乘法。

接下来,将FiGPB替换为FiDAFi作为(i +1)个GAN先验块(GPBi+1)的输入, i∈{1,…,5},即:
在这里插入图片描述
最后输出如下:
在这里插入图片描述

损失函数

首先通过UDRL策略预训练DRE,然后加载预训练的StyleGAN2 生成器作为GPM。最后,微调整个Panini。

为了提供稳定的退化表示,微调期间固定了DRE的参数。Panini-Net的其余参数是可学习的。使用标准L1损失、VGG感知损失和vanilla对抗损失作为微调的目标。StyleGAN2的预训练鉴别器也用于对抗性训练。


实验

数据集

训练集: FFHQ,70000张人脸

测试集: CelebA-HQ数据集中提取1000张图像

退化方式:
在这里插入图片描述

训练细节:

  • batch size:8
  • 优化器:Adam + 余弦退火
  • 迭代次数:600K

实验-合成数据

PSNR, FID ,LPIPS 作为定量比较的指标。主观和视觉结果如表1和图4所示,可以清楚地看出Panini-Net在平衡图像真实性和身份一致性方面的明显优势。Panini-Net修复的图像在视觉质量上与地面真实情况相当,即使退化严重。定量结果和定性结果如下:

在这里插入图片描述
在这里插入图片描述

实验-人脸超分

在本实验中,使用FFHQ数据集作为GT,并使用16×双线性插值作为下采样操作生成低分辨率(LR)图像,从而形成GT-LR对进行训练。固定比例的下采样可以看作是一个常数退化。具体来说,针对16× SR任务简化了Panini-Net:
(1)去除DRE并用一个可学习的常数向量表示vDR
(2)调整一些相关的卷积以适应输入图像的新尺寸。

定量结果和定性结果如下:
在这里插入图片描述

在这里插入图片描述

消融实验

DAFI中的插值操作可以更好地保留GAN先验特征中封装的细节,而全局条件指导可以帮助DAFI更好地处理特征融合。
在这里插入图片描述

在这里插入图片描述
为了研究退化水平与插值比率之间的相关性,退化过程中固定了σ, δ, q,同时选择下采样率r分别为16,32,64,128。

使用这四个函数对单幅HQ图像进行处理,得到4张具有相同内容但退化程度不同的退化人脸图像{X↓16,X↓32,X↓64,X↓128}。

将这四幅图像分别输入Panini-Net。由于Panini-Net采用逐层递进插值,早期的DAFI, i∈{1,…, 5}的影响较弱,而DAFI5对恢复的影响是确定的。因此,对于每张降级的人脸图像,只记录DAFI5的插值掩码。为简单起见,将mask5∈R1×512的所有元素相加,并将其除以维数,得到在(0,1)范围内的比率θ,定义为
在这里插入图片描述
显然,θ可以粗略地反映特征F5GPB的使用率,记录如表4所示。在DAFI5中,θ与退化程度呈明显正相关,退化严重时,θ增大。这意味着当退化变得严重时,Panini-Net倾向于利用更多的GAN先验信息,符合预期。
在这里插入图片描述

依次按照下列顺序改变融合策略,通过手动将权重置零实现的,即单独使用FGPB和FIFE,发现分别可以产生合理的结果,暗示了DAFI的编辑潜力。

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

总结

总结:Panini-Net,它可以根据退化程度动态融合特征。DAFI提供了一种简洁有效的将外部特征融合到GAN先验中的方法。此外,插值形式(如空间插值)和掩码生成方式还有很大的探索空间。插值运算的特点使得能够探索恢复结果的可编辑性。

致谢

欲尽善本文,因所视短浅,怎奈所书皆是瞽言蒭议。行文至此,诚向予助与余者致以谢意。

参考

[1]. Yinhuai Wang, Yujie Hu, Jian Zhang. Panini-Net: GAN Prior Based Degradation-Aware Feature Interpolation for Face Restoration.[C], AAAI Conference on Artificial Intelligence, 2022: 2576-2584.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值