【论文学习】PSFR-GAN:一种结合几何先验的渐进式复原网络

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除!

前言

盲脸恢复: 盲指从LQ输入中恢复出由于低分辨率、噪声、模糊和有损压缩等未知退化的HQ图像。由于其广泛的应用,它引起了越来越多的关注。然而,目前大多数复原方法仍然集中在特定类型的复原上,很少有方法可以很好地泛化到真实的LQ图像。

PSFR-GAN将结合几何先验,以生成具有清晰面部形状和逼真面部细节的图像。
①通过FPN为LQ输入生成解析映射

②以多尺度LQ图像和解析图为输入,通过语义感知风格变换,逐步恢复高质量的人脸细节。

③引入语义感知风格损失,有助于提高不同语义区域的纹理恢复,减少伪影的发生。

PSFR-GAN的源代码已在Github(PSFR-GAN)上公开发布,并提供了相关论文、项目页面和演示。该方法为盲脸复原提供了一种新的思路,也为其他图像复原领域的研究提供了借鉴和参考。


论文

论文名: Progressive Semantic-Aware Style Transformation for Blind Face Restoration
论文网址: 点我转跳哟

恢复效果:
在这里插入图片描述

网络框架

在这里插入图片描述
Note:
①解析图和LQ一起输入;
②风格转化生成调制参数;
③从一个常向量开始上采样直到输出;

创新点详解

渐进式语义感知风格转换

从一个大小为Cx16x16的学习常数F0开始,其中C是通道大小。F0经过几个上样残差块,生成与HQ图像大小相同的最终特征。第 i 个残差块的输出特征定义为Fi,按以下方式逐步上采样:
在这里插入图片描述
其中ΦRES(·)为残差卷积块,ΦUP(·)为上样本残差卷积块,ΦST(·)为样式变换。

ΦST(·)块是框架的关键部分。它们分别从输入对对应的尺度,即LQ图像和解析映射(IiL, IiP)中学习到Fi的风格转换参数yi= (yi,s, yi,b)。(IiL, IiP)通过双三次插值调整为与Fi相同的大小。则ΦST(·)可表示为
在这里插入图片描述
其中Ψ(·)是由多个卷积层组成的轻量级网络。µ(·)和σ(·)是特征的均值和标准差。

语义感知风格损失

通常用于风格迁移的格拉姆矩阵损失对恢复纹理有很大帮助。为了更好地合成纹理细节,引入语义感知风格损失Lss,它分别计算每个语义区域的格拉姆矩阵损失。利用VGG19中relu31、relu41和relu51层的特征来计算损失。将 i 表示为VGG19中的第 i 层特征,将标签j的解析掩码表示为Mj(背景表示为M0),则语义感知风格损失表示为
在这里插入图片描述在这里插入图片描述

其中⊙是按元素乘积,而使用了“1e-8”来避免分母为零。

损失函数

Lrec 重建损失
在这里插入图片描述
Lrec中的第二项是多尺度特征匹配损失,它匹配了I^H和IH的鉴别器特征。s 属于{1, 1 2, 1 4}为下尺度因子,Dks(·)为Ds中的第 k 层特征。

LGAN对抗损失:
使用多尺度鉴别器和铰链损失作为对抗损失函数,定义为

在这里插入图片描述
总体损失:
在这里插入图片描述
其中λrec = 10, λss = 100, λadv = 1。。PSFR-GAN的训练方法是交替最小化LG 和LGAN_D

实验

数据集

训练集: FFHQ,70000张人脸

测试集-合成: CelebAHQ,2800张人脸

测试集-真实: CelebA、VGGFace、IMDB-WIKI、真实世界中采集LQ图像,1,157张。

退化方式:
在这里插入图片描述

训练细节:

  • 1个Tesla V100 gpu
  • batch size:4
  • 优化器:Adam,β 1= 0.5,β 2= 0.999
  • 学习率:0.0001、0.0004

实验-合并

盲脸复原: 定量结果和定性结果如下:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

为盲脸修复设计的方法仍然优于其他方法。PSFR-GAN的FID评分大大超过其他方法,比DFDNet的第二好结果高出20%。

对比PULSE

在这里插入图片描述

PULSE是一种基于优化的方法,需要对每个LQ输入进行仔细的微调。仍然观察到几个典型的失败,PULSE不能保证人脸身份。

设计分析

在这里插入图片描述

高级语义信息首先出现,然后是中级形状和边缘,最后是低级颜色和细节。

在图6(c )和图6(d)中分别分析了IiL, IiP的影响。

图6 ( c ) 和图6(d)的第一列显示了分别使用IiL, IiP作为输入的结果。在图6©的第一张图像中,鼻子和嘴巴的边界不清楚,脸颊区域有很多伪影。

这表明,没有解析图作为输入的网络只会使双三次结果(图6(b)中的第一行和最后一列)更加清晰,并且难以理解每个区域的语义。

当逐步添加 IiP时,伪影逐渐被去除,边缘更加清晰。在图6(d)中,可以看到各个阶段的语义区域都很清晰,例如鼻子和牙齿部分。然后,使用IiL条目添加颜色和纹理细节。

综上所述,PSFR-GAN通过多尺度输入调制特征,逐步恢复LQ图像,其中IiL提供低级颜色和纹理信息, IiP提供语义和形状信息。

消融实验

为了探索解析图引导和语义感知风格损失Lss的有效性,评估了框架的四种变体:

A,仅IL作为输入的基线模型;
B,以(IL, IP)作为输入但不含Lss的基线模型;
C,以IL为输入和Lss的基线模型;
D,PSFR-GAN。

可以看到,解析地图在人脸图像恢复中起着重要的作用,并且取得了最大的改进,Lss也有利于恢复结果。通过两者的结合,PSFR-GAN可以达到最佳性能。下面显示了PSFR-RealTest上的一些示例结果
在这里插入图片描述
在这里插入图片描述

总结

总结:PSFR-GAN是一种多尺度渐进式人脸恢复网络,通过语义感知风格转换,对LQ人脸输入进行从粗到精的恢复。还提出了基于原始克矩阵损失的语义感知风格损失。通过对LQ输入的人脸分析网络(FPN)进行预训练,框架可以在不需要额外输入的情况下生成高分辨率和真实的HQ输出。

致谢

欲尽善本文,因所视短浅,怎奈所书皆是瞽言蒭议。行文至此,诚向予助与余者致以谢意。

参考

[1]. Chaofeng C, Xiaoming L, Lingbo Y, Xianhui L, Lei Z, Kwan-Yee K W, et al. Progressive Semantic-Aware Style Transformation for Blind Face Restoration[C], Computer Vision and Pattern Recognition, 2021, abs/2009.08709: 11896-11905.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值