【论文学习】GCFSR:一种无需先验的强度可调的人脸超分框架

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除!

前言

人脸超分辨不同于盲人脸复原,可理解为超分任务的退化类型仅仅是盲人脸的一种,或者说是一种已知退化类型的修复任务。当然,在较大的下采样的情况下恢复难度不小于盲人脸复原任务。

人脸图像超分辨率: 通常依靠人脸先验来还原真实细节和保留身份信息,以前的工作(GFPGAN、GPEN)在GAN先验的指导下取得可观的结果,这得益于复杂的模块来修改固定的GAN先验复杂的训练策略微调生成器

但是请注意GAN先验不完全适用于人脸SR

①先验在特定的数据集上训练的(如FFHQ),相应的人脸SR方法只能处理同一类型的人脸图像(如固定大小的正面人脸),严重限制了其应用。
②由于GAN先验不是专门为人脸SR设计的,必须在网络中添加额外的操作来适应,这是对计算资源的浪费。

因此,不禁反思如何不利用生成先验也能得到一个优秀的模型?

GCFSR就是这么一个摒弃先验的超分框架,将强度控制和调制相结合,以生成具有清晰面部形状和逼真面部细节的图像,具有一下优势:

①生成强度可以交互调节。
②样式调制和特征调制模块。
③GCFSR具有良好的训练性能,端到端可训练的,收敛速度快。


论文

论文名: GCFSR: a Generative and Controllable Face Super Resolution Method
Without Facial and GAN Priors
论文网址: 点我转跳哟
代码: Github(GCFSR)
我的复现记录: 【基于BasicSR的GCFSR复现踩坑】,或许能帮你少走弯路。

恢复效果:
在这里插入图片描述

网络框架

在这里插入图片描述

GCFSR:包含一个编码器(红色)和一个生成器(绿色和蓝色)。编码器网络使用多个跨行卷积层提取多层次特征和潜在码w。生成器使用最顶层的编码特征映射和潜在码w,通过一系列风格调制卷积生成逼真的人脸细节,即这里的风格调制(绿色)。

而特征调制(蓝色)模块控制编码和生成的特征在条件升级因子s下的表达量。以端到端方式训练整个网络。(彩色块是从头开始训练的,而其他块是固定的或不包含可训练的参数。)

网络详解

编码网络: 一个步幅为2的简单卷积神经网络(CNN)。中间特征用{…, f(l+1), f(l)},其中上标表示特征大小的以2为基数的对数。最上面的特征映射f (l)的大小为2l。输入的LR图像通过双三次插值调整为2u的大小,即↑(x)∈R2u×2u×3。形式上,定义
在这里插入图片描述
此外,在最上面的特征上增加了几个卷积层和一个全连接(FC)层来估计潜在代码,w = [w(l), w(l+1) 1,2,…]。],在W+空间中。基于风格的生成器进一步使用潜在代码来生成逼真的面部细节。
在这里插入图片描述

风格调制: 不需要从小的常数特征映射中重新生成。相反,将其替换为最顶层的编码特征,即c = f(l),并令l等于最小输入大小。然后,特征调制将加入多层次编码特征({…, f(l+1), f(l)})和生成的特征({…, g(l+1), g(l)})。融合后的结果在第i层用h(i)表示。因此,生成器可以同时受益于编码和生成的特征,而不需要从头开始生成所有的特征。

在这里插入图片描述

特征调制: 为了在单个模型中处理多因素SR,要保留的输入信息和要生成的输出细节的数量可能会根据升级因子而变化。添加/连接跳跃连接难以满足不同SR任务对一致性和生成能力的各种要求。

特征调制来灵活调节生成强度。首先用一个MLP将上尺度因子s变换为一组尺度向量,σ = {σ(l) 1,2, σ (l+1) 1,2,…}。在第i层,σ(i)1和σ(i)2∈Rchan(i)用于通道明智地调整f (i)和g(i)的贡献,其中chan(i)表示特征通道的维度。为了满足样式调制中单位方差激活的假设,在每个f(i)之后添加一个Conv层来初始调整激活,并将缩放向量归一化为正,并具有通道方向的单位L2范数。形式上,将特征调制定义如下

在这里插入图片描述
输出图像由融合特征h(i)通过tRGB层逐步计算得到。对所有中间RGB输出进行上采样和求和,得到最终输出,y´´= y (u):
在这里插入图片描述

损失函数

损失包含:L1损失,感知损失和对抗性损失。
在这里插入图片描述
总体损失:
在这里插入图片描述
超参数设置为:λl1 = 1, λperc = 0.01, λadv = 0.01。D和G分别被训练为最小化LD和LG。虽然GCFSR是从头开始训练的,但它收敛速度快,并且在基于gan -prior的方法中获得了最好的性能。


实验

数据集

训练集: FFHQ,70000张人脸,附带水平翻转

测试集: CelebA-HQ数据集中提取100张图像

退化方式: 双三次插值来执行降尺度/升尺度

训练细节:

  • 算力:1个Tesla V100 gpu
  • batch size:24
  • 优化器:Adam
  • 迭代次数:30万
  • 学习率:0.001

收敛对比

端到端可训练的GCFSR收敛速度快,并且优于最先进的基于生成先验的方法。在这里插入图片描述

实验-超分

定量结果和定性结果如下:

在这里插入图片描述
在这里插入图片描述
GAN反演方法不能保持良好的保真度,而基于GAN先验的方法取得了总体满意的结果。

低倍数超分,可直接舍弃像素损失:
在这里插入图片描述

强度控制

直接指定条件上尺度因子s = 32,从而获得具有高感知质量的SR结果。此外,可以在s = 32附近调节s,并获得模糊效果(s = 24)或强生成效果(s = 48)。对于没有预先确定的目标上标因子,通过调制仍然可以得到满意的结果。图5第一行中的LR图像按24倍缩小。可以看出,s = 24和s = 32之间(用黄色矩形表示)的调制结果都是令人满意的。同样,对于因子为48的LR图像,可以在[48,64]的范围内连续调节条件上缩放因子s,然后得到纹理细节生动自然的点(例如s = 48)。调制过程产生平滑的过渡,没有任何明显的伪影。

在这里插入图片描述

盲人脸复原

在盲脸恢复(BFR)任务中将升级因子s固定为恒定值(例如,1)。实验结果表明,盲模型在ArcFace嵌入的PSNR、SSIM、LPIPS和余弦相似度方面都取得了最好的性能。此外,可以在FID方面获得可比的结果。
在这里插入图片描述

特征可视化

缩放向量如何工作以实现不同条件上尺度因子的有效特征调制的机制。正缩放向量σenc和σgen通道分别明智地调整来自编码器和生成器的特征。对应于级别64的缩放向量的直方图:σ64enc和σ64gen,如下图。对于σ64enc,随着条件升级因子s的增加,其值接近于0。相反,σ64gen的值接近于1。表明更高的条件上尺度因子对应更强的生成效应,来自编码器的特征被削弱,而来自解码器的特征被加强。其他各级也有类似的趋势。

在这里插入图片描述

风格调制的影响

隐码w由编码器估计,并将用于发生器中的样式调制。与利用潜在代码w生成全局属性(例如姿势)和更精细细节的GAN反演方法不同,w与后者更相关。风格调制的结果具有更真实的细节(例如,睫毛和头发)和更少的伪影(例如,嘴巴生成的坏情况)。
在这里插入图片描述

总结

总结:GCFSR是一种可以处理非常大的人脸识别因子(高达64倍)的框架,并且无需先验。其中,风格调制模块有助于生成逼真的人脸细节,而特征调制模块则在条件上尺度因子的控制下,将多层编码的特征与生成的特征动态融合,更具灵活性。

致谢

欲尽善本文,因所视短浅,怎奈所书皆是瞽言蒭议。行文至此,诚向予助与余者致以谢意。

参考

[1]. Jingwen H, Wu S, Kai C, Lean F, Chao D, et al. GCFSR: a Generative and Controllable Face Super Resolution Method Without Facial and GAN Priors[C], Computer Vision and Pattern Recognition, 2022, 2022(1): 1879-1888.

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值