由三维面部先验指导的面部超级分辨率（读书笔记）

阿里山菇凉

已于 2022-09-14 13:21:14 修改

阅读量1k

点赞数

分类专栏：人脸超分辨阅读论文（读书笔记）文章标签：经验分享

于 2022-09-03 11:03:09 首次发布

本文链接：https://blog.csdn.net/weixin_55761679/article/details/126311920

版权

人脸超分辨阅读论文（读书笔记）专栏收录该内容

7 篇文章 2 订阅

订阅专栏

Face Super-Resolution Guided by 3D Facial Prior

3D：由三维面部先验指导的面部超级分辨率

1 摘要 Abstract

主要贡献：

背景：最先进的（State-of-the-art）面部超分辨率方法采用深度卷积神经网络（deep convolutional neural networks ），通过探索局部外观知识来学习低分辨率和高分辨率面部模式之间的映射。（mapping)

痛点：这些方法大多不能很好地利用面部结构和身份信息（facial structures and identity information），并且难以处理表现出巨大姿态变化（large pose variations）的面部图像。

解决：我们提出了一种新的面部超分辨率方法，该方法显式地结合了3D人脸先验（ 3D facial priors），从而掌握了清晰的人脸结构。

主要内容：

（1）方法

首先，设立了一个三维人脸渲染分支（3D face rendering branch），以获得突出的面部结构和身份知识的3D先验。

其次，空间注意模块（the Spatial Attention Module）被用来更好地利用这种层次信息（即强度相似性、三维面部结构和身份内容 intensity similarity, 3D facial structure, and identity content）来解决超分辨率问题。

方法特色：

（2）创新点

1. 此方法是第一个是探索基于面部属性 face attributes（如身份、面部表情、纹理、光照和面部姿势identity, facial expression, texture, illumination, and face pose）参数化描述的三维可变形知识(3D morphable knowledge )。

2. 这些先验因素可以很容易地被纳入任何网络中，并且在提高性能和加速收敛速度方面非常有效

关键词：人脸超级分辨率，三维面部先验，面部结构和身份知识

2 介绍 Introduction

问题的背景和起源：

人脸图像为人类观察以及计算机分析提供了关键线索。然而，大多数人脸图像任务的性能，如人脸识别和面部情绪检测（ face recognition and facial emotion detection），当人脸图像的分辨率相对较低时，其性能会急剧下降。因此，脸部超分辨率 face super-resolution，也被称为脸部幻觉 face hallucination，是为了从低分辨率的对应物中恢复高分辨率的脸部图像。

交代前人在这个题目上已经有过的主要贡献，说清楚前人留下来的未解问题：

尽管大量的深度学习方法已经成功地应用于人脸超级分辨率（SR）问题，但由于SR问题的不确定性（ the ill-posed nature ），以及学习和整合强先验因素到人脸幻觉模型（face hallucination model）的难度，任意人脸图像的超级分辨率，特别是在高放大系数下，仍然是一个开放和具有挑战性的问题。

论文想解决的问题和它的重要性：

作者提出了一种新的人脸超分辨率方法，利用三维人脸先验来掌握清晰的人脸结构和身份知识。首先，建立了一个深度的3D人脸重建分支（a deep 3D face reconstruction branch），以明确地获得三维人脸渲染先验（3D face render priors），从而促进人脸超分辨率分支。

具体来说：

三维面部先验包含丰富的层次特征（ hierarchical features），如低层次（如锐边和光照sharp edge and illumination）和感知层次 perception level（如身份）信息。然后，采用空间注意模块将三维面部先验自适应地整合到网络中，其中我们采用空间特征变换spatial feature transform（SFT）来生成空间特征调制（spatial feature modulation）的仿生变换参数（affine transformation parameters）。之后，在将注意力模块加入网络后，鼓励网络学习三维面部先验和输入图像之间的特征的空间相互依赖性（spatial inter-dependencies ）。

效果对比：

通过嵌入三维渲染的人脸先验，作者的算法与其他基于二维先验的方法相比，产生了更清晰、更鲜明的面部结构，没有任何重影伪影。

本文的主要贡献是：

通过明确利用面部先验估计形式的面部结构，提出了一种新型的面部SR模型。估计的三维面部先验不仅提供了面部组件的空间信息，还提供了它们的三维可见性信息（3D visibility
information），而这些信息被像素级内容 the pixel-level content 和二维先验 2D priors （例如地标热图和解析图 landmark heatmaps and parsing maps）所忽略。
为了很好地适应低分辨率人脸图像的三维重建 the 3D reconstruction ，我们提出了一个新的皮肤感知损失函数 skin-aware loss function ，将构建的三维系数 3D coefficients 投影到渲染的图像上 the rendered images 。此外，我们使用一个基于特征融合的网络 feature fusion-based network，通过采用空间注意力模块，更好地提取和整合面部渲染的先验。
作者提出的三维面部先验具有很高的灵活性，因为它的模块化结构 modular structure 允许轻松插入任何SR方法（例如，SRCNN和VDSR）。我们对所提出的 多尺度面部超分辨率算法 algorithm on multiscale face super-resolution 进行了定性和定量的评估，特别是在非常低的输入分辨率下。与最先进的人脸超分辨率方法相比，所提出的网络实现了更好的超分辨率标准和卓越的视觉质量 SR criteria and superior visual quality 。

3. main bodies

3.1 本文提出的人脸超级分辨率架构 proposed methods

我们的模型由两个分支组成：最上面的模块是一个ResNet-50网络，用于提取三维面部系数 the 3D facial coefficients 并恢复清晰的面部渲染结构 sharp face rendered structure 。底部模块由面部系数和渲染的清晰面部结构引导，专门用于面部超分辨率，这些结构由空间特征变换（SFT）层连接起来 Spatial Feature Transform layer。

人脸超分辨率框架由两个分支组成：提取人脸先验的三维渲染网络和旨在利用先验解决人脸超分辨率问题的空间注意力模块。

过程：

给定一个低分辨率的面部图像，我们首先使用三维渲染分支来提取三维面部系数。然后，使用三维系数生成高分辨率的渲染图像，并将其视为高分辨率的面部先验，以促进空间注意模块中的面部超分辨率过程。

3.2 阅读 main bodies 时思考的问题

（3A） ：这篇论文的主要假设是什么（在什么条件下它是有效的），并且评估一下这些假设条件在现实条件下成立的难度。越难成立的假设越不好用，参考价值也越低。
（3B） ：在这些假设下，这篇论文主要有什么好处。
（3C） ：这些好处主要表现在哪些公式、哪些项目的简化上。

主要假设条件：

现有的人脸SR算法只使用二维先验，不考虑高维信息(3D)的前提下，提出创新3D形态人脸先验，并且与近期相关的2D先验研究(如FSRNet的解析图和人脸地标热图，F AN的地标热图提取)完全不同。

这些假设在当时现实条件下比较普遍，参考价值高

主要理论依据：

3D系数含有丰富的层次知识，如身份、面部表情、纹理、光照和面部姿势。此外，与基于二维地标的先验相比，二维地标的先验只关注可能导致面部扭曲和伪影的不同点，我们的3D先验是明确和可见的，即使是大的姿态变化和部分遮挡，也可以生成真实和鲁棒的HR结果，大大减少了伪影。

主要成果：

（a）和（d）低分辨率输入。（b）和（e）我们渲染的面部结构。（c）（f）基本事实。如图所示，重建的面部结构提供了清晰的空间位置和面部组件的清晰可视化，即使对于大的姿势变化（例如，左和右面部姿势位置）和部分遮挡也是如此。

渲染后的人脸预测包含清晰的空间知识和鲜明的视觉质量的面部组件，即使在包含大的姿势变化的图像中，如图3第二行所示，也接近于地面真实情况。将重建的人脸图像作为超分辨率网络中的附加特征连接起来。人脸表情、身份、纹理、光照元素拼接和人脸姿态被转换为四个特征图，并输入超分辨率网络的空间特征转换块。

主要发展过程：

利用面部幻觉的面部先验，如面部成分[29]的空间配置，是区分其与一般超分辨任务的关键因素。目前已有一些利用人脸先验知识对LR人脸进行超分辨的人脸SR方法。Wang和Tang[33]从LR和HR人脸图像中学习子空间，然后根据LR输入的PCA系数重构出HR输出。Liu等人[23]建立了马尔可夫随机场(MRF)，以减少由于LR图像中的不对齐造成的重影伪影。然而，这些方法容易产生严重的伪影，特别是在LR图像中较大的姿态变化和错位。

Yu和Porikli[38]将多个空间变压器网络[15]与反卷积层交织在一起，以处理未对齐的LR面。Dahl等人[5]利用PixelCNN[26]的框架对非常低分辨率的人脸进行超分辨率处理。Zhu等人提出了一种级联双网络CBN，首先对LR面部成分进行定位，然后对面部成分进行上采样;然而，当定位错误发生时，CBN可能会产生鬼影人脸。最近，Yu et al.[35]利用多任务卷积神经网络(CNN)融合人脸的结构信息。Grm等人[10]建立了一个人脸识别模型，作为训练过程中超分辨率网络的身份先验。Yu等人[4]构建了一个端到端SR网络，融合了人脸地标热图和解析图。Kim等人[16]提出了一个人脸对齐网络(F AN)的压缩版本，以循序渐进的方法获得SR网络的地标热图。然而，现有的人脸SR算法只使用二维先验，不考虑高维信息(3D)。在本文中，我们利用三维人脸重建分支提取人脸的三维结构、细节边缘、光照和身份先验来指导人脸图像的超分辨率。

通过人脸三维重建，可以从无约束的二维图像中恢复出人脸图像的三维形状。在本文中，我们采用基于融合人脸属性参数描述(如性别、身份、独特性)的三维形态模型(3DMM)[1,2,6]来重建人脸的三维先验信息。三维重构后的人脸将继承人脸特征，呈现出清晰、尖锐的人脸成分。

与我们最接近的是Ren等人[28]的工作，该工作在人脸视频去模糊的任务中利用了3D先验。我们的方法在几个重要方面有所不同。首先，我们使用空间特征变换块通过自适应调整调制参数对，而不是简单的先验拼接，将三维先验融合到中间层。具体地说，通过对每个中间特征映射在空间上进行仿射变换，调制参数对SFT层的输出进行自适应控制。其次，注意机制嵌入到网络中，作为一种引导，以偏见大部分信息组件的分配和3D先验与输入之间的相互依赖

这一派主要的缺点有哪些：

对于三维人脸可变形模型的实际应用，有一些典型的问题需要克服，包括大的姿势变化和部分遮挡。

如补充材料所示，可变形模型 the morphable model 可以产生大的姿态变化的现实重建，其中包含忠实的面部组件的视觉质量。三维模型也是稳健的，可以准确地恢复被眼镜、头发等部分遮挡的渲染脸。

与其他对未知退化类型视而不见的SR算法相比，作者的三维模型能够稳健地生成三维可变形先验 3D morphable priors ，以指导SR分支掌握清晰的空间知识和面部组件，甚至对于复杂的现实世界应用也是如此。此外，我们的三维先验因子可以插入任何网络，并在很大程度上提高现有SR网络的性能（例如第5节中展示的SRCNN和VDSR）。

3.3 预估 3D脸部先验信息

背景：①对于最先进的边缘预测方法来说，从低分辨率图像中获取非常清晰的面部结构仍然是一个挑战 。② 还存在巨大的面部姿势变化，如平面内和平面外的旋转。需要大量的数据来学习随面部姿势变化的代表性特征。

①提出一个基于3DMM的模型，通过生成由3D系数矢量构建的3D面部图像来定位精确的面部结构.

②从3DMM系数得到一个想法，可以通过简单的数学推导对姿势变化进行分析建模[2, 6]，并且不需要大量的训练集。（论文有的好处）

详细推导公式：

①基于ResNet-50的人脸渲染网络来回归一个人脸系数向量

ResNet-50的输出是x=（α，β，δ，γ，ρ）∈R239的代表性特征向量，其中α∈R80，β∈R64，δ∈R80，γ∈R9和ρ∈R6分别代表身份、面部表情、纹理、光照和面部姿势[6]。

②根据Morphable模型，作者将人脸系数转化为人脸图像的三维形状S和纹理T：

S和T分别是脸部形状和纹理的平均值。

③提出了一个基于成对训练集的三维人脸重建的修正的L2损失函数：

其中j是配对图像的索引，L是训练对的总数，i和M分别表示像素索引和脸部区域，I代表锐利的图像，A是用高斯混合模型训练贝叶斯分类器得到的基于皮肤颜色的注意面具[6]。此外，x代表LR（输入）图像，B（x）表示ResNet-50以输入x为例得到的回归系数，最后R表示用3D系数B（x）渲染的图像。

3.4 系数特征转换 Coefficient Feature Transformation.

我们的3D人脸先验由两部分组成：一部分直接来自渲染的人脸区域（即RGB输入），另一部分来自系数参数的特征变换。系数参数α、β、δ、γ、ρ分别表示身份、面部表情、纹理、照明和面部姿势先验。

3.5 空间注意力模块 Spatial Attention Module

为了利用3D人脸渲染先验，提出了一种空间注意力模块（SAM），以掌握人脸成分的精确位置和人脸身份

SAM由三部分组成：空间特征变换块、剩余信道关注块和高尺度块 a spatial feature transform block, a residual channel attention block, and an upscale block.

SFT层的结构。渲染的人脸和特征向量被视为人脸超分辨率的指导

3D面部先验作为输入。通过在空间上将仿射变换应用于每个中间特征映射，SFT层的输出由调制参数对自适应地控制。具体而言，中间变换参数（µ，ν）通过映射函数从先验ψ导出

3.6 剩余通道注意块 Residual Channel Attention Block.

提出了信道机制，以探索信息量最大的组件和信道之间的相互依赖性，受剩余信道网络的启发，注意力机制由一系列剩余信道注意力块（RCAB）组成，

对于第b个块，RCAB的输出Fb通过以下公式获得：

其中Cb表示频道注意力函数。Fb−1是块的输入，Xb由两个堆叠的卷积层计算。

( 高尺度块是渐进解卷积层（也称为转置卷积） )

4、实验结果 Experimental Results

比较的网络：

非常深的超级分辨率网络（VDSR）[17]，非常深的残余通道注意网络（RCAN）[42]，残余密集网络（RDN）[43]，超级分辨率卷积神经网络（SRCNN）[7]，变换判别自动编码器（TDAE）[38]，基于小波的多尺度人脸超级分辨率CNN（Wavelet-SRNet）[14]。深度端到端可训练的人脸SR网络（FSRNet）[4]，包含二维面部地标热图和解析图的人脸SR生成式对抗网络（FSRGAN）[4]，以及使用二维地标热图先验的通过面部对齐网络的渐进式人脸超级分辨率网络（PSR-F AN）[16]。

作者提出了两个模型：SRCNN+3D和VDSR+3D，将三维面部先验作为一个额外的输入通道嵌入到SRCNN[7]和VDSR[17]的基本主干中。

与最先进方法的视觉比较（×8）。所提方法的结果在脸部组件（如眼睛、嘴和鼻子）上的伪影较少。

消融研究结果: 我们提出的模型与不同配置之间的比较，以及相对于地面真相的PSNR和SSIM。(a)和(e)是输入。(b)和(f)是没有使用渲染先验的SR结果。(c)和(g)是不使用空间注意模块的SR结果。(d)和(h)是我们的SR结果。

与二维热图和解析图优先权相比，我们基于三维面部优先权的方法仍然是提高SR性能的最有效方法。

不同消融配置的定性评价:

SRCNN+3D和VDSR+3D表示包含三维面部先验的基本方法（SRCNN和VDSR）；我们的（SAM3D）指包含三维面部先验的空间注意模块。我们的三维先验使基本方法能够避免关键面部组件周围的一些伪影，并产生更清晰的边缘。

5. 总结 Conclusions

在本文中，提出了一个人脸超级分辨率网络，它结合了渲染的人脸和多维知识的新型三维面部先验。
在三维渲染的分支中，我们提出了一个面部渲染损失，以鼓励高质量的引导图像，提供清晰的面部组件的空间位置和其他层次信息（即表情、照明和面部姿势）。
与现有的二维面部预设相比，我们的三维预设是明确的、可见的和高度真实的，并且可以在很大程度上减少面部伪影的发生。为了很好地利用三维先验并考虑先验和输入之间的通道相关性，我们采用了空间特征变换和注意力块。综合实验结果表明，与SOTA方法相比，所提出的方法取得了优异的性能，并在很大程度上减少了伪影

阿里山菇凉

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
2
评论
由三维面部先验指导的面部超级分辨率（读书笔记）

主要贡献：背景：最先进的（State-of-the-art）面部超分辨率方法采用深度卷积神经网络（deep convolutional neural networks ），通过探索局部外观知识来学习低分辨率和高分辨率面部模式之间的映射。（mapping)痛点：这些方法大多不能很好地利用面部结构和身份信息identity information），并且难以处理表现出巨大姿态变化（large pose variations）的面部图像。解决：我们提出了一种新的面部超分辨率方法，
复制链接

扫一扫