论文链接:https://arxiv.org/abs/1709.03842
作者:孙裕道
一
引言
人脸表情编辑是在不影响身份属性的前提下,将给定人脸图像的表情转换为目标图像的表情。它在人脸动画、人机交互、娱乐等领域有着广泛的应用,受到学术界和工业界的广泛关注,人脸表情编辑是一项具有挑战性的任务,因为它需要对输入的人脸图像进行高层次的语义理解。传统的方法要么需要成对的训练数据,要么合成的人脸分辨率低。在现实中,面部表情的强度往往表现在一定范围内。例如,人类可以用一个巨大的笑容或一个温柔的微笑来表达快乐的表情。因此,如果能同时控制表达的类型和强度,这是很有吸引力的。
二
核心思想
作者在该论文提出了一种表情生成对抗性网络(ExprGAN),用于表情强度可控的照片真实感面部表情编辑。除编解码器网络外,还专门设计了一个表情控制器模块,用于学习表达性强、结构紧凑的表情代码。这种新颖的结构使得表达强度可以从低到高连续调整。ExprGAN可以应用于其他任务,如表情传递、图像检索和数据扩充,以训练改进的人脸表情识别模型。
三
论文的贡献
本文的贡献可以分为以下四个部分:
作者提出了一种新的模型ExprGAN,它可以将人脸图像转换成具有多种风格的目标表情,并且可以连续控制表情强度。
合成的人脸图像具有较高的感知质量,可以用来提高表情分类器的性能。
身份和表情表示被显式地分离开来,可用于诸如表情传输、图像检索等任务。
本文提出了一种增量训练策略,在相对较小的数据集上训练模型,而不需要对样本进行严格的要求。
四
FxprGAN模型详解
4.1 FxprGAN网络结构
给定一个表情标签为 的人脸图像 ,目标是编辑人脸使其以不同的强度显示一种新的表情。本文的方法是根据原始图像 和表达式标签 训练ExprGAN,FxerGAN的网络结构如下所示。
ExprGAN首先应用编码器 将图像 映射为保持身份隐特征表示的 。然后,采用一个表情控制器模块 是将one-hot表情标签 转换为一个更具表达力的表情代码 。为了进一步约束 的元素以捕捉表情的各个细节,利用正则化器 最大化 与生成图像之间的条件互信息。最后,解码器 结合 和 的信息生成重构图像 。为了进一步提高生成的图像质量,解码器 使用鉴别器 来细化合成图像 具有照片逼真的纹理。此外,为了更好地捕获人脸流形,在编码器 上使用了一个鉴别器 ,以确保学习到的身份表示被填充。
4.2 表情控制网络 ,
在以往的条件图像生成方法中,条件变量通常采用二进制的one-hot向量,这足以生成对应于不同类别的图像。然而,需要对合成的面部表情进行更强的控制:除了生成不同类型的表情之外,还想改变表情强度。为了实现这一目标,设计了一个表情控制器模块 ,以确保表情代码 能够描述除类别信息外的表情强度属性。此外,还提出了一个正则化器网络 来增强