Unsupervised Cross-View Facial Expression Image Generation and Recognition阅读笔记

摘要

文中提出了一种无监督的跨视图人脸表情自适应网络(UCFEAN),以无监督的方式同时生成和识别图像中的跨视图面部表情。UCFEAN的主要思想是将两个具有不同外观的图像空间之间的无监督域自适应转换为具有相同语义内容的特征空间中的半监督学习(SSL)。基于生成对抗性网络(GAN)进行跨视图面部表情的循环图像生成,将无标签的目标图像和有标签的源图像映射到具有相同语义内容的相应特征空间中。这有助于实现目标图像的无监督特征学习。然后,可以使用投影的源特征来学习投影的目标特征中面部表情表示的标签,因为投影的特征在两个域中的分布足够接近,可以通过使用SSL进行知识转移。利用三种方式训练UCFEAN。

  1. 提出了UCFEAN,以无监督的方式生成和识别图像中的跨视图面部表情。其主要思想是将具有不同外观的两个图像空间之间的无监督域自适应(UDA)转换为具有相同语义的特征空间中的SSL;
  2. UCFEAN的模型由两部分组成:基于循环交叉视图人脸图像生成的无监督特征学习 和 在高级特征空间上执行的半监督学习SSL;
  3. 为使UCFEAN模型的训练更好,提出了target synthetic quality assessment、average face of domain、the PingPong Ramp-down三种训练策略;

方法

在这里插入图片描述
在这里插入图片描述
UCFEAN的主干由循环交叉视图图像生成模块(CCIGM)和特征空间中的SSL模块(SFSM)组成
在这里插入图片描述

Cyclic Cross-View Image Generation Module

在这里插入图片描述
循环交叉视图图像生成模块(CCIGM)具有两个目的:1.生成在正面面部图像和非正面面部图像之间的循环交叉视图面部表情图像。2. 通过从目标到源图像的有效面部表情图像自适应来无监督地学习目标特征。CCIGM使用两个类似于CycleGAN的双向GAN。我们改进了生成器bottlenec处的网络结构,使其可以输出类似于RGB图像格式的三通道特征数据。这些features被提供给SFSM用于后续SSL。

在CCIGM中的GAN生成器中,首先通过三个卷积层对输入图像进行下采样,并通过六个SE-Res块进行特征提取[35]。接下来,堆叠三个去卷积层以对特征进行上采样。最后,我们获得了与输入图像大小相同的合成图像。CCIGM中生成器结构如图3所示。
根据实验表明,人脸图像在六个SE Res块上逐渐旋转,并且两个Gan中第三个SE Res块的输出具有最高的特征相似性。对于后续的SSL,修改了第三个SE Res块的参数。修改后的SE-Res块之后的层被视为生成器的解码(O)部分,而剩余的层被认为是编码(E)部分。SE Res区块和修改后的SE Res块的结构如图4所示。在第4.2节和第4.3节c)部分的实验中验证了改良SE Res块的有效性。
在这里插入图片描述
判别器是已有文献[26]如图5所示。我们以从正面人脸图像到非正面人脸图像的生成为例,正面人脸图像Xs被馈送到生成器,Est的输出被提取为正面人脸高级特征fs,Ost的输出是合成的非正面人脸图Xtg。
在这里插入图片描述

Semi-Supervised Learning in Feature Space Module

在SFSM中,引入MT方法对从CCIGM中提取的高级特征执行SSL。MT是一种基于一致性正则化的SSL方法。一致性正则化确保数据的实际扰动不会显著地改变预测器的输出。简言之,模型应该为输入及其现实扰动变量提供一致的输出。
MT方法中使用了两个分类器(学生和教师)。通过在失真的输入图像上使用梯度下降来训练学生分类器(使其任务更具挑战性),并且通过使用基于学生分类器权重的指数移动平均(EMA)来更新教师分类器。教师分类器的结果可以引导学生的训练朝着正确的方向发展。这两个分类器在良性循环中相互改进,直到最终收敛。在所提出的方法中,包括利用Est从Xs提取的源特征fs、利用Ets从Xt提取的目标特征ft、从合格目标合成Xtg到Ets中提取的合成目标特征ftg的三个输入被馈送到学生分类器Cstu,并且ft也被馈送到教师分类器Ctea。因为生成器的高级特征的大小类似于RGB图像,现成的模型ResNet18[36]用于在SFSM中实现这两个分类器。

Target Synthetic Quality Assessment and Average Face of Domain

在本节中,介绍了所提出方法的两个组成部分,目标合成图像质量评估和平均面域(AFD)。在领域自适应中,通常可通过使用具有相应源标签的目标合成图像来训练目标分类器。然而,由GAN的对抗性训练引起的目标合成图像中的各种失真和伪影削弱了如上所述获得的目标分类器的有效性。在所提出的方法中,通过使用在高级特征空间上执行的SSL来训练目标分类器,其中源特征fs是SSL的标签部分,目标特征ft是无标签部分。
为了加速SSL的收敛,将从合成的目标图像中提取的特征作为辅助数据提供给SSL。训练了一个基于神经网络的估计器来评估目标合成的质量是否满足SSL的要求。估计器被训练为回归任务,以评估合成目标图像的质量。训练数据由源图像(其标签为0)和目标图像(其标记为1)组成。输出值越接近1,合成的目标图像质量越好,否则质量较差。注意,该估计器预计对合成的目标图像的失真和扭曲是敏感而不是鲁棒的。因此,训练一个轻量级的神经网络作为目标合成质量估计器( 图6为具体网络结构 )。我们的方法计算AFD而不是landmark points,以提供图像中面部外观布局的辅助几何信息训练UCFEAN。通过对某个域中的所有面部图像进行平均可获得AFD。合成图像与其AFD之间的差异可以用作训练期间的合成外观损失(synthetic appearance loss)。
在这里插入图片描述

The Training of the UCFEAN

UCFEAN的训练是一个涉及生成对抗性学习、UFL和SSL的合作过程。我们的目标是学习目标联合分布P(Xt, Yt)
以及源域和目标域之间的映射函数。目标损失函数介绍如下:

  1. 训练Mq的目的是最小化均方误差(MSR)损失,损失函数如下:
    在这里插入图片描述
  2. SFSM由两项组成,一个是监督分类损失Cstu,一个是Cstu和Ctea之间的无监督特征一致损失
    在这里插入图片描述
    在这里插入图片描述
  3. CCIGM有六项组成,前两项是GANst和GANts的损失函数,第三项是appearance外观一致损失。第五项是合成外观损失,最后一项是语义一致性损失,表示通过SFSM中两个分类器获得的合成图像在两个域中的预测之间的差异及其标签。
    在这里插入图片描述
    在这里插入图片描述
    外观一致损失:
    在这里插入图片描述
    appearance self-distance loss
    在这里插入图片描述
    synthetic appearance loss
    在这里插入图片描述
    semantic consistency loss
    在这里插入图片描述
    乒乓缓降(PPR)策略是为了训练UCFEAN而开发的。术语“乒乓球”表示在训练过程中两个模块的权重更新是互斥的:当一个模块更新时,另一个模块被冻结。术语“ramp-down”意味着在一个“乒乓球”周期中两个模块的训练重复不是固定的,而是随着训练的进行而缓慢减少。
    在训练期间,首先冻结SFSM的权重,并基于等式(11)对CCIGM进行N次训练。然后,CCIGM的权重被冻结,并且SFSM基于(4)等式和EMA被训练N次。如上所述,这两个模块依次进行迭代训练。在训练开始时,两个模块的特征表示之间协作不太好。N的值然后设置为一个大数字,随着训练的继续,N的值逐渐减小。我们使用Sigmoid函数来计算渐变步长值N。
    在这里插入图片描述
    在测试阶段,使用四种方法来获得无标签非正面人脸图像中所描绘的表情的预测类别。第一个计算Ctea,当给SFSM中送非正面人脸图像时,其结果是从教师分类器的输出中获得的。在第二种方法中,我们根据从相应的正面人脸图像中转移的非正面合成图像及其标签的数据来训练基于ResNet18的分类器 (Csyn),以预测真实的目标图像。在第三种方法中,我们将非正面人脸图像的识别视为图像空间中的SSL问题。非正面合成图像是SSL的标签部分,而真正的非正面是无标签部分。MT模型的香草版本用于实现上述SSL(MTours)。最后第四种方法是三种方法的融合(Ctea + Csyn + MTours),并得出真实非正面人脸图像中给定面部表情的最终预测。

实验

实验数据和设置

  1. RaFD Database:RaFD数据库是一组67名受试者的照片,显示了八种情绪表达,分别是愤怒、厌恶、恐惧、快乐、悲伤、惊讶、轻蔑和中立。所有照片都是使用五个相机角度拍摄的,每种情绪都显示在五个不同的面部视图中(0、45、90、135和180),训练集由整个有标签的正面图像和从四种无标签的非正面图像中独立随机选择的60个受试者(约占非正面图像的90%)组成(彼此没有对应关系),其余7个受试人的非正面面部图像(约占无正面图像的10%)构成测试集。基于这一划分们在RaFD数据库上进行了从90到0、45、135和180角度的无监督跨视图面部表情生成和识别实验;
  2. Multi-PIE Database:在Multi-PIE上的实验中使用了正面人脸图像(90)和四种非正面脸图像(0、45、135和180)。所有正面人脸图像和非正面人脸图像中90%的受试者被随机选择作为训练集,10%受试者的剩余图像被用作测试集;
    在这里插入图片描述
    如图9所示,在RaFD数据库上,用所提出的方法生成了具有八种面部表情的正面人脸和非正面合成人脸。左组和右组分别是女性受试者和男性受试者的实验结果。在每组中,第一列显示真实的正面图像,第二至第五列显示角度为180、145、45和0的非正面合成图像,最右侧的列显示由非正面合成物重建的正面图像。
    在这里插入图片描述

Multi-PIE数据集上的消融实验

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值