人脸识别入门论文《Deep Facial Expression Recognition: A Survey》学习笔记

Abstract

随着面部表情识别(FER)从实验室控制向野外挑战的转变,以及深度学习技术在各个领域的成功应用,深度神经网络越来越多地被用来学习用于自动FER的判别表示。最近的深度fers系统一般集中在两个重要的问题上:由于缺乏足够的训练数据而导致的过度拟合和与表情无关的变化,如光照、头部姿势和身份偏差。在本文中,我们提供了一个全面的调查,包括数据集和算法,提供深入了解这些内在的问题。首先,我们介绍了文献中广泛使用的可用数据集,并为这些数据集提供了公认的数据选择和评估原则。然后,我们描述了一个deepfer系统的标准管道,以及每个阶段的相关背景知识和适用实现的建议。针对深层神经网络的研究现状,我们回顾了现有的基于静态图像和动态图像序列的深层神经网络和相关的训练策略,并讨论了它们的优点和局限性。本节还总结了广泛使用的基准的竞争表现。然后,我们将调查扩展到其他相关问题和应用场景。最后,我们回顾了在这一领域仍然存在的挑战和相应的机遇,以及设计健壮的深FER系统的未来方向。

概括
最近深度神经网络在人脸表情识别用得很多,深度学习系统在做人脸识别任务的时候,
主要关注两个问题:1.人脸表情数据集的缺乏导致的过拟合,2.在人脸表情数据的时
候,有光照变化、头部不是正面、每个人不同带来的变化,将会影响准确率。本文将会
讨论数据集、一些系统的训练方法、人脸表情识别的挑战和机遇。

1.Introduction

面部表情是人类传达情感状态和意图的最有力、最自然、最普遍的信号之一[1]、[2]。由于自动面部表情分析在社会机器人、医疗、驾驶员疲劳监测和许多其他人机交互系统中的实际重要性,人们对其进行了大量的研究。在计算机视觉和机器学习领域,人们探索了各种面部表情识别系统来从面部表情中编码表情信息。早在二十世纪,Ekman和Friesen[3]就在跨文化研究[4]的基础上定义了六种基本情绪,这表明人类对某些基本情绪的感知方式与文化无关。这些典型的面部表情是愤怒、厌恶、恐惧、快乐、悲伤和惊讶。蔑视随后被添加为基本情绪之一[5]。最近,神经科学和心理学的高级研究认为,六种基本情绪的模式是文化特有的,而不是普遍的[6]。

尽管基于基本情感的情感模型在表达我们日常情感表现的复杂性和微妙性方面受到限制[7]、[8]、[9],以及其他情感描述模型,如面部动作编码系统(FACS)[10]和使用情感维度的连续模型[11],被认为代表了更广泛的情感,分类模型,描述了离散的基本情绪方面的情绪仍然是最流行的观点,因为它的开拓性研究以及直接和直观的面部表情的定义。在这项调查中,我们将限制我们对基于范畴模型的外汇储备的讨论.

这里说明了本文只讨论表情识别的分类任务,不讨论其他

FER系统按其特征表示可分为两大类:静态图像FER和动态序列FER。在基于静态的方法[12]、[13]、[14]中,特征表示仅使用来自当前单个图像的空间信息进行编码,而基于动态的方法[15]、[16]、[17]考虑输入面部表情序列中相邻帧之间的时间关系。基于这两种基于视觉的方法,其他模式,如音频和生理通道,也被用于多模态系统[18],以帮助识别表达。

FER系统可以是对静态图像进行识别,也可以对动态序列识别,也可以根据其他生理等特征进行多模态的表情识别

大多数传统方法都使用手工特征或浅层学习(例如,局部二进制模式(LBP)[12]、三个正交平面上的LBP(LBP-TOP)[15]、非负矩阵分解(NMF)[19]和稀疏学习[20])来进行FER。然而,自2013年以来,情绪识别竞赛,如FER2013[21]和野外情绪识别(EmotiW)[22]、[23]、[24]从具有挑战性的现实场景中收集了相对充足的训练数据,这隐含地促进了FER从实验室控制到野外环境的转变。同时,由于芯片处理能力(如GPU单元)的大幅提高和网络体系结构的完善,各个领域的研究已经开始转向深度学习方法,这些方法已经达到了最先进的识别精度,大大超过了以往的结果(如[25]、[26]、[27],[28]). 同样地,由于有了更有效的面部表情训练数据,深度学习技术也被越来越多地应用于处理野外情绪识别的挑战性因素。图1从算法和数据集的角度说明了FER的这种演变。

传统方法一般利用手工特征或者LBP、LBP-TOP、NMF、稀疏学习来进行FER。现在逐渐过渡到深度学习方法。

近年来,关于自动表达分析的详尽综述已经发表[7]、[8]、[29]、[30]。这些调查建立了一套标准的FER算法管道。然而,他们专注于传统的学习方法,而深度学习却很少被回顾。最近,在[31]中对基于深度学习的FER进行了调查,这是一个简短的回顾,没有介绍FER数据集和深度FER的技术细节。因此,本文对基于静态图像和视频(图像序列)的FER任务深度学习进行了系统的研究。我们的目的是给这个领域的新人一个系统框架和深层次外汇储备的主要技能概述。

尽管深度学习具有强大的特征学习能力,但在应用于外语教学时仍然存在一些问题。首先,深度神经网络需要大量的训练数据来避免过度拟合。然而,现有的人脸表情数据库不足以训练出具有深层结构的神经网络,从而在目标识别任务中取得最有希望的结果。此外,由于不同的个人属性,如年龄、性别、种族背景和表达水平,存在着高度的学科间差异[32]。除了受试者身份偏见外,姿势、光照和遮挡的变化在无约束的面部表情场景中也很常见。这些因素与面部表情是非线性耦合的,因此加强了深层网络的要求,以解决大的类内变异性和学习有效的表情表达。

点明深度学习在表情识别遇到的问题:数据量不足,数据中个体导致的差异、光照、头部姿势带来的问题

本文介绍了解决上述问题的最新研究进展。我们检查的最先进的结果,没有被审查在以前的调查论文。本文的其余部分组织如下。第2节介绍了常用的表达式数据库。第3节确定了深FER系统所需的三个主要步骤,并描述了相关背景。第四节详细介绍了基于静态图像和动态图像序列的新型神经网络结构和特殊的网络训练技巧。然后,我们将在第5节中讨论其他相关问题和其他实际场景。第6节讨论了该领域的一些挑战和机遇,并确定了未来可能的发展方向。

点明本文的内容是介绍上面两个问题的取得最新进展的论文

2.人脸表情数据库

拥有足够的标记训练数据,包括尽可能多的人和环境的变化,对于深度表情识别系统的设计是非常重要的。在这一节中,我们将讨论包含基本表情的公共可用数据库和在我们已审阅的论文中广泛用于深度学习算法评估的数据库。我们还介绍了最新发布的数据库,其中包含大量从现实世界中收集的情感图像,有利于深层神经网络的训练。表1概述了这些数据集,包括主要参考文献、受试者数量、图像或视频样本数量、采集环境、表达分布和附加信息。

CK+[33]:CohnKanade(CK+)数据库是用于评估FER系统的最广泛使用的实验室控制数据库。CK+包含来自123名受试者的593个视频序列。这些序列的持续时间从10帧到60帧不等,显示出从中性面部表情到峰值表情的转变。在这些视频中,来自118名受试者的327个序列被标记为基于面部动作编码系统(FACS)的七种基本表情标签(愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶)。由于CK+不提供指定的训练、验证和测试集,因此在该数据库上评估的算法并不统一。对于基于静态的方法,最常见的数据选择方法是提取每个序列的最后一到三帧峰值形成和第一帧(中性面)。然后,将受试者分为n组进行n次交叉验证实验,其中n的一般选取值为5、8和10。

MMI[34],[35]:MMI数据库由实验室控制,包括32名受试者的326个序列。共有213个序列被标记为6个基本表达式(没有“藐视”),205个序列被捕获在正面视图中。与CK+相反,MMI中的序列是起始顶点偏移标记的,即序列从中性表达开始,在接近中间达到峰值,然后返回中性表达。此外,MMI具有更具挑战性的条件,即存在较大的人际差异,因为受试者表现相同的表情不一致,而且他们中的许多人佩戴配件(例如眼镜、胡子)。对于实验而言,最常用的方法是在每个额叶序列中选择第一帧(中性面)和三个峰值帧进行独立的10倍交叉验证。

JAFFE[36]:日本女性面部表情(JAFFE)数据库是一个实验室控制的图像数据库,包含来自10名日本女性的213个姿势表情样本。每个人有3~4张带有六种基本面部表情(愤怒、厌恶、恐惧、快乐、悲伤和惊讶)的图像和一张带有中性表情的图像。数据库很有挑战性,因为每个主题/表达式包含的示例很少。通常情况下,所有的图像都被用来做一个实验。

TFD[37]:TFD是几个面部表情数据集的合并。TFD包含112234张图片,其中4178张图片标注了七种表情标签:愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。人脸已经被检测到,并且标准化为48×48的大小,使得所有被摄对象的眼睛之间的距离相同,并且具有相同的垂直坐标。TFD中提供了五个官方折叠;每个折叠包含一个训练、验证和测试集,分别由70%、10%和20%的图像组成。

FER2013[21]:FER2013数据库是在2013年ICML代表性学习挑战中引入的。FER2013是一个由谷歌图像搜索API自动收集的大型无约束数据库。在拒绝错误标记的帧并调整裁剪区域后,所有图像都已注册并调整为48*48像素。FER2013包含28709张训练图片、3589张验证图片和3589张测试图片,其中包含七种表情标签(愤怒、厌恶、恐惧、快乐、悲伤、惊喜和中性)。

AFEW[48]:野生面部表情(AFEW)数据库最早于[49]建立和引入,自2013年起作为年度野生表情识别挑战(EmotiW)的评估平台。AFEW包含了从不同电影中收集的视频片段,包括自发的表情、不同的头部姿势、遮挡和照明。AFEW是一个时态和多模态的数据库,它提供了音频和视频中截然不同的环境条件。样本上有七种表达方式:愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。表情注释不断更新,真人秀节目数据不断增加。EmotiW 2017[24]中的AFEW 7.0按照主题和电影/电视源以独立的方式划分为三个数据分区:Train(773个样本)、Val(383个样本)和Test(653个样本),确保三个集合中的数据属于相互排斥的电影和演员。

SFEW[50]:静态野生面部表情(SFEW)是通过基于人脸点聚类的关键帧计算,从AFEW数据库中选择静态帧来创建的。最常用的版本SFEW 2.0是EmotiW 2015中SReco子挑战的基准数据[22]。sfew2.0分为三组:Train(958个样本)、Val(436个样本)和Test(372个样本)。每个

  • 2
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《基于深度学习的面部表情识别:一项调查》是一篇发表在IEEE Access期刊上的论文。本论文综述了基于深度学习的面部表情识别的最新研究进展。 面部表情识别是计算机视觉领域的重要研究方向之一,广泛应用于情感分析、人机交互、虚拟角色等领域。传统的面部表情识别方法常常需要手工提取特征,且受到光照、姿态等因素的限制。而基于深度学习的面部表情识别则无需手工设计特征,可以从原始像素中直接学习特征表示,因此能够更好地解决这些问题。 本文首先介绍了深度学习在面部表情识别中的应用,包括卷积神经网络(CNN)和循环神经网络(RNN)等。CNN在面部表情识别中起到了关键作用,它可以提取图像的空间特征。RNN则主要用于处理序列化的面部表情数据,可以捕捉到表情的动态变化。 接着,本文概述了深度学习在面部表情识别中的不同应用场景,包括静态图像识别、视频序列识别和实时识别等。在静态图像识别中,通过对单张图像进行分析得出表情类别。在视频序列识别中,可以利用RNN结合CNN对连续视频帧进行处理,从而对表情做出连续预测。在实时识别中,需要实时地对实时视频流中的表情进行识别,对算法的实时性提出了挑战。 最后,本文总结了当前基于深度学习的面部表情识别的挑战和未来的研究方向。尽管深度学习在面部表情识别中取得了显著进展,但仍然存在一些挑战,如样本不平衡、多标签问题和泛化能力等。未来的研究可以探索更加有效的网络架构和训练方法,以提高面部表情识别的性能和适应性。 总之,本论文通过深入调查和总结,对基于深度学习的面部表情识别进行了详细介绍,并提出了未来的研究方向,对相关领域的学者和研究人员具有一定的参考价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值