【情感计算翻译】EASE:Robust Facial Expression Recognition via Emotion Ambiguity-SEnsitive Cooperative Networ

原文链接:EASE: Robust Facial Expression Recognition via Emotion Ambiguity-SEnsitive Cooperative Networks | Proceedings of the 30th ACM International Conference on MultimediaEASE: Robust Facial Expression Recognition via Emotion Ambiguity-SEnsitive Cooperative Networks——EASE:通过情感模糊敏感协作网络实现鲁棒的面部表情识别

【关键词】面部表情识别,用噪声标签学习

【摘要】

       面部表情识别 (FER) 在实际应用中起着至关重要的作用。然而,在野外收集的大规模FER数据集通常包含噪声。更重要的是,由于情绪的模糊性,具有多种情绪的面部图像很难与带有嘈杂标签的面部图像区分开来。因此,为 FER 训练鲁棒模型具有挑战性。为了解决这个问题,我们提出了包含两个组成部分的情感模糊性-SEnsitive 合作网络(EASE)。首先,歧义敏感学习模块将训练样本分为三组。两个网络中损耗较小的样本被认为是干净的样本,而损耗较大的样本则是噪声。请注意,对于一个网络与另一个网络不一致的冲突样本,我们使用情绪的极性线索将传达模棱两可的情绪的样本与带有噪音的样本区分开来。在这里,我们利用KL散度来优化网络,使它们能够关注非主导情绪。EASE的第二部分旨在增强合作网络的多样性。随着培训时间的增加,合作网络将趋同于共识。我们根据特征之间的相关性构造一个惩罚项,这有助于网络从图像中学习不同的表示。对 6 个流行的面部表情数据集的广泛实验表明,EASE 优于最先进的方法。

【1】介绍

       面部表情是人类传达意图的内在情感窗口。面部表情识别(FER)可以潜在地应用于许多领域,例如医疗、智能客户服务、商业智能等。因此,FER引起了心理学家和计算机视觉研究人员的日益关注。在过去的几十年里,得益于算法[32,45]和数据集[8,9]的进步,该领域取得了重大进展。最近,研究人员在野外构建了更接近现实生活的数据集。然而,与实验室中收集的具有不同情感的样本不同,使用野外数据训练模型带来了两个挑战。首先,这些数据集可能包含大量噪声标签。对于真实世界的FER数据集,由于各种原因,例如遮挡和低质量拍摄,错误注释广泛存在。其次,由于情绪的模糊性,现实世界的面部图像可能会传达多种情绪。很难识别特定样本的主导情绪,因此网络很难区分有用的模棱两可的样本和影响模型性能的带有嘈杂标签的样本。

       为了解决上述问题,研究人员探索了如何训练鲁棒的FER模型。以前的许多工作都集中在面部图像中的遮挡。例如,gACNN[27]利用基于全局-局部的注意力机制来感知图像的遮挡区域,并饶有兴趣地跟踪有用的未遮挡区域。最近,为了提高模型在野外采集的FER数据集上的鲁棒性,一些作品设计了统一处理噪声标签的方法,而不是局限于特定原因。Chen等[5]利用辅助任务标签的拓扑信息构建情绪分布,并将其作为训练模型的可靠目标。Self-Cure Network[50]利用自注意力模块计算样本的不确定性,并利用重标记模块对具有高不确定性的图像进行标签修改。

       虽然这些FER方法已经取得了很大进展,但我们发现有两个方面可以进一步改进。首先,以往的工作忽略了模棱两可的样本和带有嘈杂标签的样本之间的区别。根据 [60, 65],损失值是找到噪声标签的最重要线索之一。也就是说,深度神经网络会先记忆干净的数据,然后再记忆有噪声的数据,因此带有噪声标签的数据通常具有较大的损失[15]。对于表情模糊的面部图像,受其他现有情绪的限制,预测往往具有更平滑的分布,并且损失也很大。因此,很难将模棱两可的样本与“真实”的噪声数据区分开来。请注意,存在许多带有模棱两可情绪的真实面部图像,因此在训练短语期间使用这些样本进行学习以增强模型的鲁棒性至关重要。其次,可以采用一些更有效的方法来提高对嘈杂标签的学习能力。耦合网络已被证明更适合于有噪声的数据集[22,31]。具体来说,来自一个网络的误差将越来越多地累积。由于两个网络的学习能力不同,它们可以协同检测由噪声标签引起的不同类型的错误[15]。

       在本文中,我们提出了用于训练鲁棒FER模型的情感模糊性-SEnsitive(EASE)合作网络。EASE由两个部分组成。第一个组成部分是歧义敏感学习,它侧重于表达的歧义。该模块的关键操作是找出模棱两可的样本。具体来说,根据两个网络中的损失,可以将样本分为三组。干净的样本在两个网络中都有小损耗,而损耗大的样本则有噪声。对于一个网络不同意另一个网络的冲突样本,我们将传达多种情绪的样本与带有嘈杂标签的样本区分开来。为了实现这一目标,我们利用了情绪的极性线索。具体而言,歧义更有可能存在于具有相同极性的情绪中[39,57]。此外,为了校准模型的过度置信度预测,我们采用KL散度使网络关注非优势表达式。第二个组成部分是多样性增强模块。尽管耦合网络可以有效地解决数据集中的噪声,但在训练的最后阶段,网络将逐渐达成共识[60]。在这种情况下,模型将退化为单个网络,并且无法选择有用的样本。为了解决这个问题,我们利用了一个基于特征相关性的惩罚项,这使得网络尽可能地从面部图像中提取丰富的信息。

       这项工作的主要贡献有三点:首先,我们提出了情感模糊敏感合作网络,这是第一个考虑模糊样本和噪声样本之间差异的工作。其次,引入一种基于负相关的多样性增强模块,保持了两个网络之间的多样性。第三,通过大量实验证明了所提方法的优点。EASE在6个公共面部表情数据集上实现了最先进的性能。

【2】相关工作

【2.1】面部表情识别

       近年来,FER因其广泛的应用而备受关注。现有的方法可以分为两种类型:传统方法和基于深度学习的方法。传统方法提取手工制作的特征,如局部二值模式[1]和定向梯度直方图[7]。近年来,研究人员[25,48,58]将卷积神经网络(CNN)用于FER。CNN由具有数百万个参数的非常深的网络架构组成,例如ResNet [16]。因此,他们通常需要足够的数据来训练参数。因此,已经提出了大量的大规模FER数据集[8,9,21,25,33],其中大部分是从野外收集的。

       然而,这些数据集包含许多由低质量图像和部分遮挡等引起的噪点。因此,已经做出了一些努力[41,72,74]来开发FER的稳健技术。为了抑制部分遮挡人脸的影响,Li等[27]提出了基于补丁和基于全局局部的注意力CNN,以解决遮挡区域引起的噪声。Wang等[50]通过使用自注意力权重来表示样本的不确定性程度,从而抑制FER的不确定性。此外,为了解决标注模糊性问题,She等[42]提出挖掘标签空间中的潜在信息,并根据样本之间的成对关系计算模糊程度。Chen等[6]提出了一个AUC-FER框架,该框架设计了一个基于三重态损失的目标函数。Chen等[5]探索了来自其他辅助任务的拓扑信息,以解决噪声数据的负面影响。与上述工作不同的是,我们利用合作网络的不同观点来获取有用的数据。此外,为了挖掘模糊样本以提高模型的鲁棒性,我们将这些样本与带有噪声标签的样本区分开来,并利用平滑的KL散度来帮助网络关注非主导情绪。

【2.2】使用嘈杂的标签进行学习

       在过去的几年里,使用嘈杂的标签进行学习取得了很大进展[17,54,73]。现有方法可分为4类:1)设计噪声鲁棒损耗项,旨在减轻影响,并有理论保证[11,12,68];2)学习一个过渡矩阵,将嘈杂的标签变成另一个标签类别根据类之间的关系。[38, 55];3)强调清洁样品的重要性,旨在减少噪音的影响[4,40,64];4)通过重采样从样本中选择干净的数据来训练模型[18,19,56]。

       在这里,我们介绍一些具有代表性的作品。Patrini等[38]引入了噪声跃迁矩阵,[26,66,75]进一步保持了不需要依赖高质量锚点的跃迁矩阵。Liu等[29]讨论了何时插入标签噪声可以平衡噪声率,并降低噪声数据的影响。Gui等[13]从理论上证明了小损的有效性。合作教学[15]介绍了同伴评议策略,以在嘈杂的标签下学习。在每个小批量中,样本被送入两个网络,选择损失较小的实例进行网络交叉更新。Co-Teaching + [60] 是在 Co-Teaching 的基础上扩展的,它通过利用两个 Peer 网络具有不同预测的样本来防止 Peer 网络过早地收敛到共识中。然而,损失较大的样本可能具有噪声标签,从而限制了模型的性能。因此,我们提出了基于负相关的多样性增强模块,该模块保持了合作网络之间的差异,并进一步提高了它们的性能。

【3】方法模型

【3.1】重新审视合作教学

       最近,大量研究[15,60]表明,深度神经网络会先记住干净的数据,然后再记住嘈杂的数据。因此,Co-Teaching 使用损失值来发现噪声数据,因为具有噪声标签的样本通常具有较大的损失。具体来说,Co-Teaching 根据两个网络的损失值将训练样本分为不同的组。

       在小批量中,网络首先计算每个样本的损失。设 M 为批大小,r t 为周期 t 的噪声率。在周期 t 中,损失较大的 [r t × M] 个实例数将被删除。其余损失较小的样本可进一步分为两组:相交部分(干净样本)和非相交部分(冲突样本)。对于相交的部分,两个网络都同意标签是干净的。至于非相交部分,由于一个网络同意他们的标签是干净的,所以他们有很高的信心成为干净的标签。请注意,Co-Teaching 自适应地设置每个时期的噪声率 r t。由于网络在早期训练阶段的分类能力相对较差,因此应随着网络性能的提高而逐渐提高r t。具体来说,噪声率为 r t = min{ t r r,r} 和 T r (总是小于 T ) 是预定义的 ( T r ≤ T ) 纪元数。其中,r是预先计算出的稳定噪声率,T r表示噪声率可以稳定的epoch数,T表示总epoch数。

【3.2】歧义敏感学习

       在协同教学的基础上,所提出的模糊敏感学习模块根据情绪的极性进一步选择模糊样本,并利用损失项来防止网络对单个表达式过度自信。在[15]之后,我们首先将小批量的样本分为三组:干净样本、冲突样本和噪声样本。与之前的工作[15]类似,在两个网络中都具有较大损失的图像被认为是噪声样本。使用这些数据进行学习会影响模型的性能,因此我们删除了这些样本。用 I 1 和 I 2 来表示每个网络中的小损失样本,干净的样本可以正式定义为 I 1 ∩I 2 。在[60]之后,我们采用交叉熵来计算干净样本x i及其标签y i的损失:

       其中 y i ∈{1, 2, ...,C} 是单类标签,p j (x i ) 表示样本 x i 属于类 j 的概率。在两个网络中使用损失较小的样本可以选择干净的数据,但也会丢弃大量训练样本。此外,由于模棱两可,一些面部表情图像会包含多种情绪。这样一来,这些图像的内在分布在单类标签下也具有较大的损失。因此,我们开发一种简单而有效的方法,根据情绪的两极性从冲突组中选择模棱两可的样本。

       冲突样本定义为 (I 1 ∪ I 2)−(I 1 ∩ I 2)。这些样本在一个网络中损失较小,在另一个网络中损失较大。由于情绪可以分为积极和消极的极性,我们可以利用更可靠的样本来训练网络。具体来说,由于非主导情绪的存在,存在一些模棱两可的样本,损失相对较大。根据[59,70],来自同一极性的情绪之间经常存在歧义。给定冲突样本的大损失预测,我们计算来自同一极性的概率 si 的总和。请注意,极性也应与样品的标签相同。当 si > τ 时,样本是可靠的,其中 τ 是选择模糊样本的固定阈值。si 的计算可以正式定义为:

       其中 pol ( j) 表示 j 类的极性,当 ·是真的。现在,我们选择了干净的样本和模糊的样本来训练网络。请注意,“真实”噪声样本以这种方式丢弃。然后,我们描述了解决表达式歧义的优化策略。与单个网络相比,协作网络可以在另一个网络的帮助下优化一个网络。因此,我们使两个网络能够通过它们的预测相互校准。对于干净的样本,我们采用KL散度来优化合作网络。具体而言,预测 p1 (I 1 ∩ I 2) 和 p2 (I 1 ∩ I 2) 之间的损失计算如下: 

       在这种情况下,从预测中学习而不是从单热标签中学习,可以使网络关注非显性表达。该方法可以校准网络的过度自信,从而解决面部表情的模糊性。对于来自冲突样本的模糊数据,我们利用交叉熵和KL散度优化合作网络。交叉熵旨在使网络能够区分主导情绪。另一方面,对于损失较小的网络,我们利用KL散度使其能够专注于其他现有情绪。

【3.3】基于负相关的多样性增强

       直观地说,噪声标签的检测很大程度上取决于分类器的多样性。然而,随着训练周期的增加,耦合网络逐渐达成共识[60],严重降低了模型的性能。因此,为了更好地处理嘈杂的标签,我们应该进一步最大化分类器的多样性。受深度负学习[43]的启发,我们在这里展示了一种简单而有效的方法来保持协作能力。负相关学习通过损失项惩罚网络的相似性。基于此,我们提出了一种对等多样性正则化,以确保两个网络专注于提取不同的判别特征,从而防止它们陷入琐碎的解决方案。

       具体来说,我们模型中的网络基于 VGG-16。由于情感与底层特征之间的密切关系[25],我们利用了网络中的五组特征,而不是最后一层的特征。具有 K 通道的特征可以表示为 F1 = {f ′ 1 ,f′ 2 ,f′ 3 , ..., f ′ K }, F2 = {f ′′ 1 ,f′′ 2 ,f′′ 3 , ..., f ′′ K }。总体平均输出 ̂ F1, ̂ F2 的计算公式为:

        将总体平均输出 ̂ F1 视为单个部分,[63] 将 F1 到 F2 的偏差方差分解为:

        考虑到方程(4)中的总平均输出,可以直接显示上述等式如下:

        然后,经过一些安排,可以显示如下:

       其中第一项是 F1 和 F2 之间的加权误差,第二项测量平均输出 ̂ F1 与 F1 中每个人之间的相关性。然后,我们利用e(f′k)的对等分集正则化来优化网络1,计算公式如下: 

       其中 η 是两个术语之间的权衡。第一项旨在增强 F1 中每个个体与总体平均输出 ̂ F2 之间的多样性,第二项侧重于最小化网络 1 中每个个体 f ′ k 与总体平均输出 ̂ F1 之间的距离。因此,使用 S 表示干净样本和模糊样本,总体损失函数 l1 和 l2 由三个项组成:来自对等网络的选定样本的交叉熵、来自对等网络的干净样本的正则化和多样性正则化。此外,损失函数l1定义如下: 

       其中 λ 和 γ 是平衡这三个项目的权重指标。因此,损失 l2 用以下公式表示: 

【4】实验

【4.1】数据集 

       在野外收集的数据集。为了验证EASE的鲁棒性,我们在5个野生数据集上进行了实验。CAER-S [21] 是一个用于探索上下文感知表达的新型数据集,它包含 70,000 张情感图像。它被随机分为训练集 (70%)、验证集 (10%) 和测试集 (20%)。它由七类组成,即惊讶、恐惧、厌恶、快乐、悲伤、愤怒和中立。FERPlus [2] 分别由训练集、验证集和测试集中的 28,709、3,589 和 3,589 张图像组成。每个图像的大小都调整为 48 × 48 像素。每张图像都属于八个情感类别之一:中性、快乐、惊讶、悲伤、愤怒、厌恶、恐惧和蔑视。RAF-DB [25] 包含 15,339 张面部表情图像,在训练集中拆分了 12,271 个样本,在测试集中拆分了 3,068 个样本。其类别与 CAER-S 数据集相同。SFEW数据集[8]包含879个训练样本和406个验证样本。与 CAER-S 类似,它使用七个表达式手动注释。由于SFEW的测试集尚未发布,因此在之前的工作[5,27,50]之后,我们利用验证集进行测试。AffectNet [33] 是迄今为止最大的 FER 数据集,包含 450,000 张图像,注释类别与 FERPlus 相同。

       在实验室收集的数据集。为了进一步证明EASE具有更好的泛化能力,我们将其与CK+上的其他方法进行了比较。CK+数据集[30]是在实验室中收集的,通常被认为是一个干净的FER数据集。CK+ 有 327 个面部图像,可以用一个表情来准确描述,即惊讶、恐惧、厌恶、快乐、悲伤、愤怒和蔑视。

【4.2】评估设置

       对比方法。为了验证我们提出的方法的有效性,我们将其与最先进的方法进行了比较。对比方法可分为两种类型。

       第一组是采用噪声标签学习策略的方法。一些方法利用单个网络来训练鲁棒模型。在这里,我们将EASE与三种具有代表性的单一网络方法进行了比较,即CurriculumNet [14]、MetaCleaner [65]和SL [52]。最近的方法利用两个网络来确定哪些样本可用于训练模型。我们使用相互学习[67]作为基于耦合网络的方法的基线。此外,我们还比较了DeCoupling [31]、CoTeaching+ [60]、JoCoR [53]、Co-Teaching [15]和DivideMix [22]。 

       第二组由专门为FER设计的方法组成。在早期,研究人员使用实验室收集的高质量面部图像训练模型,因此这些模型对标签噪声很敏感。我们报道了两种代表性方法的性能,即WS-LGRN [62]和DSAN [10]。随着野外采集的面部图像的增加,研究人员更加关注模型的鲁棒性。在这里,我们将EASE与DLP-CNN [25]、IPA2LT [61]、Pan et al.[36]、gACNN [27]、RAN [51]、ESRs [44]、LDL-ALSG [5]和SCN [50]进行了比较。噪点设置。根据前面的代表性方法[15,28],使用验证集推断特定数据集的噪声率。CAER-S、FERPlus、RAF-DB、SFEW、AffectNet、CK+的计算噪声率r分别为0.1、0.1、0.1、0.4、0.4和0.0。根据[50]中采用的标准协议,我们还将标签噪声人为地引入CAER-S、FERPlus、RAF-DB基准测试中,以创建用于探索EASE鲁棒性的合成数据集。对于每个表达式,我们随机翻转 10%、20% 和 30% 数据的标签。因此,我们重新计算了这些实验的噪声率。建筑。我们提出的方法采用了两个具有相同预测头的对等网络。两个对等网络同时训练。在FER中,有各种网络架构作为骨干,如VGG [35, 49], ResNet [50, 51]。为了使两个对等网络相互学习,我们选择了两个与[15]具有相同架构的网络。为了与最近的方法进行公平比较,我们采用VGG-16作为CNN骨干架构[33,50,61]。 

【4.3】实施细节

       训练。在本文中,我们使用 PyTorch [37] 实现了我们提出的方法,并使用两个 GTX 1080ti GPU 以端到端的方式对其进行训练。两个网络分别在ImageNet [20]和VGGFace2 [3]数据集上进行了预训练。输入图像的大小设置为 224 × 224,使用常见的随机裁剪和水平翻转策略。我们的模型使用随机梯度下降进行了优化,并训练了 100 个 epoch。小批量大小、动量和权重衰减分别设置为 32、0.9 和 5e-4。倾斜率初始化为 0.01,每 30 个 epoch 进一步衰减 10 倍。对于 EASE 中的超参数,我们设置 Tr =10、η=1.0、λ=0.1、γ=0.005 和 τ=0.8。

       推理。在推理阶段,在[50]之后,我们认为所有测试数据都是干净的。这两个网络分别预测测试数据的概率。然后,我们将两个网络的输出平均为每张图像的最终概率。

【4.4】与最新方法的比较

       在本节中,我们将 EASE 与 CAER-S、FERPlus、RAF-DB、SFEW、AffectNet 和 CK+ 数据集上的最新方法进行比较。一些对比方法对于噪声数据是稳健的,并且其他人专门用于 FER 的任务。结果如表1所示,因此我们有三个方面的观察结果。

       首先,我们将EASE与标签噪声方法进行比较。1)利用耦合网络的标签噪声方法优于采用单一网络的方法。例如,与SL相比,DivideMix在所有数据集上的准确性都更高。利用单一网络,误差会累积,从而导致选择偏差[15]。使用耦合网络的方法可以协同发现不同类型的错误,从而获得更好的性能。2) 一个有趣的观察结果是,CoTeaching 比 Co-Teaching+ 取得了更好的表现。正如我们所看到的,在所有六个数据集上,Co-Teaching 的表现都优于 Co-Teaching+。根据 [53],在现实世界的嘈杂数据集上,Co-Teaching+ 使用的例子很少。因此,与在野外收集的FER数据集上的Co-Teaching相比,它的准确率相对较低。3) DivideMix 的性能优于其他标签噪声方法。DivideMix采用半监督算法将嘈杂的标签替换为伪标签,并使用这些样本进一步训练网络,而不是直接丢弃它们。在除 AffectNet 之外的五个数据集上,DivideMix 实现了更高的准确性。特别是在 CAER-S 和 RAF-DB 数据集上,DivideMix 的性能比之前的最佳方法 Co-Teaching 分别提高了 2.59% 和 1.26%。在噪声率较大的AffectNet数据集上,伪标签比例越大,必然会带来噪声越大,因此DivideMix的准确率比Co-Teaching下降了1.22%。

       其次,我们将EASE与FER方法进行比较。1)在野外采集的数据集上,噪声鲁棒方法具有更好的性能。在 RAF-DB 上,代表的准确性噪声鲁棒性方法SCN比噪声敏感方法DSAN提高了2.77%。此外,我们发现DCP-CNN,Pan等人,gACNN在RAF-DB上的精度低于噪声敏感方法。这些方法采用被遮挡的低质量图像,而不是丢弃它们,训练模型来识别这些样本传达的表情。但大多数被遮挡,质量低下图像实际上无法诱发特定的情绪,因为示例具有图 1 所示的嘈杂标签。因此,这些方法的性能将不理想。2)为FER设计的噪声敏感方法在实验室收集的干净数据集上具有更好的性能。WS-LGRN和DSAN在CK+数据集上的准确率超过98%,与噪声鲁棒方法相比具有较好的效果。原因可能在于,噪声鲁棒方法旨在使模型捕捉到对野外图像情绪进行分类的重要线索[50,51]。对于来自 CK+ 的图像,区域和可靠性等重要提示与野外图像不同。因此,CK+上的噪声敏感方法优于噪声鲁棒方法。

       第三,我们将EASE与最先进的方法进行比较。1)所提方法在6个数据集上均取得最佳效果。在CK+上,我们提出的方法达到了98.92%的分类准确率,与DSAN相同。在RAF-DB和AffectNet等野生数据集上,EASE的准确率分别达到89.56%和61.82%,比其他方法至少高出1%以上。2)与标签噪声方法相比,EASE在6个数据集上有明显的改进。虽然DivideMix采用半监督算法将噪声标签替换为伪标签,但这种策略也会导致确认偏差[46]。具体来说,确认偏差意味着在训练过程中会积累不正确的伪标签,并最终限制模型的性能。与DivideMix不同,EASE从冲突样本中选择模糊样本,并进一步采用KL散度来训练网络。因此,在AffectNet上,EASE的准确率比DivideMix高出3.81%。3)与FER方法相比,EASE在处理野外采集的数据集时考虑了情绪的模糊性。SCN是一种具有代表性的FER方法,它利用自注意力直接测量表达式的不确定性,是一种有效的方法。EASE利用极性线索进一步筛选出模糊样本,并采用KL散度来关注情感模糊性。因此,我们提出的EASE在六个数据集上取得了最佳性能。

【4.5】合成数据比较

       在这项工作[50]之后,我们人为地将标签噪声引入FERPlus、RAF-DB和AffectNet基准测试中,以探索EASE与合成噪声标签的对比。合成噪声标签可以模拟噪声率增加的极端噪声情况,这可以评估噪声较多的EASE的鲁棒性。表 2 报告了所有三个数据集的准确性。随着噪声率的提高,所有方法的精度都会降低。这是因为噪声率越大,掉落的样本就越多。减少样本数量会导致性能下降。

       在所有三个数据集上,EASE都实现了最佳性能。如上所述,我们根据具有不同视图的合作网络来选择噪声标签。因此,尽管噪声率很高,但所提出的方法可以更好地滤除噪声标签。然后,网络选择干净的样本和模棱两可的样本相互学习,这有助于他们学习更多的判别特征进行识别。此外,多样性增强模块保持合作情报。实验结果验证了多样性增强模块的意义。

【4.6】消融实验

       EASE包含两个组成部分:模糊敏感学习,用于训练具有干净样本和模糊样本的网络,以及基于负相关的多样性增强,用于防止合作网络收敛到共识。我们的基线是微调数据集上的主干(VGG-16)。如表3所示,我们可以得出以下两个结论:首先,模糊敏感学习策略和多样性增强模块都可以提高准确性。其次,具有两个组件的EASE实现了最佳性能,这表明两个组件没有明显的冲突,它们可以协同提高性能。

       接下来,我们通过可视化来展示歧义敏感学习的重要性。该模块旨在选择干净的样本和模糊的样本,然后利用交叉熵和KL散度来训练网络。我们在CAER-S上获得了倒数第二层训练的激活,并使用t-SNE可视化了分布[47]。如图 3 所示,我们分别可视化了 SCN、DivideMix 和 EASE 的结果。尽管 DivideMix 的准确率仅比 SCN 高约 0.5%,但与 SCN 相比,从 DivideMix 学习的激活分离更明显。这意味着旨在减少噪声数据影响的方法可以更好地扩大类之间的距离。我们观察到,EASE同时扩大了类间的距离,缩短了类内的方差。EASE采用的KL散度旨在关注非优势类,因此它是为FER设计的标签平滑方法。根据 [34] 的说法,标签平滑使属于同一类别的实例能够更好地聚集在组中。因此,从本质上讲,解决表达的歧义是合适的。 

       此外,随着RAF-DB上纪元的增加,我们可视化了方法的测试精度。多样性增强模块旨在在培训阶段保持合作网络的多样性。如图 4 所示,大多数其他方法在第 30 个纪元处获得最大精度。然而,EASE的精度不断提高,直到第50个纪元,它达到了最佳性能。 

【4.7】可视化

       在本节中,我们将展示一些在野生数据集上 EASE 的视觉案例。在图 5 (a) 中,我们显示了一些具有正确预测的图像。对于具有清晰表情的图像(即第一列),我们提出的EASE以概率输出预测。此外,对于表情相对清晰的被遮挡图像(即第二列),EASE可以识别正确的类别。 EASE对模糊的图像和低质量的图像也有效,分别以第三张和第四张图像为例。使用模棱两可的样本进行训练有助于使 EASE 能够提取情感判别特征。

       在图 5 (b) 中,我们展示了 EASE 的一些故障案例。正如我们所看到的,第一列和第四列上严重低质量的图像会导致错误的预测。如果图像在表达式的关键位置(即第二列)上有遮挡,则也很难识别其正确的类别。此外,对于连人类都难以识别的第三张图像,EASE也无法预测正确的表情。

【5】结论

       在本文中,我们探讨了识别在野外收集的面部表情的问题。我们提出了情感模糊敏感合作网络,以考虑模糊样本和噪声标签之间的差异。我们介绍了一个基于负相关的多样性增强模块,然后通过大量实验证明了所提模块的优势。EASE 在 6 个流行的面部表情数据集上实现了最先进的性能。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值