❀论文篇❀Context Based Emotion Recognition Using EMOTIC Dataset论文翻译

摘要

在我们的日常生活和社会交往中,我们经常试图感知人们的情绪状态。已经有很多在为机器提供类似的识别情绪的能力方面有很多研究。从计算机视觉的角度来看,以前的大部分努力都集中在分析人的情绪状态。在某些情况下还包括身体姿势。其中一些方法在特定的环境下效果非常好。然而,在自然的、不受约束的环境中,它们的性能是有限的。心理学研究显示,除了面部表情和身体姿势之外,场景背景也为我们感知人们的情绪。然而,自动情绪识别的背景处理还没有被深入探讨,部分原因是缺乏适当的数据。在本文中,我们提出了EMOTIC,这是一个在各种自然情境中的人的图像数据集,上面标注了他们的明显的情绪。EMOTIC数据集结合了两种不同类型的情绪表示。(1) 一组26个离散类别,和(2) 连续维度Valence, Arousal, 和Dominance。我们还介绍了对该数据集的详细统计和算法分析,以及对注释者的分析。数据集的详细统计和算法分析,以及注释者的协议分析。使用EMOTIC数据集,我们训练了不同的CNN模型用于情绪识别。将包含人的边界框的信息与从场景中提取的上下文信息相结合。我们的结果显示了场景背景是如何为自动识别情绪状态提供重要信息的,并促使我们在这一方向上进行进一步研究。

索引--情绪识别,情感计算,模式识别

1 介绍


在过去的几年中,人们对开发自动识别情绪状态的系统的兴趣已经迅速增长。我们可以找到一些最近的工作,显示了如何从文本[1]、声音[2]或视觉信息[3]等线索中推断出情绪。视觉信息[3], [4]。情绪的自动识别在机器需要与人互动或监控的环境中有着大量的应用。机器需要与人互动或监视人的环境中具有很多应用。比如说。在线学习平台中的自动辅导员会根据学生的动机或挫折程度向她提供更好的反馈。激励或挫折。此外,一辆有能力协助司机的汽车可以干预或如果检测到司机疲惫或紧张,一辆有能力协助司机的汽车可以进行干预或发出警报。在本文中,我们专注于从视觉信息中识别情绪的问题。具体来说,我们想在给定的图像中识别一个人的明显的情绪状态。这个问题在计算机视觉中已经被广泛研究主要从两个角度对这个问题进行了广泛的研究。(1) 面部表情分析,以及(2)身体姿势和手势分析。第二节概述了这些角度的相关工作和也在一些常见的公共数据集上进行情感识别。
尽管脸部和身体的姿势提供了很多关于一个人的情感状态的信息,但我们在这项工作中的主张是
场景背景信息也是理解情绪状态的一个关键组成部分。场景情境包括人的周围环境,如场所类别、场所属性、物体或行动。属性,物体,或发生在人周围的行动。

图1说明了场景上下文对于情感识别的重要性。当我们只看到这个孩子时,很难识别他的情绪(从他的面部表情看来他感到惊奇)。然而,当我们看到背景时(图2a),

我们看到这个孩子正在庆祝他的生日,吹着蜡烛。可能是和他的家人或朋友在家里。有了这些额外的信息,我们可以更好地解释他的表情和姿势,并认识到他可能感到他可能觉得很投入,很高兴,很兴奋。情境在情绪感知中的重要性得到了心理学不同研究的支持心理学的不同研究[5], [6]都支持情境在情绪感知中的重要性。在一般情况下,面部表情并不足以确定一个人的情绪状态,因为对情绪的感知受到不同类型的背景的严重影响,包括场景背景[2], [3], [4]。在这项工作中,我们提出了两个主要贡献。我们的第一个贡献是创建并发布了EMOTIC(来自EMOTions In Context)数据集。EMOTIC数据库是一个人的图像集合,根据他们明显的情绪状态进行注释。明显的情绪状态。图像是自发的、不受约束的。显示人们在不同环境中做不同的事情。图2显示了EMOTIC数据库中的一些图像例子,以及它们相应的注释。如图所示,注释结合了两种不同的类型的情绪表现。离散情绪类别和3个连续情绪维度:情感、唤醒和支配[7]。EMOTIC数据集现在可以公开下载。 数据集构建过程的细节和数据集的统计数据可在EMOTIC网站上公开下载。关于数据集的构建过程和数据集的统计数据,可以在第3节中找到。

我们的第二个贡献是创建了一个用于在语境中识别情绪的基线系统。特别是,我们提出并测试了一个卷积神经网络(CNN)模型。该模型联合处理人的窗口和整个图像以预测人的明显情绪状态。
第4节描述了CNN模型和实施细节,而第5节介绍了我们的实验和对结果的讨论。所有经过训练的模型都可以在EMOTIC网站上公开获得。

本文是会议论文"情境中的情绪识别"的延伸,在IEEE国际计算机视觉和模式识别会议(CVPR2017)[8]。我们在这里提出了一个扩展的EMOTIC数据集的扩展版本,包括进一步的统计数据集分析,对以场景为中心的算法的分析数据,以及对不同注释者之间的注释一致性的研究。这个新发布的EMOTIC数据库与之前的小版本相比,EMOTIC数据库包含了44:4%的注解人,利用新的扩展数据集,我们用额外的损失函数重新训练了所有提议的基线CNN模型。我们还对两种不同的场景特征进行了比较分析。两种不同的场景背景特征的比较分析,显示了背景是如何有助于识别野外的情绪的。

2 相关工作


情感识别已经被计算机视觉界广泛研究。大多数现有的工作着重于分析面部表情以预测情绪[9], [10]。这些方法的基础是 "面部动作编码系统"[11]。编码系统[11],该系统使用一组特定的局部动作对面部表情进行编码。该系统使用一组特定的面部局部运动来编码面部表情,称为行动单元。这些基于面部的方法[9], [10],通常使用基于面部几何的特征或外观特征来描述脸部。之后,提取的特征被用于来识别行动单元和Ekman和Friesen提出的基本情绪[12]提出的基本情绪:愤怒、厌恶、恐惧、快乐、悲伤和惊讶。目前,最先进的系统用于面部表情分析中的情绪识别使用CNNs来识别情绪或行动单元[13]。在情绪表示方面,最近的一些工作在情感表示方面,最近一些基于面部表情的工作[14]使用了VAD情感状态模型的连续维度[7]。VAD模型使用3个数字维度来描述情绪。情感
(V),衡量一种情绪的积极或愉快程度。从消极到积极不等;唤醒(A),衡量一个人的激动程度。
兴奋(A),衡量人的激动程度,从不活跃/平静到激动/准备好行动;以及支配力(D),衡量一个人对自己的控制程度。支配度(D),衡量一个人对情况的控制程度,范围是从顺从/不控制到支配/控制。另一方面,Du等人[15]提出了一套21种面部情绪类别,定义为基本情绪的不同组合,如 "高兴地感到惊讶"、"高兴地感觉到"、"高兴地感觉到 "等。诸如 "高兴地惊讶 "或 "高兴地厌恶 "等情绪。通过这种分类,作者可以对所表达的情绪给出一个细化的关于所表达的情绪的细节。尽管从计算机视觉的角度来看,情绪识别的研究主要集中在对人脸的分析上,但也有一些工作是对人脸的分析。面部,但也有一些作品考虑了其他额外的视觉线索或多模态方法。例如,在[16]中,肩膀的位置被用作脸部特征的附加信息来识别基本情绪。更多一般来说,Schindler等人[17]使用身体姿势来识别6种基本情绪,在一个小型的非自发的数据集上进行了实验。在受控条件下获得的非自发姿势的小数据集上进行实验。条件下获得的非自发姿势的小型数据集进行了实验。Mou等人[18]提出了一个在人群静态图像中进行情感分析的系统,通过结合脸部、身体和情境信息来识别群体的兴奋性和价值背景信息。

场景背景下的情感识别和图像情感分析是不同的问题,但有一些共同的特点。情感识别的目的是识别图像中人物的情感。图像情感分析包括预测一个人在观察图片时将会有什么感觉一张图片。这图片不一定包含一个人。当一张图片包含一个人时,图片中的人所经历的情感可能会有差异。画面中的人所经历的情绪之间可能存在差异。以及图像观察者所感受到的情绪。比如说。在图2.b的图像中,我们看到一个孩子似乎很恼火,而另一个孩子则因为吃了苹果而不是巧克力而高兴。似乎很高兴能吃到巧克力。然而,作为观察者,我们在看这张照片的时候,可能没有任何这些情绪
照片。相反,我们可能认为这种情况是不公平的,并且感到不赞同。此外,如果我们看到一张运动员输掉比赛的图片,我们可以认识到运动员感到悲伤。然而,图像的观察者可能会感到高兴,如果这个观察者是赢了比赛的球队的球迷。

2.1 情感识别数据集


大多数现有的使用计算机视觉进行情感识别的数据集都集中在面部表情分析。计算机视觉的大部分数据集都是以面部表情分析为中心。例如,GENKI数据库[19]包含了一个人的正面脸部含有不同光照、地理、个人和种族背景下的单个人的正面图像。这个数据集中的图像被标记为微笑或不微笑。另一个常见的面部表情分析数据集是ICML面部表情识别数据集[20],它包含了28,000张带有6种基本情绪和一个中性类别注释的图像。另一方面UCDSEE数据集[21]有一组9种情绪表情,由4个人扮演。实验室环境严格保持相同,以便主要关注人的面部表情。动态的身体运动也是估计情绪的一个重要来源。诸如[22]、[23]等研究建立了情感和身体姿势之间的关系,并将人类观察者的基础数据作为基础事实是人类观察者的基线。这些数据数据包括在一个限制性环境下获得的一组自发的图像(人们在玩Wii游戏)。限制性环境下获得的图像(人们在玩Wii游戏)。GEMEP数据库[24]是多模式的(音频和视频),有10个演员扮演18种情感状态。演员扮演18种情感状态。该数据集有视频
演员通过表演来表现情感的视频。身体姿态和面部表情相结合。观察人(LAP)的挑战和竞赛
[25]涉及包含图像、图像序列和多模式数据的专门数据集。这些数据集的重点是人体的复杂性和可变性。配置,其中包括与个性特征有关的数据(自发的)、手势识别(行动的)、明显的年龄识别(自发的)、文化事件识别(自发的)、行动/互动识别和人体姿势识别(自发的)。

野外情绪识别(EmotiW)挑战[26]主持3个数据库。(1) AFEW数据库[27]。(1) AFEW数据库[27]专注于从电影和电视节目的视频帧中进行情感识别。其中的动作被注解了一些属性,如姓名、演员的年龄、角色的年龄、姿势、性别、人的表情、整体的情绪。性别、人的表情、整体片段的表情和
2)SFEW,是AFEW数据库的一个子集,包含了专门为脸部图像做注释的(2) SFEW,这是AFEW数据库的一个子集,其中包含了特别标注了6种基本情绪的脸部框架图像和一个中性类别;以及(3) HAPPEI数据库[28]。该数据库解决了群体层面的情绪估计问题。因此,[28]提供了一个首次尝试,使用背景来解决预测人群中的幸福感问题。最后,COCO数据集最近被注解了物体属性[29],包括一些人的情绪类别,如快乐和好奇。这些属性显示出与我们在 "幸福 "中定义的类别有一些重叠。本文件。然而,COCO的属性并不打算是情感识别的全部内容,而且不是所有的人在数据集中都有情感属性的注释。


3 情感数据集


EMOTIC数据集是一个在无约束环境中的人的图像集合。根据他们明显的情绪状态对其进行注释。
明显的情绪状态。该数据集包含23,571张图像和34,320个注释的人。其中一些图像是通过谷歌搜索引擎从互联网上手动收集的。为此我们使用了一个包含各种地方、社会环境、不同活动和各种
关于情绪状态的关键词。其余的图像属于两个公共基准数据集。COCO[30]和Ade20k[31]。总的来说,这些图片显示了广泛的背景多样性,包含了人们在不同的地方、社会环境和从事的不同的活动。图2显示了EMOTIC数据集中的三个注释图像的例子。EMOTIC数据集中的三个例子。图像的注释是通过亚马逊Mechanical Turk(AMT)进行注释。注释者被要求根据他们认为的在每个图像中的人的情况来标记每张图片都被要求根据他们认为图片中的人的感受来标注。图片的感觉。请注意,我们有能力对其他人的情绪状态做出合理的猜测,由于我们有移情能力,把自己放在别人的处境中还因为我们的常识知识和推理能力。例如,在图2b中,这个人正在进行一项需要 "预测 "来适应轨迹的活动。由于他正在做一项惊险的活动,他看起来很兴奋,而且他很投入或专注于这项活动。在图2c,这个孩子对吃巧克力而不是苹果感到强烈的渴望(渴望)。巧克力而不是苹果。由于他的情况,我们可以把他的面部表情解释为不安和恼怒。请注意,图像也是根据以下几个方面来注释的连续维度Valence、Arousal和Dominance。我们描述了EMOTIC数据集的情绪标注模式和标注过程。数据集和注释过程,分别在第3.1节和第3.2节。分别描述。在第一轮的注释之后(每张图片有一个注释者图像),在不同的集子中保持相似的情感类别分布。训练(70%)、验证(10%)和测试(20%)。之后,验证和测试被分别由4个和2个额外的注释者进行注释。因此,验证集中的图像由5名注释者注释,而测试集中的图像由2名注释者注释。审定集的图像共由5位注释者注释,而测试集的图像则由3位注释者注释因为我们删除了有噪音的注释)。我们使用验证组的注释来研究
不同注释者之间注释的一致性。这项研究显示在第3.3节。数据统计和对EMOTIC数据集的数据统计和算法分析详见第3节。第3.4节和第3.5节分别详述。

3.1 情感表征


EMOTIC数据集结合了两种不同类型的情感表达。连续维度。图像是根据VAD模型[7]来注释的。
VAD模型[7],该模型通过三个连续维度的组合来表示情绪。Valence, Arousal和Dominance。在我们的表述中,每个维度都有一个整数,范围为[1-10]。图4显示了由不同维度的值所标注的人的例子。给定的维度情感类别。除了VAD之外,我们还建立了一个26个情感类别的列表,代表各种
情绪的状态。这26个情感类别的列表和它们的相应定义可以在表1中找到。另外,图3显示了(每个类别)显示不同情绪类别的人的例子。情感类别的列表是按以下方式创建的。我们从字典和心理学书籍中手动收集了情感词汇[32], [33], [34], [35]。这个词汇表由大约400个代表各种情绪状态的词组成。在仔细研究了仔细研究了这些定义和这些定义之间的相似性,我们形成了具有相似含义的词汇群。这些群组被正式确定为26个类别,以便它们在一个人和她的背景的单一图像中是可以区分的。背景。我们创建了26个情感类别的最终列表,并考虑到了视觉可分离性标准:意思相近的词在视觉上无法区分。意思相近的词不能在视觉上分开。例如"愤怒 "是由 "愤怒"、"暴怒 "和 "怨恨 "这几个词定义的。这些情感状态是不同的,但它并不总是有可能在一个单一的图像中对它们进行视觉上的分离。因此,我们的情感类别的列表可以被看作是层次结构的第一层,其中每个类别都有相关的子类别。请注意,最终的情感类别列表还包括包括6种基本情绪(类别2、5、16、17、21、24)。但我们用更一般的术语厌恶来表示类别厌恶。因此,厌恶这个类别除了厌恶之外,还包括不喜欢、排斥和讨厌这些子类别。


3.2 收集注释


我们使用Amazon Mechanical Turk众包平台来收集EMOTIC数据集的注释。我们设计了两个人类智能任务(HITs),分别用于两种情感表达格式中的一种。这两个注释界面如图5所示。每个注释者都会看到一个在红色边界框内的人物,以及旁边的注释格式。图5a显示的是离散类别注释的界面,而图5b显示的是连续维度注释的界面。请注意在连续维度界面的最后一个方框中我们还要求AMT的工作人员对红色边框内的人的性别和估计年龄(范围)进行标注。注释界面的设计有两个重点
重点:i)任务容易理解,ii)界面适合在一个屏幕上完成HIT,避免滚动。为了确保注释者理解这项任务,我们向他们展示了如何一步一步地注释图像,并详细解释了两个例子的详细说明。此外,说明和例子在每一页的底部都有说明和例子,作为注释者的快速参考。最后,详细的说明摘要最后,在每页的顶部显示了详细的说明(表2)。我们采取了两种策略来避免在EMOTIC数据集中出现噪音注释。首先,我们对注释者候选人进行资格审查。这个资格审查任务有两个部分。(i) 情绪商数HIT(基于标准的EQ任务[36])和(ii)两个样本图像注释任务--分别针对我们的两个情绪表征(即 "情绪")。我们的两种情感表征(离散类别和连续维度)。对于样本注释,我们有一组可接受的标签。我们对注释者候选人对这一资格任务的反应进行了评估,那些反应令人满意的注释者被允许使用。那些回答令人满意的人被允许对EMOTIC数据集中的图像进行注释。第二种策略是在每批20张图片的注释中随机插入2张对照图片,以避免注释的噪音。在每批20幅图像的注释中随机插入2幅对照图像;正确的控制图像的正确标签组合是事先知道的。注释者在这些控制图像上选择错误的标签的注释者不允许进一步注释,他们的注释被丢弃。


3.3 不同注释者之间的一致性水平


由于情绪感知是一个主观的任务,不同的人在看到相同的图像后可以感知到不同的情绪图像。例如,在图6a和6b中,红框中的人似乎感受到了爱、幸福和快乐,而注释者也为其做了注释。然而,并不是每个人都选择了所有这些情绪。此外,我们还看到注释者在兴奋和参与这两个情绪方面意见不一。兴奋和参与的情绪。然而,我们认为。在这种情况下,这些类别是合理的。另一个
另一个例子是图6c中罗杰-费德勒击打网球的场景。图6c。

我们看到他在预测球(或称 "预测")和整个验证组的平均SD是1.04,1.57和1.84。表明支配力比其他维度具有更高的(1:84)分散性。这反映了注释者对支配力的分歧比对其他维度的分歧更大。这是可以理解的,因为支配力比情感或唤醒更难解释[7]。作为一个总结,图8b显示了验证集中所有图像在3个维度上的标准偏差,按递减顺序排列。

 3.4 数据集统计


EMOTIC数据集包含34,320个注解的人,其中其中66%的人是男性,34%的人是女性。有10%的儿童,7%的青少年和83%的成年人。图9a显示了26个情感类别中每个类别的注释人的数量。


26种情绪类别的注释人数,按递减顺序排列。请注意数据是不平衡的,这使得该数据集特别具有挑战性。一个有趣的观察是与积极情绪相关的类别,如幸福或快乐,比与消极情绪相关的类别,如痛苦或尴尬有更多的例子。例子最多的有最多例子的类别是参与。这是因为在大多数图片中,人们正在做一些事情或参与一些活动,显示出某种程度的参与。这是因为在大多数图像中,人们正在做一些事情或参与一些活动,显示出某种程度的参与。图9b、9c和9d显示了3个连续维度中每个值的注解人的数量。在这种情况下,我们也观察到了不平衡的数据,但在3个维度上的分布相当均衡。
在这种情况下,我们也观察到了不平衡的数据,但在3个维度上的分布是相当均匀的,这对建模很有帮助。

图10显示了任何两个类别的共同出现率。矩阵ðr; cÞ(r代表行类别,c代表列类别)中的每一个值都是一个共同出现的概率(%),如果注释中也包含类别c,即PðrjcÞ。例如,我们观察到,当一个人被贴上Annotation类别的标签时人被贴上 "烦人 "类别的标签,那么有46.05%的概率,这个人也被标注为愤怒类别。这意味着,当一个人看起来有46.05%的概率,这个人也有可能感到愤怒。这个人也可能感到愤怒。我们还使用了K-Means聚类法来寻找经常出现的类别组。例如,我们发现这些类别组在EMOTIC注释中很常见:Anticipation, Engagement, Confidenceg, Affection, Happiness, Pleasureg, fDoubt/Confusion, Disapproval, Annoyanceg、学习、恼怒、不安。图11显示了每个连续维度在不同情绪类别中的分布。对于每一个图。类别是按照它们在给定维度上的平均值的递增顺序排列的的平均值(针对所有包含该特定类别的实例计算)的顺序排列。包含该特定类别的所有实例计算的)。因此,我们从图11a表明,像痛苦、烦躁、疼痛这样的情绪类别与低价值相关(感觉不积极)。像快乐、幸福、爱这样的情感类别则与较高的Valence值相关(感觉更积极)。同样有趣的是,我们注意到,像断裂位于Valence值的中间范围,这这是有道理的。当我们观察图11b时,我们很容易理解,像断裂、疲劳、悲伤显示出低的唤醒值,而我们看到高的活跃度
而我们看到像期待、自信、兴奋等情绪类别的高活跃度。最后,图11c显示,当人们表现出像痛苦这样的情绪类别时,他们不在控制之中。而当支配力较高时,像自尊、兴奋、自信这样的情绪类别出现得更频繁。关于EMOTIC数据集的一个重要评论是有一些人的脸是不可见的。超过EMOTIC中超过25%的人的脸被部分遮挡或分辨率很低,所以我们不能依靠面部表情分析来识别他们的情绪状态。

 3.5 算法化的场景背景分析


本节说明了目前以场景为中心的系统如何可以用来提取对情绪识别有潜在作用的上下文信息。
对情感识别有潜在的帮助。特别是,我们用在Places数据集上训练的CNN[37]来说明这个想法。
和Sentibanks形容词-名词对(ANP)检测器[38], [39],一个用于图像情绪分析的视觉情绪本体,来说明这个想法。作为参考,图12显示了EMOT的样本图像的位置和ANP输出的EMOTIC数据集的样本图像。我们使用AlexNet Places CNN[37]来预测EMOTIC中的图像的场景类别和场景属性。这些信息有助于将分析分为场所类别和场所属性。我们观察到,情绪的分布在不同的场所类别中差异很大。例如,我们发现在 "滑雪坡 "的人经常体验到 "期待 "或 "兴奋",这与通常在滑雪场发生的活动有关。比较与体育有关的图像和与工作环境有关的图像,我们发现在与体育有关的图像中的人
图像中的人通常表现出兴奋、期待和自信。然而,他们较少表现出悲伤或恼怒的情绪。有趣的是,悲伤和恼怒在工作环境中出现的频率更高。当把连续维度联系起来时,我们还观察到有趣的模式与地方属性和类别。例如,人们通常表现出高支配力的地方是与体育有关的地方和与体育有关的属性。相反。低支配力表现在 "监狱 "或像 "封闭区域 "或 "工作 "这样的属性中,这些地方的行动自由受到限制。在图12中,Places CNN的预测对场景进行了大致的描述,比如在上面的图片中,有一个一个女孩坐在 "幼儿园教室 "里(场所类别),它通常位于有 "无地平线 "的封闭区域内(属性)。
我们还发现了有趣的模式,当我们计算检测到的ANP和图像中标注的情绪之间的相关性时,我们也发现了有趣的模式。的相关性。例如,在有标记为 "喜爱 "的人的图像中,最常出现的ANP是中,最常见的ANP是 "年轻夫妇"。而在标有兴奋的人的图像中,我们我们经常发现 "last_game "和 "playing_field "这样的ANP。此外,我们还观察到,在标有 "和平 "的图片中,"和平 "与 "老人 "这样的ANP有很高的相关性。我们还观察到和平与 "老夫妇 "和 "家庭场景 "等ANP之间的高度关联。幸福 "与 "户外婚礼 "等ANP之间有很高的相关性。户外活动"、"幸福家庭 "或 "幸福夫妇"。总的来说,这些观察表明,一些与情绪和与情绪和背景相关的常识性知识模式有可能从数据中自动提取。

4 用于情感识别的CNN模型


场景背景的CNN模型我们为情境中的情感识别问题提出了一个基线CNN模型。该模型的流水线如下图13所示,

它分为三个模块:身体特征提取、图像(背景)特征提取和融合网络。第一个模块将整个图像作为输入并生成与场景相关的特征。第二个模块采用以人的可见身体为基础,生成与身体相关的特征。最后,第三个模块结合这些特征对这两种类型的情感表征进行精细的回归。表征(第3.1节)。身体特征提取模块将目标人物身体的可见部分作为输入,并生成与身体有关的特征。这些特征包括重要的线索,如脸部和头部方面以及姿势或身体外观。为了捕捉这些方面的信息,该模块用ImageNet[40]进行了预训练。ImageNet[40],这是一个以物体为中心的数据集,包括人物类别。图像特征提取模块将整个图像作为输入并生成场景-背景特征。这些语境特征可以被解释为对以下内容的编码场景类别、其属性和存在于场景中的物体的编码。场景中的属性和物体,或场景中的其他人之间的动态。为了捕捉这些方面,我们用以场景为中心的Places数据集[37]对这个模块进行预训练。融合模块结合两个特征提取模块的特征,并估计离散情绪类别和连续情绪维度。这两个特征提取模块都是基于[41]中提出的onedimensional filter CNN。这些CNN网络提供了有竞争力的性能,同时参数的数量较少。每个网络由16个卷积层组成,其一维核在水平和垂直方向上交替进行。横向和纵向方向,有效地模拟了8个使用二维核的层。然后,为了保持图像不同部分的位置,我们使用一个全局平均池层来减少最后一个卷积层的特征。为了避免内部协变移位,我们在每一个卷积层之后添加一个批处理归一化层[42]在每个卷积层和整流器线性单元之后,以加快训练速度。融合网络模块由两个全连接的(FC)层。第一个全连接层用于将特征的维度降低到256,然后,第二个全连接层用于学习独立的表示。层用于学习每个任务的独立表征[43]。第二个全连接层的输出分为两个独立的表征,一个有26个单元代表离散情感类别,第二层有3个单元代表3个连续维度(3.1节)。


4.1 损失函数和训练设置


我们将损失函数定义为两个独立损失的加权组合。预测值y^由26个离散类别的预测值组成。26个离散类别中的每个类别和3个连续维度组成,特别是,...

 给定一个预测值y^,这个预测值的损失的定义是:

其中,Ldisc和Lcont代表对应于分别代表学习离散类别和连续维度的损失。参数disc;contÞ对每个损失的贡献进行加权,并通过验证集来设定。离散类别的标准(Ldisc)。离散类别估算是一个多标签问题,有一个固有的类别不平衡问题。因为每个类别的训练例子的数量并不都不一样(见图9a)。在我们的实验中,我们对离散类别使用了加权的欧氏损失。离散类别。从经验上看,我们发现欧几里得损失比使用Kuclidean损失更有效。损失比使用KullbackLeibler发散或多类多分类铰链损失更有效。更确切地说准确地说,给定一个预测值y^disc,加权的欧氏损失定义如下

 其中y^disc i是第i个类别的预测值,ydisc i是地面真实标签。参数wi是分配给每个类别的权重
分配给每个类别的权重。权重值定义为其中pi是第i个类别的概率
c是一个参数,用于控制wi的有效值范围。使用这个加权方案,wi的值是使用这种加权方案,wi的值在一个类别的实例数接近0时是有界限的。在我们的案例中,这一点尤其重要,因为我们是根据一个类别的出现来设置权重的批次。实验中,我们使用这种方法得到了更好的结果与基于整个数据集的全局权重设置相比,我们使用这种方法获得了更好的结果。整个数据集来设置全局权重。连续维度的标准(Lcont)。我们将连续维度的估计建模为连续维度的估计是一个回归问题。由于有多个注释者根据主观评价对数据进行注释基于主观评价,我们比较了使用两种不同的稳健损失时的性能。(1)余量欧氏损失L2cont,和(2)平滑L1 SL1cont。前者计算损失时定义了一个误差范围(vk)。误差不被考虑。连续维度的余量欧氏损失对于连续维度的定义为。

  其中y^cont k和ycont k分别是第k个维度的预测值和地面实况,分别是第k个维度的预测值和真实值,是一个二进制权重,代表误差范围。vk为二进制权重,代表误差范围。
在误差范围内,即误差小于u,那么这些预测不会对更新网络的权重做出贡献。
 

 平滑L1损失指的是绝对误差,如果误差小于阈值(在文件中设置为1),则使用如果误差小于阈值(在我们的实验中设置为1),则使用平方误差。我们的实验中设置为1)。这种损失已被广泛用于物体检测[44],在我们的实验中,这种损失被证明对异常值不那么敏感。准确地说,平滑L1损失是
定义如下

其中vk是分配给每个连续维度的权重。在我们的实验中,每个连续维度的权重都被设置为1。我们从头到尾训练我们的识别系统,使用随机梯度下降法学习我们使用随机梯度下降法联合训练我们的识别系统。前两个模块使用Places[37]和Imagenet[45]的预训练模型进行初始化,而融合网络则从头训练。批量大小被设定为为52--离散情感类别的两倍。我们在测试了多种批次大小(包括26的倍数,如26、52、78、108)之后,我们根据经验发现,批次大小为52给出了最好的性能(在验证集上)。

5 实验


我们为我们的CNN模型训练了四个不同的实例。这是由两种不同的输入类型和4.1节中描述的两个不同的连续损失函数。输入类型是身体(即图13中的上部分支),用B表示。以及身体和图像(即图13中的两个分支),用B表示。图13中的两个分支),用B+I表示。连续的损失类型在实验中用L2表示欧几里得损失(公式2),用SL表示连续损失。损失(公式2)和SL1表示平滑L1(公式3)。
以每个类别的平均精度(越高越好)为形式的离散类别的结果总结于表3中。请注意,B+I模型在所有类别中都优于B模型在所有类别中都优于B+I模型,除了1。身体和图像特征的组合和图像特征的组合(B+I(SL1)模型)要比B模型。


表4总结了以每个维度的平均绝对误差,AAE(越低越好)为形式的连续维度的结果。

 

所有的模型在这种情况下,模型都提供了类似的结果,差异并不显著。图14显示了测试集中每个实例所获得的结果摘要。具体来说,图14a显示测试集中所有样本的Jaccard系数(JC)。JC系数的计算方法如下:每一个类别我们将检测类别的阈值作为值,其中精度¼召回率。然后,JC系数是
计算出检测到的类别的数量,这些类别也存在于地面实况中的类别数量(检测到的类别与地面实况相交的类别数量)除以检测到的类别与地面实况相交的类别数量。探测到的类别数量与地面实况的交集)除以检测到的类别总数除以地面实况中的类别或检测到的类别总数(检测到的类别与地面实况中的类别之和地面真相中的类别之和)。这个JC越高越好,最大值为1。即检测到的类别和地面实况的类别完全相同。在图中。例子按照JC系数的递减顺序排序。请注意,这些结果也支持B+I
模型优于B模型。对于连续维度的情况,图14b

显示了平均绝对误差(AAE),在测试集的每个样本中获得。样本按递增顺序排列(最佳表现在左边)。与表4中显示的结果一致,我们没有观察到不同模型之间的显著差异。最后,图15显示了对最佳B和B+I模型的定性预测。这些例子是随机选择的,在B+I中具有高JC的样本(a-b)和具有
B+I中的低JC(g-h)。不正确的类别识别用红色表示。如图所示,一般来说,B+I模型优于
B,尽管也有一些例外,如图15.c。 

 

 

 5.1 情境特征比较


本节的目标是比较不同的情境特征,以解决情境中的情绪识别问题。A在情感识别模型中纳入情境的一个关键方面是能够从情境中获得与情感识别实际相关的信息。由于从语境中提取的信息应该基于一个以场景为中心的特征提取系统。这就是为什么我们的语境特征提取模块使用Places CNN。然而,最近在情感分析方面的工作(检测一个人在观察图像时的情绪)也提供了一个场景特征提取系统。提取系统,该系统可用于为情感识别的相关背景信息进行编码。为了计算身体特征,用Bf表示,我们微调了一个AlexNet ImageNet CNN与EMOTIC数据库,并使用最后一个卷积层的平均集合作为特征。对于上下文(图像),我们比较了两种不同的特征类型,分别用If和IS来表示。If是通过微调AlexNet Places CNN与EMOTIC数据库,并采用最后一个卷积层的平均池化作为特征(类似于Bf)。作为特征(类似于Bf),而IS是一个特征向量。而IS是由ANP检测器的情感分数组成的特征向量。来自[39]的实现。为了公平地比较不同语境特征的贡献,我们对以下特征和特征组合进行Logistic Regressors训练特征和特征的组合。(1) Bf, (2) Bf+If, 和(3) Bf+IS。对于离散的类别,我们得到平均APsAP ¼ 23:00, AP ¼ 27:70, 和 AP ¼ 29:45, 分别。对于连续维度,我们得到AAE 0.0704, 0.0643,和0.0713。我们观察到,对于离散的类别,If和IS都为上下文中的情感识别贡献了相关信息。有趣的是,IS比If表现得更好,尽管这些特征没有用EMOTIC训练过。然而,这些特征是为情感分析而设计的,而情感分析是一个与提取相关语境密切相关的问题。与提取相关语境信息密切相关情感识别的问题,并且是用一个大型的图像数据集来训练的。

6 结论


在本文中,我们指出了在野外自动情绪识别的问题上考虑人的场景背景的重要性。我们提出了EMOTIC数据库,这是一个由23,571张无约束的自然图像组成的数据集,其中有34,320个人物根据其明显的情绪被标记。34,320人,根据他们明显的情绪进行标注。数据集中的图像使用两种不同的
情绪表征。26个离散类别,以及3个连续维度Valence, Arousal和Dominance。我们深入描述了注释过程并分析了不同注释者的注释一致性。我们还提供了不同的统计数据和算法分析数据,显示了EMOTIC数据库的特点。此外,我们还提出了一个基线CNN模型,用于场景中的情绪识别的CNN模型,该模型结合了人的信息(身体边界框)和场景背景信息(整个图像)。我们还比较了两种不同的我们还比较了两种不同的特征类型来编码上下文信息。我们的结果显示了使用情境信息的相关性识别情绪的相关性,结合EMOTIC数据集,激发了在这个方向上的进一步研究。所有的数据和训练有素的模型都在项目的网站上向研究界公开。

致谢


这项工作得到了西班牙经济、工业和竞争部的部分支持。经济、工业和竞争部(西班牙)的资助。
参考。TIN2015-66951-C2-R和RTI2018-095232-B-C22,以及由创新和大学(FEDER基金)提供。作者们也感谢英伟达公司慷慨的硬件捐赠。
项目页面:http://sunai.uoc.edu/emotic/

参考文献

[1] D. Borth, R. Ji, T. Chen, T. Breuel, and S.-F. Chang, “Large-scale visual sentiment ontology and detectors using adjective noun pairs,” in Proc. 21st ACM Int. Conf. Multimedia, 2013, pp. 223–232.

[2] H. Aviezer, R. R. Hassin, J. Ryan, C. Grady, J. Susskind, A. Anderson, M. Moscovitch, and S. Bentin, “Angry, disgusted, or afraid? studies on the malleability of emotion perception,” Psychological Sci., vol. 19, no. 7, pp. 724–732, 2008.

[3] R. Righart and B. De Gelder, “Rapid influence of emotional scenes on encoding of facial expressions: An erp study,” Social Cognitive Affective Neuroscience, vol. 3, no. 3, pp. 270–278, 2008.

[4] T. Masuda, P. C. Ellsworth, B. Mesquita, J. Leu, S. Tanida, and E. Van de Veerdonk, “Placing the face in context: cultural differences in the perception of facial emotion,” J. Personality Social Psychology, vol. 94, no. 3, 2008, Art. no. 365.

[5] L. F. Barrett, B. Mesquita, and M. Gendron, “Context in emotion perception,” Current Directions Psychological Sci., vol. 20, no. 5, pp. 286–290, 2011.

[6] L. F. Barrett, How Emotions Are Made: The Secret Life of the Brain. Boston, MA, USA: Houghton Mifflin Harcourt, 2017.

[7] A. Mehrabian, “Framework for a comprehensive description and measurement of emotional states,” Genetic Social General Psychology Monographs, vol. 121, pp. 339–361, 1995.

[8] R. Kosti, J. M. Alvarez, A. Recasens, and A. Lapedriza, “Emotion recognition in context,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2017.

[9] M. Pantic and L. J. Rothkrantz, “Expert system for automatic analysis of facial expressions,” Image Vis. Comput., vol. 18, no. 11, pp. 881–905, 2000.

[10] Z. Li, J.-i. Imai, and M. Kaneko, “Facial-component-based bag of words and phog descriptor for facial expression recognition,” in Proc. IEEE Int. Conf. Syst. Man Cybern., 2009, pp. 1353–1358.

[11] E. Friesen and P. Ekman, “Measuring facial movement. Environmental psychology and nonverbal behavior.,” Sep. 1976, vol. 1,no. 1, pp. 56–75.
[12] P. Ekman and W. V. Friesen, “Constants across cultures in the face
and emotion,” J. Personality Social Psychology, vol. 17, no. 2, 1971,
Art. no. 124.
[13] C. F. Benitez-Quiroz, R. Srinivasan, and A. M. Martinez,“Emotionet: An accurate, real-time algorithm for the automatic
annotation of a million facial expressions in the wild,” in
Proc. IEEE Int. Conf. Comput. Vis. Pattern Recognit, 2016, pp. 5562–
5570.
[14] M. Soleymani, S. Asghari-Esfeden, Y. Fu, and M. Pantic, “Analysis
of eeg signals and facial expressions for continuous emotion
detection,” IEEE Trans. Affective Comput., vol. 7, no. 1, pp. 17–28,
Jan. 2016.
[15] S. Du, Y. Tao, and A. M. Martinez, “Compound facial expressions of
emotion,” Proc. Nat. Acad. Sci., vol. 111, no. 15, pp. E1454–E1462,
2014.
[16] M. A. Nicolaou, H. Gunes, and M. Pantic, “Continuous prediction
of spontaneous affect from multiple cues and modalities in
valence-arousal space,” IEEE Trans. Affective Comput., vol. 2, no. 2,
pp. 92–105, Apr.-Jun. 2011.
[17] K. Schindler, L. Van Gool, and B. de Gelder, “Recognizing emotions
expressed by body pose: A biologically inspired neural model,”
Neural Netw., vol. 21, no. 9, pp. 1238–1246, 2008.
[18] W. Mou, O. Celiktutan, and H. Gunes, “Group-level arousal and
valence recognition in static images: Face, body and context,” in
Proc. 11th IEEE Int. Conf. Workshops Autom. Face Gesture Recognit.,
2015, vol. 5, pp. 1–6.
[19] “GENKI database.” [Online]. Available: http://mplab.ucsd.edu/
wordpress/?page_id=398, Accessed on: Apr. 12, 2017.
[20] “ICML face expression recognition dataset.” [Online]. Available:
https://goo.gl/nn9w4R, Accessed on: Apr. 12, 2017.
[21] J. L. Tracy, R. W. Robins, and R. A. Schriber, “Development of a
facs-verified set of basic and self-conscious emotion expressions,”
Emotion, vol. 9, no. 4, 2009, Art. no. 554.
[22] A. Kleinsmith and N. Bianchi-Berthouze, “Recognizing affective
dimensions from body posture,” in Proc. 2nd Int. Conf. Affective
Comput. Intell. Interaction, 2007, pp. 48–58. [Online]. Available:
http://dx.doi.org/10.1007/978-3-540-74889-2_5
[23] A. Kleinsmith, N. Bianchi-Berthouze, and A. Steed, “Automatic
recognition of non-acted affective postures,” IEEE Trans. Syst.
Man Cybern. Part B (Cybern.), vol. 41, no. 4, pp. 1027–1038,
Aug. 2011.
[24] T. B€anziger, H. Pirker, and K. Scherer, “Gemep-geneva multimodal emotion portrayals: A corpus for the study of multimodal
emotional expressions,” in Proc. Int. Conf. Lang. Res. Eval., 2006,vol. 6, pp. 15–019.
[25] S. Escalera, X. Baro, H. J. Escalante, and I. Guyon, “Chalearn look-
ing at people: Events and resources,” CoRR, vol. abs/1701.02664,
2017. [Online]. Available: http://arxiv.org/abs/1701.02664
[26] A. Dhall, R. Goecke, J. Joshi, J. Hoey, and T. Gedeon,
“Emotiw 2016: Video and group-level emotion recognition challenges,” in Proc. 18th ACM Int. Conf. Multimodal Interaction,2016, pp. 427–432. [Online]. Available: http://doi.acm.org/10.1145/2993148.2997638
[27] A. Dhall, et al., “Collecting large, richly annotated facialexpression databases from movies,” IEEE MultiMedia, vol. 19,
no. 3, pp. 34–41, Jul.-Sep. 2012.
[28] A. Dhall, J. Joshi, I. Radwan, and R. Goecke, “Finding happiest moments in a social context,” in Proc. Asian Conf. Comput. Vis.,2012, pp. 613–626.
[29] G. Patterson and J. Hays, “Coco attributes: Attributes for people,animals, and objects,” in Proc. Eur. Conf. Comput. Vis., 2016,pp. 85–100.
[30] T. Lin, M. Maire, S. J. Belongie, L. D. Bourdev, R. B. Girshick, J. Hays,P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick, “MicrosoftCOCO: Common objects in context,” CoRR, vol. abs/1405.0312,2014. [Online]. Available: http://arxiv.org/abs/1405.0312
[31] B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso, and A. Torralba,“Semantic understanding of scenes through ade20k dataset,”2016. [Online]. Available: https://arxiv.org/pdf/1608.05442
[32] “Oxford english dictionary.” [Online]. Available: http://http://www.oed.com, Accessed on: Jun. 9, 2017.
[33] “Merriam-webster online english dictionary.” [Online]. Available:https://www.merriam-webster.com, Accessed on: Jun. 9, 2017.

[34] E. G. Fernandez-Abascal, B. Garcıa, M. Jimenez, M. Martın, and
F. Domınguez, Psicologıa de la emocion . Editorial UniversitariaRamon Areces, 2010.
[35] R. W. Picard and R. Picard, Affective Computing, vol. 252. Cambridge,
MA, USA: MIT Press, 1997, vol. 252.
[36] Y. Groen, A. B. M. Fuermaier, A. E. Den Heijer, O. Tucha, and
M. Althaus, “The empathy and systemizing quotient: The psychometric properties of the dutch version and a review of the cross-cultural stability,” J. Autism Developmental Disorders, vol. 45, no. 9,
pp. 2848–2864, 2015. [Online]. Available: http://dx.doi.org/
10.1007/s10803-015-2448-z
[37] B. Zhou, A. Khosla, A. Lapedriza, A. Torralba, and A. Oliva, “Places:
A 10 million image database for scene recognition,” IEEEtran. pattern analysis and machine intelligence., vol. 40, no. 6,pp. 1452–1464, Jul. 4, 2017.
[38] D. Borth, R. Ji, T. Chen, T. Breuel, and S.-F. Chang, “Large-scalevisual sentiment ontology and detectors using adjective nounpairs,” in Proc. 21st ACM Int. Conf. Multimedia, 2013, pp. 223–232.
[39] T. Chen, D. Borth, T. Darrell, and S.-F. Chang, “Deepsentibank:Visual sentiment concept classification with deep convolutionalneural networks,” arXiv preprint arXiv:1410.8586., Oct. 30, 2014.
[40] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Proc. NeuralInf. Process. Syst., 2012, pp. 1097–1105.
[41] J. Alvarez and L. Petersson, “Decomposeme: Simplifying convnets
for end-to-end learning,” CoRR, vol. abs/1606.05426, 2016,pp. 1–16.
[42] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep
network training by reducing internal covariate shift,” in Proc. Int.Conf. Mach. Learn., 2015, pp. 448–456.
[43] R. Caruana, “A Dozen Tricks with Multitask Learning,” in Neural
Networks: Tricks of the Trade. New York, NY, USA: Springer, 2012,pp. 163–189.
[44] R. Girshick, “Fast r-cnn,” in Proc. IEEE Int. Conf. Comput. Vis.,2015, pp. 1440–1448.
[45] J. Deng, W. Dong, R. Socher, L. Li, K. Li, and L. Fei-Fei, “Imagenet:A large-scale hierarchical image database,” in Proc. IEEE Conf.Comput. Vis. Pattern Recognit., 2009, pp. 248–255.

 

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夏天|여름이다

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值