标题:在维度情感识别中的多模态融合的递归联合跨模态注意力
发表:CVPR-2024
目录
摘要
尽管近年来多模态情感识别取得了显著进展,但跨模态间丰富的协同关系尚未得到充分利用。在本文中,我们引入了一种名为“递归联合跨模态注意力”(RJCMA)的方法,旨在有效地捕捉音频、视觉和文本模态之间以及模态内部的关系,用于维度情感识别。具体来说,我们基于联合的音频-视觉-文本特征表示与各单独模态的特征表示之间的交叉相关性来计算注意力权重,以此同时捕捉模态内部和模态间的关联。然后,我们将各单独模态的加权特征再次作为输入,通过递归机制送入融合模型,以获得更加精细的特征表示。我们还研究了使用时序卷积网络(TCNs)来改进各单独模态特征表示的时间建模能力。进行了广泛的实验,以评估我们提出的融合模型在具有挑战性的Affwild2数据集上的性能。通过有效捕捉跨音频、视觉和文本模态的协同内部和外部关系,所提出的融合模型在验证集(测试集)上分别达到了0.585(0.542)和0.674(0.619)的符合相关系数(CCC),针对效价(valence)和唤醒度(arousal)。这相对于基线水平有了显著提升,基线分别为0.240(0.211)和0.200(0.191),针对效价和唤醒度在验证集(测试集)上。这一结果使我们在第六届在野情感行为分析(ABAW)竞赛的效价-唤醒度挑战中获得了第二名的成绩。该方法的代码可在GitHub上找到,链接为:https://github.com/praveena2j/RJCMA。
1.引言
情感识别是一个富有挑战性的问题,因为个体和文化间与情绪状态相关的表达方式多样[1]。它在医疗保健(评估疼痛、疲劳、抑郁)、自动驾驶(评估驾驶员情绪状态)、机器人技术(实现逼真的人机交互)等多个领域有着广泛的应用。情感识别通常被作为分类问题来探讨,即将情绪分为七类:愤怒、厌恶、恐惧、快乐、悲伤、惊讶和轻蔑[6]。最近,复合表情数据集也被引入,以捕捉超越七种基本类别的更丰富的人类情感[7]。然而,这些方法仍然未能覆盖人类表达的全部情感范围。因此,引入了情绪的维度模型,主要使用效价和唤醒度两个维度来捕捉广泛的情绪变化。效价代表从非常悲伤(负向)到非常快乐(正向)的情绪范围,而唤醒度则表示从非常被动(困倦)到非常活跃(高度兴奋)的情绪强度[8]。维度情感识别(DER)比类别情感识别更具挑战性,因为它更容易受到标签噪声的影响,获取维度标注的过程复杂。
多模态学习近期受到了广泛关注,因为它能提供跨多个模态的丰富互补信息,这对于超越单一模态方法至关重要[9]。人类情绪通过面部、声音和语言等多种复杂方式传达。多模态情感识别的目标是通过捕捉模态内部和模态间丰富的互补关系,有效地融合音频、视觉和文本信息。早期的多模态融合方法依赖于长短时记忆(LSTM)融合[10,11]或早期特征拼接[12,13]。随着Transformer的出现[14],使用多模态Transformer的注意力模型在DER中结合多种模态方面引起了极大兴趣[15–17]。最近,跨模态注意力在捕捉模态间的互补关系方面显示出巨大潜力,成功应用于包括行动定位、情感识别和个人验证在内的多个领域[18–20]。Praveen等人[21,22]通过在跨注意力框架中引入联合特征表示探索了联合跨模态注意力,并在基础的跨模态注意力[19]之上实现了显著改进。他们进一步通过引入递归融合和LSTMs改进了模型性能,用于个体特征表示及音频-视觉表示的时间建模[23]。递归融合的跨模态注意力模型也成功应用于其他音频-视觉任务,如事件定位和个人验证[24,25]。然而,现有基于跨模态注意力的模型大多专注于音频-视觉融合进行DER。
在本工作中,我们研究了如何有效地捕捉音频、视觉和文本模态间协同的内部和外部关系,用于DER。通过联合音频-视觉-文本特征表示与各模态特征表示之间的交叉相关性,我们可以同时捕捉模态内部和模态间的关联。受递归注意力模型表现的启发[23,24],我们也在联合跨模态注意力融合的背景下,将音频、视觉和文本模态的递归融合纳入其中,以获得更精细的特征表示。本文的主要贡献可总结如下:
- 使用联合音频-视觉-文本特征表示,在音频、视觉和文本模态间探索了联合跨模态注意力,以同时捕捉模态内部和模态间的关联。
- 利用递归融合进一步改善各模态的特征表示。同时使用时序卷积网络(TCNs)来改进各特征表示的时间建模。
- 进行了广泛的实验,以评估在具有挑战性的Affwild2数据集上,我们提出方法的鲁棒性。
2. 相关工作
2.1. 多模态情感识别
使用深度学习架构进行维度情感识别(DER)的早期方法之一是由Tzirakis等人提出的[10],他们使用一维卷积神经网络(CNN)处理音频和ResNet-50[26]处理视觉模态。然后,使用长短期记忆网络(LSTMs)融合深层特征,以估计效价和唤醒度的预测值。随着三维(3D)CNN模型的发展,Kuhnke等人[12]展示了使用R3D[27]作为视觉模态和ResNet-18[26]作为音频模态,通过简单的特征拼接所带来的性能提升。Kollias等人[28-30]在一个统一框架下探索了DER与其他任务,如表情分类和动作单元的结合。另一种广泛研究的DER方法基于知识蒸馏(KD)[31]。Schoneveld等人[11]探索了KD以获得更稳健的视觉表示,而Wang等人[32]和Deng等人[33]尝试利用KD来处理标签不确定性。最近,KD也被与特权信息学习(LUPI)范式结合,以有效利用多种模态进行DER[34]。Li等人[35]提出了脱耦多模态蒸馏(DMD),通过动态地跨模态蒸馏模态相关信息,以缓解多模态异质性问题。虽然这些方法通过利用多种模态显示出了有希望的性能,但它们并未专注于捕捉模态内部和模态间协同关系。
2.2. 注意力模型在多模态情感识别中的应用
受transformer[14]性能的启发,已经提出了几种方法来研究transformer在DER中的潜力。大多数现有工作探索了transformer编码各模态特征表示的拼接版本[16,17,36,37]。Tran等人[38]证明了使用大规模voxceleb2[39]数据集训练的带跨模态注意力的transformer微调,有助于提高多模态情感识别的性能。Huang等人[40]探索了带有自注意力模块的多模态transformer,其中音频模态用于关注视觉模态,以产生稳健的多模态特征表示。Parthasarathy等人[15]通过采用双向跨模态注意力进一步扩展了这一想法,即音频模态关注视觉模态,反之亦然。Karas等人[41]全面评估了基于自注意力、跨注意力和LSTMs的融合模型在DER中的应用。Zhang等人[42]提出了领导者-跟随者注意力,其中音频、视觉和文本模态根据模态特定的注意力分数组合,以获得关注后的特征表示,再进一步与视觉特征拼接以进行最终预测。Praveen等人[19]基于音频和视觉模态特征表示之间的交叉相关性探索了跨注意力。他们通过在跨注意力框架中使用联合音频-视觉特征表示进一步扩展了他们的方法,并展示了显著的性能提升[21]。Praveen等人[23]通过引入递归融合和LSTMs进行各模态的时间建模,提高了性能。在此工作中,我们进一步扩展了[23]的思想,通过引入文本模态和时序卷积网络(TCNs),以有效捕捉模态内的关系。与[23]相比,我们提议的方法主要在以下三个方面有所不同:
- 在此工作中,除了音频和视觉模态之外,我们还在递归联合跨注意力框架中加入了文本模态,而[23]仅使用了音频和视觉模态。
- 在[23]中使用了LSTMs,而我们部署了TCNs,因为它们在改进各模态的时间建模方面被发现更有效。
- 在[23]中,使用R3D[27]作为视觉主干网络和ResNet 18作为音频模态,而在我们的方法中,使用了在FER+[43]上微调的ResNet-50处理视觉,以及在Audioset上预训练的VGG[44]处理音频模态。
3.提出的方法
3.1. 视觉网络
面部表情在传达人的心理状态方面扮演着重要角色。在视频中,空间信息提供了与表情相关的面部语义区域,而时间动态则传达了视频帧间表情的演变。因此,有效建模视频中面部表情的空间和时间动态对于获得稳健的视觉特征表示至关重要。已有多种方法探索了使用二维卷积神经网络(2D CNNs)与长短期记忆网络(LSTMs)相结合的方式,其中2D CNNs用于编码空间信息,而LSTMs用于面部表情的时间动态[45, 46]。随着三维卷积神经网络(3D CNN)模型的出现[27],它们已被成功应用于DER[12, 21, 22],并且相较于2D CNNs与LSTMs组合,性能有所提升。研究还表明,3DCNNs与LSTMs的结合在捕捉时间动态方面有效,其中3DCNNs擅长捕捉短期动态,而LSTMs在建模长期动态时表现稳健[23]。最近,时序卷积网络(TCNs)被发现对于DER中有效捕捉时间动态很有前景[36, 42]。在本工作中,我们使用了在MS-CELEB-1M数据集[47]上预训练的Resnet-50[26],并进一步在FER+[43]数据集上进行微调,与[42]类似。此外,我们还使用TCNs来有效捕捉面部表情的时间动态。
3.2 音频网络
基于语音的情感识别是另一个充满前景的研究领域,因为语音表达中蕴含着丰富的情感相关信息。随着深度学习模型的发展,语音表达使用一维卷积神经网络(1D CNNs)与原始语音信号[10]或二维卷积神经网络(2D CNNs)与频谱图[11, 12]进行编码。一些工作还探索了深度特征与传统手工制作特征的组合,以编码语音表达[16, 48]。最近,频谱图被广泛探索,因为它们在捕捉语音表达的情感状态方面被发现效率很高[21, 42]。因此,我们也探索了使用2D CNNs与频谱图来编码语音表达。具体而言,我们使用了在大规模audioset数据集[49]上预训练的VGG-Net架构。与视觉模态相似,我们同样使用TCNs来编码帧级语音嵌入的时间动态。
3.3 文本网络
文本模态是另一个常用于情感检测的模态,它在文本数据中携带了语义上的情感相关信息[50]。有效地利用文本数据可以提升多模态融合的性能,因为它们可以提供显著的情感相关信息,并补充音频和视觉模态。基于transformers,BERT特征在文献中被广泛用作情感识别的文本编码器[51]。因此,我们同样使用BERT作为文本编码器,之后使用TCNs来编码单词嵌入间的时序信息。
3.4 递归联合跨模态注意力
给定包含K帧的视频子序列S,音频、视觉和文本数据经过预处理后送入相应的编码器,随后通过TCNs获得各自模态的特征表示,如图1所示。音频、视觉和文本模态的特征表示分别表示为,
和
,其中da, dv, 和 dt分别是音频、视觉和文本特征的维度。xka, xkv 和 xkt 分别代表音频、视觉和文本模态单个帧的特征向量。
给定音频(A),视觉(V)和文本(T)的特征表示Xa, Xv, 和 Xt,通过拼接音频、视觉和文本所有模态的特征向量,随后通过全连接层获得联合特征表示(J),
其中d = da + dv + dt表示J的维度,FC表示全连接层。
现在,J被送入相应模态的联合跨注意力框架,如图2所示,以关注各单独模态的特征表示。这有助于同时编码相同模态内部以及跨模态的内部和外部关系,从而获得注意力权重。J与Xa之间的交叉相关性以联合跨相关矩阵Ca(K*K?)的形式获得,由下式给出,
其中表示Xa和J之间的可学习权重矩阵。同样地,另外两个模态的交叉相关矩阵Cv和Ct分别通过以下公式获得,
其中分别表示视觉和文本模态的可学习权重矩阵。
获得的单个模态的联合跨相关矩阵用于计算注意力权重,从而捕获跨模态和同模态内部的语义相关性。联合跨相关矩阵较高的相关系数表示对应特征向量在模态内部和跨模态关系上具有较高的语义相关性。现在,联合跨相关矩阵被用来计算各个模态的注意力映射。对于音频模态,联合相关矩阵Ca和对应的音频特征Xa通过可学习权重矩阵Wca组合,并使用ReLU激活函数来计算注意力映射Ha(da*K),其表达式为:
其中表示音频模态的可学习权重矩阵。
在CVPR-2022的《A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition》中,是通过相加的方式实现的。
类似地,视觉和文本模态的注意力映射分别由下式给出:
其中分别是视觉和文本模态的可学习权重矩阵。
现在,注意力映射被用来计算各个模态的加权特征,具体如下:
其中分别表示音频、视觉和文本模态的可学习权重矩阵。
为了得到更精细的特征表示,每个模态的加权特征再次作为输入送入各自的联合跨模态注意力模块,表达式如下:
其中分别表示音频、视觉和文本模态的可学习权重矩阵,且l指代递归步骤。
在l次迭代后,各个模态的加权特征被拼接起来以获得多模态特征表示,表达式如下:
最后,多模态特征表示被送入回归层(多层感知机)来进行最终的情绪价或唤醒度预测。这个过程通过递归地应用跨模态注意力机制,逐步细化了特征表示,使得模型能够更准确地捕捉到不同模态间的复杂交互关系,从而提高预测的准确性。
4. 实验设置
4.1 数据集
Affwild 是情感计算领域最大的数据库,最初由从YouTube视频中在极具挑战性的条件下捕获的298个视频组成 [52]。为了促进能够稳健估计情绪效价(valence)和唤醒度(arousal)模型的发展,该数据库通过增加260多个视频得到了显著扩展,最终总共有558个视频,包含大约140万帧 [53]。后续的ABAW挑战赛系列 [54-59] 中,通过加入新视频进一步扩大了数据库。在第六届ABAW挑战赛 [60] 的效价-唤醒赛道中,数据集提供了594个视频,总计约299万3081帧,涵盖了584名参与者。其中16个视频展示了两名参与者,这两人都被标注了。最终的标注是基于四位专家使用游戏杆提供的标注平均值得到的。效价和唤醒的标注以连续的方式在[-1, 1]的范围内提供。数据集以参与者独立的方式被划分为训练、验证和测试集,以确保每个参与者仅出现在一个分区中。划分的结果是:训练集有356个视频,验证集有76个视频,测试集有162个视频。
4.2 实施细节
4.2.1 预处理
对于视觉模态,我们使用了挑战赛组织者提供的裁剪并对齐的图像 [60]。对于视频帧中缺失的脸部,我们将其视为黑色帧(即像素值为零),并且排除了没有效价和唤醒标注的视频帧,即标注值为-5的帧。给定的视频序列被分割成长度为300帧(即,K=300)的子序列,步长为200帧,并将面部图像缩放至48×48像素大小。
对于音频模态,从对应的视频中以16KHz的采样率提取语音信号。然后使用Vggish仓库1提供的预处理代码来获取对数梅尔频谱图。为了确保音频模态与其它模态的子序列正确同步,我们使用了原始视频的帧率的倒数作为跳过长度来提取频谱图。
对于文本模态,从音频预处理阶段提取的语音信号被输入到Vosk工具包2预训练的语音识别模型中,以获得带有单词级时间戳的识别出的文字。接下来,使用一个预训练的标点恢复和大写模型3来恢复识别文字的标点符号,这些标点携带与情感状态相关联的语义信息。随后,使用预训练的BERT模型4在单词级别提取BERT特征。单词级别的特征是通过求和BERT模型最后四层的输出来计算的。通常,识别出的单词可能跨越多个帧的时间窗口。为了使文本模态的单词级别BERT特征与音频和视觉模态同步,根据每个单词的时间戳填充单词级别的文本嵌入,通过将相同的单词级别特征重新分配给对应单词时间跨度内的所有帧来实现同步。
4.2.2 训练详情
对于视觉模态,在训练时使用随机翻转和大小为40的随机裁剪进行数据增强,而在验证时只使用中心裁剪。对于音频和视觉特征,输入数据被标准化,使其均值和标准差均为0.5。对于文本模态,BERT特征被归一化以确保均值为0,标准差为1。使用Adam优化器,权重衰减设置为0.001,批处理大小设置为12。模型分别针对效价和唤醒进行训练。最大训练轮次设置为100,同时采用提前停止策略以避免过拟合。初始学习率和最小学习率的超参数分别设置为1e-5和1e-8。
在我们的训练策略中,我们部署了一个使用ReduceLROnPlateau调度器的预热方案,该调度器基于验证分区的CCC得分,具有5的耐心值和0.1的因子。这表明,逐渐训练各个模态的骨干网络以及融合模型,通过逐渐微调骨干网络的各层有助于提升系统性能 [42]。因此,在我们的训练框架中采用了类似策略,其中视觉(Resnet-50)和音频(VGG)骨干网络的三层组被逐步选中进行微调。在第0轮开始时,第一组层被解冻,学习率在一个轮次内线性预热至1e-5。然后重复预热直到第5轮,之后使用ReduceLROnPlateau更新学习率。当验证CCC在连续5个轮次内未改善时,学习率会逐渐降低,因子为0.1。之后,第二组层被解冻,学习率重置为1e-5,并跟随使用ReduceLROnPlateau的预热方案。此程序重复直至音频和视觉骨干网络的所有层都完成微调。值得注意的是,在每个轮次结束时,加载了先前轮次中的最佳模型状态字典,以缓解过拟合问题。为了进一步控制过拟合问题,我们使用了6折交叉验证,其中第0折分区与组织者提供的原始分区相同 [60]。6折交叉验证获得的结果如表1所示。在所有这些实验中,我们在融合模型中使用了3次迭代(即l=3)。
4.2.3 损失函数
在文献中,一致性相关系数(ρc)是广泛使用的评估指标,用于DER(情绪表达识别)以衡量预测值(x)与实际标注(y)之间的吻合程度 [10]。设µx和µy分别代表预测值和实际值的均值。同样,σ_x^2和σ_y^2分别表示预测值和实际值的方差,则预测值与实际值之间的一致性相关系数ρc可表示为:
其中σ_{xy}^2表示预测值与实际值之间的协方差。尽管均方误差(MSE)是回归模型中常用的损失函数,但我们使用基于CCC的损失函数,因为它是DER文献中的标准损失函数 [10, 21],其定义为:
该损失函数直接反映了预测与实际值的一致性程度,从而更符合DER任务的需求。
5. 结果与讨论
5.1. 消融研究
为了理解递归机制的影响,我们通过改变递归次数进行了一系列实验,如表3所示。首先,我们进行了一次递归的实验,这与音频、视觉和文本模态的联合交叉注意力 [21] 相同。然后,我们逐渐增加递归次数并执行多次实验,发现系统的性能随着多次递归而逐渐提高。这表明递归机制通过逐步细化特征,有助于获得更稳健的特征表示。我们在3次迭代时取得了最好的结果,超过这个次数后,系统性能开始下降。我们推测,虽然递归融合最初有助于提高性能,但过多的迭代可能导致过拟合,从而在验证集上的表现下降。对于其他音频-视觉任务,如人员验证 [25] 和事件定位 [24],我们也观察到了随着多次递归性能改善的相似趋势,这进一步支持了我们的假设。
5.2 与最先进水平的比较
大多数在Affwild2数据集上评估的方法都提交给了之前的ABAW挑战赛。因此,我们将所提出方法的性能与之前ABAW挑战赛中一些相关的最先进模型进行了对比,如表2所示。许多方法探索了基于集合的方法,使用每种模态的多个编码器,然后使用变换器来编码连接的多模态特征表示 [16, 17, 36]。通过利用多种骨干网络和使用外部数据集的大规模训练,Meng等人 [16] 在效价和唤醒两个方面显著提高了测试集的性能。同样,Zhou等人 [36] 也探索了多种骨干网络,并在测试集的唤醒性能上显示出了比 [16] 更好的改进。尽管基于集合的方法在测试集上显示出了更好的性能,但它们往往繁琐且计算成本高昂。Zhang等人 [37] 展示了探索掩蔽自动编码器(MAE)是一条有希望的研究路线,以实现更好的泛化能力,并在效价和唤醒两方面持续改进性能。Zhang等人 [42] 探索了领导者-追随者注意力模型进行多模态融合,其中音频和文本模态被用来关注视觉模态,并在无需为每种模态使用多种骨干网络的情况下,在测试集上显示了良好的性能。
Praveen等人 [21] 提出了联合交叉注意力(JCA),通过在交叉注意力框架中引入联合特征表示,特别是在效价方面,在验证集上显示出显著的改进。他们通过部署递归机制和长短时记忆网络(LSTMs)对个体模态和多模态特征表示的时序建模进一步提高了方法的性能 [23]。然而,他们的方法似乎不具备更好的泛化能力,因为在测试集上未能显示出改进,我们推测这可能是由于在Affwild2数据集上微调的朴素音频和视觉骨干网络。因此,为了公平地与 [23] 进行比较,我们用预训练于MSCELEB-1M和FER+ [42]的Vggish [44]和Resnet-50替换了他们的音频和视觉骨干网络,然后跟进了TCNs。通过替换 [23] 的视觉和音频骨干网络,并像 [42] 中那样进行渐进式微调,我们减轻了过拟合的问题,并在测试集性能上也显示出改进。我们观察到,通过将文本模态引入RJCA框架 [23],特别是在唤醒方面,在验证集和测试集上都提高了性能。值得注意的是,尽管 [37, 42] 以及我们方法在官方验证集上的效价值较低,但在交叉验证的其他折叠上它们达到了更好的性能,从而提升了测试集的表现。
5.3 测试集上的结果
多模态学习在情感行为分析中正受到越来越多的关注,因为在第六届ABAW竞赛的效价-唤醒挑战中提交的大多数方法都采用了多模态融合 [62, 64, 65, 67]。其中一些方法探索了基于集合的融合,以提高泛化能力 [62, 64]。另一个广泛探索的策略是利用掩蔽自动编码器(MAE) [62, 63] 或每种模态的多种骨干网络 [64-66] 预训练多个大规模数据集,以提高测试集性能。Netease Fuxi AI Lab [62] 使用了预训练的MAE,训练数据来自大约2.62亿张图像的5个外部数据集,以及音频模态的Vggish模型 [44],接着是基于集合的融合,这对效价和唤醒都显示了显著的改进,获得了挑战赛的第一名。类似地,CtyunAI [63] 也为视觉模态使用了预训练的MAE,训练数据来自4个外部数据集,然后使用TCNs进行时序建模,实现了比效价值更高的唤醒性能。Sun-CE [64] 对音频和视觉模态都探索了多种骨干网络,然后是基于集合的融合,而USTC-IAT-United [65] 只在音频模态上使用了多种骨干网络,对效价和唤醒都实现了体面的性能。KBS-DGU和ETS-LIVIA [67] 利用了将自我注意和交叉注意模型的多个融合模型的特征组合起来,以提高视听融合的性能。KBS-DGU探索了自我注意和交叉注意模型,而ETS-LIVIA [67] 使用了跨音频和视觉模态的交叉注意模型的联合特征表示。与其它方法不同,我们探索了同时递归地捕捉音频、视觉和文本模态之间的内部和跨模态关系的前景,并且在不使用多种骨干网络或使用大规模外部数据集预训练的情况下,对效价和唤醒都取得了非常好的性能。因此,我们方法的性能完全归因于复杂融合模型的稳健性,为野外的情感行为分析提供了一个经济有效的解决方案。
6. 结论
在这项工作中,我们展示了有效地捕捉音频、视觉和文本模态之间与内部和跨模态特性相关的协同关系可以显著提高系统的性能。通过在交叉注意力框架中引入联合表示,我们可以同时捕捉音频、视觉和文本模态之间的内部和跨模态关系。系统性能进一步通过递归融合得到增强,通过逐步细化特征以获得稳健的多模态特征表示。在具有挑战性的Affwild2数据集上的实验结果表明,提出的模型可以实现更好的多模态融合性能,在效价和唤醒方面都超越了大多数方法。系统性能还可以通过利用先进的文本编码器和各模态的复杂骨干网络来提升。