论文标题:COLD Fusion: Calibrated and Ordinal Latent Distribution Fusion for Uncertainty-Aware Multimodal Emotion Recognition
中文译名:不确定性感知多模态情绪识别的校准和顺序潜在分布融合
原文地址:https://ieeexplore.ieee.org/abstract/document/10287630/
背景:
深度神经网络(DNNs)已广泛应用于多模态情感识别[8],[9],[10],[11],但估计模态不确定性以提高融合性能是一个相对未被探索的途径。然而,近年来,dnn中预测不确定性(或与其相反的置信度)的建模受到了广泛关注[12],[13],[14],其动机是观察到dnn倾向于做出过度自信的预测[15],[16]。大多数针对深度神经网络中不确定性或置信度估计的现有努力[13],[17]仅关注于减少误校准误差,即预期模型估计误差与其相应置信度评分之间的不匹配。最近,作为另一种观点,Moon等人[18]引入了学习对置信度评分进行排序的想法,以确定最可靠的预测。
在这项工作中,我们认为,估计的不确定性分数必须同时校准和排序良好(序数)。前者需要准确地表示单个样本预测的正确性可能性。后者对于根据一组样本的正确可能性有效地排序预测至关重要。换句话说,如果对单个样本的不确定性估计经过了很好的校准,在缺乏其基本真理的情况下,不确定性得分可以作为其预期预测误差的代理。如果与不同预测相关的不确定性分数排序良好或保持有序,则可以使用它们根据其对目标预测的可靠性对相应的样本进行排序,并区分信息最多的样本和信息最少的样本。
问题:
从面部和声音中自动识别明显的情绪是很困难的,部分原因是各种不确定性的来源,包括输入数据和机器学习框架中使用的标签。
方法:
首先估计单模态时间输入的不确定性,然后将这些不确定性估计应用于计算基于模态的融合权重。
(专注于估计多模态情感识别模型中模态的任意不确定性。)
融合框架:
单峰时间背景下的潜在分布通过约束其方差来学习
方差约束,校准和序数排序,是这样设计的:
对一种模态估计的方差:表示该模态的时间背景的信息量有多大。
当校准得很好时,模态不确定性分数:表明他们相应的预测可能与基础真理标签有多大差异。
排序良好的不确定性分数允许对不同模态的不同框架进行有序排序。
为了同时施加这两个约束,提出了softmax分布匹配损失。
模型COLD:
首先分别学习音频和视觉模式的时间背景下的潜在分布(多元正态分布)。然后将音频和视觉潜分布的方差值σV和σA建模,作为情绪预测的置信度度量。设计了一个基于softmax分布匹配的新训练目标,以鼓励每个模态的方差规范值:(a)与单模态预测的正确性可能性强相关,(b)本质上有序,以有效地对不同模态与情绪识别的相关性进行排序。因此,学习校准和有序的单峰方差分数进行有效的不确定性加权融合
训练损失计算: