COLD冷融合:不确定性感知多模态情绪识别的校准和顺序潜在分布融合

论文标题:COLD Fusion: Calibrated and Ordinal Latent Distribution Fusion for Uncertainty-Aware Multimodal Emotion Recognition

中文译名:不确定性感知多模态情绪识别的校准和顺序潜在分布融合

原文地址:https://ieeexplore.ieee.org/abstract/document/10287630/


背景:

深度神经网络(DNNs)已广泛应用于多模态情感识别[8],[9],[10],[11],但估计模态不确定性以提高融合性能是一个相对未被探索的途径。然而,近年来,dnn中预测不确定性(或与其相反的置信度)的建模受到了广泛关注[12],[13],[14],其动机是观察到dnn倾向于做出过度自信的预测[15],[16]。大多数针对深度神经网络中不确定性或置信度估计的现有努力[13],[17]仅关注于减少误校准误差,即预期模型估计误差与其相应置信度评分之间的不匹配。最近,作为另一种观点,Moon等人[18]引入了学习对置信度评分进行排序的想法,以确定最可靠的预测。

在这项工作中,我们认为,估计的不确定性分数必须同时校准和排序良好(序数)。前者需要准确地表示单个样本预测的正确性可能性。后者对于根据一组样本的正确可能性有效地排序预测至关重要。换句话说,如果对单个样本的不确定性估计经过了很好的校准,在缺乏其基本真理的情况下,不确定性得分可以作为其预期预测误差的代理。如果与不同预测相关的不确定性分数排序良好或保持有序,则可以使用它们根据其对目标预测的可靠性对相应的样本进行排序,并区分信息最多的样本和信息最少的样本。

问题:

从面部和声音中自动识别明显的情绪是很困难的,部分原因是各种不确定性的来源,包括输入数据和机器学习框架中使用的标签。

方法:

        首先估计单模态时间输入的不确定性,然后将这些不确定性估计应用于计算基于模态的融合权重。

(专注于估计多模态情感识别模型中模态的任意不确定性。)

融合框架:

        单峰时间背景下的潜在分布通过约束其方差来学习

方差约束,校准和序数排序,是这样设计的:

        对一种模态估计的方差:表示该模态的时间背景的信息量有多大。

        当校准得很好时,模态不确定性分数:表明他们相应的预测可能与基础真理标签有多大差异。

        排序良好的不确定性分数允许对不同模态的不同框架进行有序排序。

为了同时施加这两个约束,提出了softmax分布匹配损失。

模型COLD:

首先分别学习音频和视觉模式的时间背景下的潜在分布(多元正态分布)。然后将音频和视觉潜分布的方差值σV和σA建模,作为情绪预测的置信度度量。设计了一个基于softmax分布匹配的新训练目标,以鼓励每个模态的方差规范值:(a)与单模态预测的正确性可能性强相关,(b)本质上有序,以有效地对不同模态与情绪识别的相关性进行排序。因此,学习校准和有序的单峰方差分数进行有效的不确定性加权融合

训练损失计算:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值