非常新颖的一篇文章
作者的主要论点总结
作者指出传统多模态情感分析(MSA)模型的两大核心缺陷:
- 数据偏差导致的虚假相关性:传统模型依赖文本模态与标签的共现统计(如“movie”在训练集中频繁出现于负面类别),导致模型学习到非因果关联(如误判“movie”为负面信号)。
- 多模态融合中的混淆问题:跨模态注意力机制缺乏因果推理能力,难以区分核心情感线索与无关语境,导致歧义样本分类错误。
现有方法的不足:
- 忽略因果关系:传统模型通过统计相关性融合模态,未建模模态间因果作用,导致对数据分布敏感(如OOD场景性能下降)。
- 单模态去偏局限:现有因果推理研究多集中于单模态(如文本或视觉),缺乏跨模态因果发现方法。
- 鲁棒性不足:现有模型在分布偏移或类别不平衡时(如社交媒体数据)可靠性降低,易受训练集偏置影响。
作者的创新点:
因果感知文本去偏模块(CATDM):
- 基于前门调整理论,利用全局词典信息消除文本模态的混杂因素。
- 通过样本内/样本间特征重组,增强文本表示的因果性,提高类别内聚性(如将“movie”与真实情感信号解耦)。
反事实跨模态注意力(CCoAt):
- 在传统交叉注意力中引入反事实推理,过滤非因果关联的跨模态交互。
- 通过对比实际与反事实场景的注意力权重,保留因果相关线索(如优先关注“nice”而非“movie”与表情/语调的虚假关联)。
面向多模态的因果图建模:
- 构建结构因果模型(SCM),将文本作为内生变量,音频/视觉作为外生变量,明确因果路径。
- 首次将前门调整扩展至多模态学习,联合优化模态内去偏与跨模态因果融合。
abstract
多模态情绪分析(MSA)涉及使用各种感官数据模态来解释情绪。
传统的多模态分析模型往往忽略了模态之间的因果关系,导致虚假的相关性和无效的跨模态注意。
为了解决这些限制,我们从因果关系的角度提出了基于注意的因果意识融合(AtCAF)网络。为了捕获文本的因果关系感知表示,
我们引入了利用前门调整的因果关系感知文本去偏模块(CATDM)。
此外,我们使用反事实跨模态注意(CCoAt)模块在模态融合中整合因果信息,从而通过纳入更多因果意识线索来提高聚合质量。
AtCAF在三个数据集上实现了最先进的性能,在标准和分布外(OOD)设置上都有显著改善。具体而言,AtCAF优于现有模型,在CMU-MOSI数据集上ACC-2提高1.5%,在正常条件下CMU-MOSEI数据集上ACC-7提高0.95%,在OOD条件下提高1.47%。
CATDM提高了特征空间的类别内聚性,而CCoAt通过上下文过滤对歧义样本进行准确分类。总的来说,AtCAF为社交媒体情感分析提供了一个强大的解决方案,通过有效地解决数据不平衡问题,提供可靠的见解。代码可在https://github.com/TheShy-Dream/AtCAF上获得。
intro
情感对人类互动至关重要,影响着沟通和决策。随着社交媒体和传感器技术的发展,多模态情绪分析利用文本、音频和视频等不同数据来准确衡量情绪得分[2]。
先前的多模态情感分析研究主要集中在促进模态之间的互动和整合。一些研究人员使用基于张量的方法来获得模态相互作用表示[3 - 5]。此外,一些研究使用注意机制进行跨模态建模[6-10]。一些研究人员还设计了辅助任务和自监督模块,以帮助缩小模式之间的差距[11-13]。从本质上讲,这些方法中的大多数都是为了通过引入新的模型体系结构或任务来增强跨模式的一致信息提取和减少冗余信息。
虽然传统的多模态情感分析(MSA)模型在准确性上有所提高,但当提供标签以改进模态融合时,它们通常基于它们的共现性来评估模态相似性。然而,这种依赖于共发生和统计相关性的融合方法是次优的,因为它不能准确地捕捉模态相互作用背后的因果关系,也不能为预测结果提供因果推理。
因此,两个主要问题仍然存在,导致传统基线模型做出错误的预测,如图1所示:数据集偏差和多模态融合中的混淆。
由于数据偏差,基线模型容易受到不平衡类别分布的影响,导致文本和标签之间的虚假相关性。具体来说,在使用BERT标记器分析图1