写在前面
Token disentanglement:通常用来描述在自然语言处理(NLP)任务中,模型对输入序列的标记进行去相关或去混淆的过程
Abstract
TMT包括多模态情感 Token disentanglement 和 Token mutal Transformer两部分组成,在Token disentanglement加入了一个Token separation encoder,能够有效的将模态间的一致性特征Token从每个模态内情感异构特征Token中分离出来,从而使情感相关的一致性和异质性信息能够分离且全面表示。Token mutal Transformer通过使用双向查询学习交互和融合解开的特征标记。
1 Introduction
最近,Transformer 因其序列数据的关系学习和建模能力而被广泛应用于计算机视觉、自然语言处理和多模态识别领域(Dosovitskiy 等人;Liu 等人,2021;Liang 等人,2021;Lin 等人,2021;Zhang 等人,2024)。例如,Delbrouck 等人。 (2020)引入了一种基于 Transformer 模型的新型编码架构,利用模块化注意机制来编码多种模式之间的关系。Han等人(2021)采用不同的模式作为Transformer翻译模型的输入源和目标源,通过对它们与情绪的关系进行建模来实现模态融合。Wang等人(2020)分别引入了文本-音频融合模块和文本-视频融合模块,利用Transformer的门控机制增强了两个模块的输出结果。尽管利用 Transformer 进行多模态特征融合可以有效地对不同模态之间的情感关系进行建模,但它们仍然没有考虑特定模态对情感交互的细微差异特征,导致性能次优(见图 )。
基于对抗学习的方法(Yang et al., 2022b; Park and Im, 2016; He et al., 2023; Liu et al., 2023b)还需要额外的精心设计的网络模块和大量的训练数据进行适当的训练。这可能会导致模型容量非常大,这使得实现健壮高效的多模态情感识别具有挑战性。
通过引入多模态情感Token disentanglement和Token mutal Transformer两个主要模块,相互融合以获得更全面的多模态情感表示。
2 Related work
无需多言
3 Methodology
利用三个多层感知器(MLP)从多模态数据中提取的多模态特征,多模态情感Token disenchanted模块首先使用参数共享Token分离编码器及其Token解纠缠正则化(包括模态内相似损失、模态间正交损失和多模态解纠缠损失),分别从每个模态情感异构特征令牌中分离出模态间情感一致性特征令牌。然后,为了充分挖掘解纠缠Token在情感交互方面的贡献,设计了具有两个跨模态编码器的Token mutal Transformer,利用双向情感查询学习进行情感特征融合,从而获得更全面的多模态情感表示,以实现鲁棒的多模态情感识别。
3.1 Multimodal feature extraction
使用三个并行多层感知器(表示为 MLP ()),即全连接层,将每个特征向量的序列维度归一化为 d = 256。通过这三个归一化的特征向量,我们将连接操作实现为 ,从而得到维度为