写在前面
Token disentanglement:通常用来描述在自然语言处理(NLP)任务中,模型对输入序列的标记进行去相关或去混淆的过程
Abstract
TMT包括多模态情感 Token disentanglement 和 Token mutal Transformer两部分组成,在Token disentanglement加入了一个Token separation encoder,能够有效的将模态间的一致性特征Token从每个模态内情感异构特征Token中分离出来,从而使情感相关的一致性和异质性信息能够分离且全面表示。Token mutal Transformer通过使用双向查询学习交互和融合解开的特征标记。
1 Introduction
最近,Transformer 因其序列数据的关系学习和建模能力而被广泛应用于计算机视觉、自然语言处理和多模态识别领域(Dosovitskiy 等人;Liu 等人,2021;Liang 等人,2021;Lin 等人,2021;Zhang 等人,2024)。例如,Delbrouck 等人。 (2020)引入了一种基于 Transformer 模型的新型编码架构,利用模块化注意机制来编码多种模式之间的关系。Han等人(2021)采用不同的模式作为Transformer翻译模型的输入源和目标源,通过对它们与情绪的关系进行建模来实现模态融合。Wang等人(2020)分别引入了文本-音频融合模块和文本-视频融合模块,利用Transformer的门控机制增强了两个模块的输出结果。尽管利用 Transformer 进行多模态特征融合可以有效地对不同模态之间的情感关系进行建模,但它们仍然没有考虑特定模态对情感交互的细微差异特征,导致性能次优(见图 )。
基于对抗学习的方法(Yang et al., 2022b; Park and Im, 2016; He et al., 2023; Liu et al., 2023b)还需要额外的精心设计的网络模块和大量的训练数据进行适当的训练。这可能会导致模型容量非常大,这使得实现健壮高效的多模态情感识别具有挑战性。
通过引入多模态情感Token disentanglement和Token mutal Transformer两个主要模块,相互融合以获得更全面的多模态情感表示。
2 Related work
无需多言
3 Methodology
利用三个多层感知器(MLP)从多模态数据中提取的多模态特征,多模态情感Token disenchanted模块首先使用参数共享Token分离编码器及其Token解纠缠正则化(包括模态内相似损失、模态间正交损失和多模态解纠缠损失),分别从每个模态情感异构特征令牌中分离出模态间情感一致性特征令牌。然后,为了充分挖掘解纠缠Token在情感交互方面的贡献,设计了具有两个跨模态编码器的Token mutal Transformer,利用双向情感查询学习进行情感特征融合,从而获得更全面的多模态情感表示,以实现鲁棒的多模态情感识别。
3.1 Multimodal feature extraction
使用三个并行多层感知器(表示为 MLP ()),即全连接层,将每个特征向量的序列维度归一化为 d = 256。通过这三个归一化的特征向量,我们将连接操作实现为 ,从而得到维度为
的多模态特征向量
。
3.2 Multimodal emotion Token disentanglement
3.2.1 Token separation encoder
随机初始化四个不同的 Token 向量,包括一个表示为 的模态间一致性特征 Token 和三个分离的模态内异构特征 Tokens,分别表示为
,
,
。其中,
用于学习三维模态中与情感相关的一致性特征,维数为6 ×
,而
、
、
分别用于学习音频、文本和视频模态的异质性特征,在2 ×
的每个维度中。然后,初始化的模态间一致性特征Token
,三个模态内异构特征Tokens
,
,
,以及多模态特征
逐行连接,形成组合拼接令牌张量con(
,
,
,
,
), 组合剪接Token张量的送入Token separation encoder表示为
,
在组合张量中提取四个张量
。
3.2.2. Token disentanglement regularization
三个多模态情感 Token disentanglement 损失的 Token disentanglement 正则化,表示为模态内相似性损失, 模态间正交损失
, 和多模态解缠结损失
, 来指导 Token disentanglement(标识解缠结)。更具体地说,模态内相似性损失
用于使模态内异质性特征 Tokens
尽可能与相应的输入多模态特征
一致,使得
能够包含更多的特定模态信息,进一步引入了模间正交损失
以使
彼此独立。
和
都优化了解开的情感相关的模态内异构特征标记。此外,多模态解缠结损失
被用来将
从
中分离出来,尽可能地将
的分布与
的分布拉开距离。通过共同学习这三个损失项,与情感相关的模态间一致性特征 Token 푡 可以包含尽可能多的共同特征,而模态内异质性特征 Tokens
分别包含特定模态中独特的情感信息。三个损失项的详细学习过程如下.
模态内相似性损失。为了使模态内异质性特征标记 与相应的原始输入特征
尽可能相似,我们采用模态内相似性损失
来学习更多特定于模态的信息。为实现这一目标,
引入了最大平均差异(Maximum Mean Discrepancy, MMD)
模态间正交损失。此外,为了更正确地解开模态内异质性特征标记,我们使用模态间正交损失 来使不同模态的情感相关异质性特征与每个模态不相关。另一方面,即彼此独立。因此,
预计会彼此正交。模态间正交损失
表示为:
其中表示正交损失,用于计算每对模态内情绪异质性特征Token之间的正交投影损失。
多模态解纠缠损失。为了将模态间情感一致性特征 Token 与模态内情感异质性特征 Token 分开,多模态解缠结损失以使解开的模态间情感一致性特征 Token
和模态内情感异质性特征 Token
相互独立。为了实现这一点,遵循正交损失(Liu et al., 2017),则
表示如下:
通过训练,Token 分离编码器可以通过强制每对特征的点积收敛到零来有效地从每个模态内异构特征 Token 中解开模态间一致的特征 Token。
3.3. Token mutual Transformer
现有的 Transformer 方法主要依赖于来自特定模态的查询表示,这可能倾向于关注与查询模态表示相关的情感特征,忽略细微的情感交互,导致融合不完整,影响识别性能。通过在两个跨模态编码器中使用双向查询学习,在情感交互方面充分探索不同解开特征对有效信息融合的贡献,从而产生更稳健的情感识别性能。令牌互变压器的详细架构如图所示。
给定三个解开的模态内异质性特征 Tokens 作为输入,我们首先将它们拼接以形成异质性特征张量,表示为
。然后,我们使用两个具有双向查询学习的并行跨模态编码器来充分融合和交互
和
的情绪信息。两个并行跨模态编码器可以分别表示为
和
。他们使用
和
分别是查询表示,通过自适应相互学习融合更全面和互补的情感表示。每个跨模态编码器遵循典型的 Cross-Transformer 编码器结构,包括多头自注意力、归一化层和 MLP 层。
Experiments
从图中可知,在低维分类任务中取得了较好的成绩,但是在高维任务中表现不佳。
消融实验省略。
Conclusion
TMT 由两个主要部分组成:多模态情感令牌解缠结和令牌相互 Transformer。为了实现多模态情感令牌解纠缠,我们在Transformer框架中引入了一种新的令牌分离编码器及其对应的情感解纠缠损失。这种方法有效地将与情感相关的模态间情感一致性特征和模态内异质性特征与多模态特征分离。通过解开的特征,Token 相互 Transformer 模块使用两个双向跨模态 Transformer 来执行双向查询交互和融合,从而产生更全面的多模态情感表示。在三个具有挑战性的多模态情感数据集(CMU-MOSI、CMU-MOSEI、CH-SIMS)上进行的大量实验来评估我们的方法的性能。结果表明,我们的方法优于现有的多模态情感识别方法,实现了最先进的性能。尽管我们方法的有效性,但我们发现我们的方法没有捕捉到情感标签缺失的问题。未来,我们将在我们的方法中引入更高级的半监督或自监督学习机制来从未标记的数据中学习,从而获得更稳健的情感理解。