CLGSI: A Multimodal Sentiment Analysis Framework based on Contrastive Learning Guided by Sentiment I

最新推荐文章于 2025-05-08 09:52:31 发布

鱼儿也有烦恼

最新推荐文章于 2025-05-08 09:52:31 发布

阅读量1.3k

点赞数 12

分类专栏：多模态文章标签：多模态情感分析深度学习 MSA

本文链接：https://blog.csdn.net/weixin_48958956/article/details/143359832

版权

多模态专栏收录该内容

17 篇文章

订阅专栏

文章目录

CLGSI：一种基于情感强度引导的对比学习的多模态情感分析框架

CLGSI：一种基于情感强度引导的对比学习的多模态情感分析框架

总结：提出了一种利用情感强度引导的对比学习，并对模态之间的共性特征和特定特征进行联合学习，进而实现更为有效的MSA。解决了样本之间情感强度差异的问题。

文章信息

作者：Yang Yang，Xunde Dong

单位：South China University of Technology（华南理工大学）

会议/期刊：NAACL（CCF B）

题目：CLGSI: A Multimodal Sentiment Analysis Framework based on Contrastive Learning Guided by Sentiment Intensity

发布日期：2024 年 6 月 16 日

代码：https://github.com/AZYoung233/CLGSI

数据集：CMU-MOSI、CMU-MOSEI、CH-SIMS

算力要求：NVIDIA RTX 4090 GPU（24G）

研究目的

现有的大多数基于对比学习的MSA方法，对具有不同情感强度差异的样本对的分布缺乏更详细的学习。而且，针对通过对比学习训练获得的模态表征的融合技术手段十分有限。（探究样本之间情感强度的差异）

解释：根据 HyCon 和 ConFEDE 的配对选择机制，情感强度为-0.2 和-0.4 的样本很可能被视为负面样本对。但是，它们在标签方面仍然具有相似性，不应在表征空间中被推开。

研究内容

提出了一种基于情感强度引导的对比学习（CLGSI）的多模态情感分析新框架：

提出了以情感强度为导向的对比学习方法。在对比学习中，根据情感强度差异选择正负样本对，并相应地分配权重。这就为对比学习过程提供了丰富的细粒度信息。
提出了一种模仿人类认知过程的多模态表征融合机制——全局-局部-细粒度-知识（GLFK）。利用 GLFK 机制融合通过对比学习训练获得的各模态表征，以提取不同模态的共性特征。同时，使用 MLP 处理每个模态编码器的输出，提取每个模态的特定特征。最后，通过共性特征和特定特征的联合学习来预测情感强度。
在公开的中英文 MSA 数据集上进行了广泛的实验。实验结果表明，CLGSI 能够更好地理解不同文化差异下的情感表达，这证明了 CLGSI 具有良好的泛化性能和有效性。

研究方法

1.总体结构

CLGSI 模型首先利用三个模态编码器，提取三种模态的表征 $I_v,I_t,I_a$ ，在这些表征的基础上，分别提取不同模态之间的共性特征 $V_c,T_c,A_c$ 和每种模态的特定特征 $I_v^s,I_t^s,I_a^s$ 。在共性特征提取模块中，以情感强度为导向进行对比学习，以增强编码器的表征能力。最后，使用 3 层 MLP 联合学习共性特征和特定特征，以预测情感强度。

2.共性特征提取

共性特征提取的主要目标是将来自不同模态的信息投影到相同的表征空间中。

对于文本模态，BERT 的 [CLS] 向量 $I_t^c$ 被用作共性向量表征。对于视觉和听觉模态，分别使用 Transformer 编码器最后一层的最后一个向量输出 $I_v^c,I_a^c$ 作为共性向量表征。随后，这三个向量通过全连接层和RELU激活函数得到三种模态的共性特征 $T_c,V_c,A_c$ 。此外，将 $T_c,V_c,A_c$ 堆叠成一个新的矩阵，作为GLFK的输入。

GLFK 是一种受人类认知过程启发的新型表征融合机制，包含四个组件：全局、局部、细粒度和知识。采用 1×1 卷积操作对信息进行全局压缩， $F_c$ 被压缩为 $F_c^1$ 。利用两个 1×1 卷积将 $F_c^1$ 扩展为 $F_c^2$ ，然后在扩展为 $F_c^3$ 。最后，采用 1×1 卷积将 $F_c^3$ 减少到 $F_c^*$ ，得到最终的共性特征 $F_c^*$ 。

3.特定特征提取

特定特征提取的主要目标是高效地捕捉一个模态内的全面信息。

给定一个模态 $I_m$ ，首先利用全局平均池化（GAP）按照序列长度对 $I_m$ 进行压缩得到 $I_m^1$ 。随后，应用两步非线性变换将 $I_m^1$ 投影到一个新的低维空间 $I_m^s$ 。
$I_m^s=\sigma_2(W_2\sigma_1(W_1I_m^{1\text{T}})),m\in\{t,v,a\}$

4.对比学习

4.1 正负样本对的构造

1）首先通过计算相应情感强度之间的差值来确定初始正负对。由于情感强度范围不同（MOSI/MOSEI 中为[-3,3]，SIMS 中为[-1,1]），仅在对比学习时使用统一映射将标签值转换为[-1,1]。给定一个批次 $B$ ，用以下公式计算样本 $i\in B$ 与不同样本之间的情感强度差异：
$D_{(i,j)}=|y_i-y_j|,j\in B\quad\&\quad j\neq i$
随后，利用情感强度差异阈值 $\kappa$ （超参数，设为了0.4）来确定样本 $j$ 是被归类为 $i$ 的初始正样本还是负样本。
$\left.\left\{\begin{array}{l}D_{(i,j)}>\kappa, (i,j)\in initial \ negative \ pairs\\D_{(i,j)}\leq\kappa, (i,j)\in initial \ positive \ pairs\end{array}\right.\right.$

符号	含义
$y_i,y_j$	分别代表样本 $i$ 和样本 $j$ 的情感强度标签

2）根据模内和模间情况，对正负样本对进行了详细划分。给定一组初始正负样本对，对于样本 $i$ ，模内和模间正负样本对的选择如下：

Alt

最终，由样本内正对与样本间正对共同构成样本 $i$ 的正对，样本内负对与样本间负对共同构成样本 $i$ 的负对。
$P^i=P_{intra}^i\cup P_{inter}^i\\N^i=N_{intra}^i\cup N_{inter}^i$

4.2 对比损失

给定样本 $i$ 、 $j$ 和 $k$ ，其中从 $i$ 到 $j$ 和 $k$ 的情感强度差分别为 0.5 和 1.6， $(i, j)$ 和 $(i, k)$ 都是 $i$ 的初始负样本对。然而，样本 $i$ 和 $k$ 之间的情感强度差明显更大。因此，在计算对比损失时，我们对 $(i, k)$ 赋予更高的权重，以便将样本 $i$ 和 $k$ 在表征空间中推得更远。

为了实现权重分配设计了一种权重函数，如下：
$\left.\omega_{(i,j)}=\left\{\begin{array}{ll}\left|\tanh\left(D_{(i,j)}-2\kappa\right)\right|\times1.5,&(i,j)\in\textit{initial positive pairs}\\|\tanh\left(D_{(i,j)}\right)|\times1.5,&(i,j)\in\textit{initial negative pairs}\end{array}\right.\right.$

Alt

给定一个批次B，对比损失为：
$\begin{aligned} &L_{cl}=-\mathbb{E}_{i\in B}\log\frac{\sum_{(a,p)\in P^i}\delta(a,p)}{\sum_{(a,q)\in P^i\cup N^i}\delta(a,q)} \\ &\delta(a,p)=e^{[w_{(i,j)}*\frac{sim(a,p)}{\tau}]} \end{aligned}$

5.总损失

在提取了共性特征和特定特征后，将共性特征向量 $F_c^*$ 和三种模态的特定特征向量 $I_v^s,I_t^s,I_a^s$ 进行拼接，得到拼接后的向量 $F^*$ 。最终，将 $F^*$ 输入到一个3层的 MLP中，预测情感强度 $\hat{y}$ 。预测损失如下：
$L_{task}=\frac1{N_b}\sum_i^{N_b}|y_i-\hat{y}_i|$
总损失如下：
$L_{overall}=L_{task}+\gamma L_{cl}$