Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis-CSDN博客

本文链接：https://blog.csdn.net/weixin_48958956/article/details/136462125

文章目录

ALMT：学习语言引导的自适应超模态表征，用于多模态情感分析

ALMT：学习语言引导的自适应超模态表征，用于多模态情感分析

总结：提出了一个自适应语言引导的多模态转换器 ALMT，通过AHL模块可以很好的解决视觉模态和音频模态无关信息对文本模态的影响（提取到了更佳的适合融合的模态特征）。

文章信息

作者：Haoyu Zhang，Tianshu Yu

单位：The Chinese University of Hong Kong（香港中文大学）

会议/期刊：Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing（EMNLP 2023）（CCF B）

题目：Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis

年份：2023

研究目的

解决跨模态的潜在情感无关信息和冲突信息对MSA任务的影响。（解决干扰信息的影响）

Alt

研究内容

提出了一个自适应语言引导多模态转换器（ALMT），解决了视觉和音频模态中干扰信息的不利影响。
提出了一个自适应超模态学习模块（AHL），使用不同尺度的语言特征来引导视觉和音频模态形成一种超模态。

研究方法

ALMT的核心：Adaptive Hyper-Modality Learning（AHL）模块。

1.总体架构

在 ALMT 中，首先使用带有初始化标记的转换器将每种模态转换成统一的形式。这一操作不仅抑制了跨模态的冗余信息，还压缩了长序列的长度（解决了模态对齐），从而提高了模型计算的效率。然后，引入了一个自适应超模态学习（AHL）模块，该模块利用不同尺度的语言特征主导引导视觉和音频模态生成中间超模态标记，其中包含较少的与情感无关的信息。最后，应用跨模态融合转换器，语言特征作为查询，超模态特征作为键和值。

2.Multimodal Input

分别使用BERT、Librosa、OpenFace模型提取文本模态、语音模态和视觉模态的表征。

3.Modality Embedding

$H_m^1=\operatorname{E}_m^0(\operatorname{concat}(H_m^0,U_m),\theta_{E_m^0})\in\mathbb{R}^{T\times d}$
对于每一种模态，随机初始化一个token，即 $H_l^0,H_a^0,H_v^0$ 。然后利用Transformer Layer（Transformer Layer层的结构与Vision Transformer相同）从原始模态特征 $U_m$ 中提取重要的模态信息，并将其嵌入到先前的token中。

【将重要的模态信息转移到初始化的低维标记中，有利于减少与人类情感无关的冗余信息，从而以更少的参数实现更高的效率。】

4.Adaptive Hyper-modality Learning

AHL模块由两个Transformer层和三个AHL层组成，使用AHL模块学习不同尺度的语言特征，并在语言特征的指导下自适应地从视觉和音频模态中学习超模态表征，该超模态表征包含相关性/冲突抑制信息。

语言特征的获取：通过两个Transformer layer学习中尺度和高尺度的语言特征，即 $H_l^2与H_l^3$ 。
$H_l^i=\operatorname{E}_l^i(H_l^{i-1},\theta_{E_l^i})\in\mathbb{R}^{T\times d}$
Adaptive Hyper-modality Learning Layer：

将语言特征 $H_l^i$ 作为query，音频特征与视觉特征 $H_a^1和H_v^1$ 作为Key，计算出语言特征与音频特征之间的相似性权重矩阵 $\alpha$ 和语言特征与视觉特征之间的相似性权重 $\beta$ 。
$\begin{aligned}\alpha&=\text{softmax}(\frac{Q_lK_a^T}{\sqrt{d_k}})\\&=\text{softmax}(\frac{H_l^iW_{Q_l}W_{K_a}^TH_a^{1T}}{\sqrt{d_k}})\in\mathbb{R}^{T\times T}\end{aligned}$

$\begin{aligned}\beta&=\text{softmax}(\frac{Q_lK_v^T}{\sqrt{d_k}})\\&=\text{softmax}(\frac{H_l^iW_{Q_l}W_{K_v}^TH_v^{1T}}{\sqrt{d_k}})\in\mathbb{R}^{T\times T}\end{aligned}$

然后根据音频特征与视觉特征的value更新超模态特征。
$\begin{aligned} H_{hyper}^{j}& =H_{hyper}^{j-1}+\alpha V_a+\beta V_v \\ &=H_{hyper}^{j-1}+\alpha H_{a}^{1}W_{V_{a}}+\beta H_{v}^{1}W_{V_{v}} \end{aligned}$

5.Multimodal Fusion and Output

首先将AHL模块的输出 $H_l^3与H_{hyper}^3$ 分别与初始化的token $H_0$ 进行连接，获得新的语言模态特征与新的超模态特征。然后通过Cross-modality Fusion Transformer得到一个联合多模态表征 $H$ ，最后将联合多模态表征 $H$ 输入到一个分类器中，得到最终的预测输出 $\hat{y}$ .
$\begin{gathered} H_l=\text{Concat}(H_0,H_l^3)\in\mathbb{R}^{(T+1)\times d} \\ H_{hyper}=\text{Concat}(H_0,H_{hyper}^3)\in\mathbb{R}^{(T+1)\times d} \\ H=\text{CrossTrans}(H_{l},H_{hyper})\in\mathbb{R}^{1\times d} \end{gathered}$

6.损失函数

$\mathcal{L}=\frac1{N_b}\sum_{n=0}^{N_b}\|y^n-\hat{y}^n\|_2^2$

$N_b$ 代表训练集样本的数量。

结果与讨论

与SOTA方法进行比较，ALMT的效果最好。
通过探究不同模态的影响，表明了文本模态比其他两种模态更重要，并且证明了AHL有利于减少视觉和听觉模态中出现的不利信息对性能的影响。
通过探究不同组件的影响，表明了在ALMT框架中，每个模块都是必要的。
通过探究Fusion Transformer中query与key的设定，表明了将语言模态设置为query效果是最好的。
通过探究AHL不同语言特征对超模态学习指导的影响，证明了当所有语言特征都涉及超模态学习指导时，ALMT的效果最好。
通过探究不同的融合技术，表明了使用Cross-modality Fusion Transformer进行模态融合，效果最佳。
将ALMT的参数与其他的基于Transformer的方法进行比较，表明了ALMT在准确性和参数量之间有很好的平衡。
通过对AHL的注意力进行可视化，表明了视觉模态比音频模态提供了更多的补充信息；通过可视化AHL的稳健性，表明了AHL可以抑制与情感无关的信息；通过可视化不同的表征，表明了AHL可以缩小音频和视觉模态表征的模态间/模态内分布；通过可视化不同模型的收敛过程，表明了ALMT更容易训练。（选择MAE指标进行比较，因为MAE表示模型对细粒度情感的预测能力）

代码和数据集

数据集：MOSI，MOSEI，CH-SIMS

代码：https://github.com/Haoyu-ha/ALMT

实验环境：RTX 3090（24G）

符号含义

符号	含义
$U_m\in\mathbb{R}^{T_m\times d_m},m\in{l,v,a}$	各模态原始特征序列
$T_m$ ， $d_m$	序列长度，向量维度
$E_m^0$ ， $\theta_{E_m^0}$	模态特征提取器，对应的参数（例如 $W 和 b$ ）
$concat(\cdot)$	concatenation操作
$H_{hyper}^{j}$	超模态特征， $j\in\{1,2,3\}$
$C ross T r an s ()$	Cross-modality Fusion Transformer层

😃😃😃