abstract:
首先,该方法利用自适应注意交互模块动态确定文本和图像特征在多模态融合中贡献的信息量,并通过跨模态注意提取多模态共同表征,提高各模态特征表征的性能。其次,以情感信息为导向,提取与情感相关的文本和图像特征。最后,采用分层方式,充分学习情感-文本关联表示、情感-图像关联表示、多模态公共信息之间的内在相关性,提高模型的性能。
intro:
(情感融合到特征中的方法)
Zhou等人(2023a)使用SenticeNet对每个单词进行评分,然后将情感特征添加到多模态融合特征中。Xiao等人(2022)利用多头自注意机制将情感知识整合到多模态特征表示中。Zhu等人(2023)提出了情感知识增强注意融合网络(SKEAFN),该网络通过添加来自外部知识库的额外情感知识来增强多模态融合。这些方法已经证明,将情感信息纳入模型已被证明有效地提高了情感分析的准确性,为我们的模型设计提供了新的见解。
(区分情感共性与个性的重要性)
为了处理公共信息,一些研究人员在MSA中开发了创新的方法。Hazarika等人(2020)提出了一种称为多模态情感分析的情态不变和特定表示的模型。它利用情态不变表示来捕捉共同情绪,最大限度地减少跨模态差异。类似地,Yang等人(2022)提出了一种名为FDMER的方法来学习每个模态公共和私人的特征表示,通过自定义损失函数实现模态一致性和差异约束。Chen等人(2023)提出了一种基于信息相关性的联合多模态情感析方法。对模态之间的相关性进行量化和建模,以评估情感层面上的跨模态特征匹配。在取得显著结果的同时,这些方法静态地识别公共信息。事实上,每个图像-文本对中包含的共同信息是不同的,提取固定数量的共同信息并不适用于所有帖子。
(存在问题)
综上所述,目前的研究存在一个问题,即提取固定数量的共同信息不能有效适应所有帖子,导致某些情况下关键信息提取不准确。
(解决问题)
因此,我们提出了一种基于多重关注的多模态情感分析方法。
它不是直接使用提取的图像-文本特征进行情感分析,而是设计了一个自适应的注意力交互网络。
(创新1,宏观上的创新)
该网络为特征分配不同的可学习参数,自适应地确定多模态融合中的文本和图像贡献,并通过跨模态注意提取共享的多模态表示,增强每个模态的特征表示。
(创新2,细节创新)
同时,为了充分识别情感、文本和图像之间的相关性,我们还使用注意机制对情感-文本关联表征和情感-图像关联表征进行建模。
(创新3)
最后,采用层次融合的方法,以层次的方式充分学习情感-文本关联表征、情感-图像关联表征和多模态公共信息之间的内在相关性,从而提高模型的性能。
•我们提出了一个基于多重关注的多模态情感分析框架。该模型采用自适应交互模块来动态确定共同信息的数量,并学习跨模态共性。该模块解决了现有研究中因提取固定数量的公共信息而导致性能下降的问题。
•我们使用情感关注来关注文本和图像中与情感相关的信息。同时设计一个层次融合模块,使用分层方法充分交互三种模式,以获得它们之间的内部相关性。
•在两个公开可用的多模态数据集上进行的大量实验表明,我们的模型可以更好地关注图像和文本之间的共同和互补信息。与之前的基线模型相比,我们的模型已经显示出了显著的改进。
related work:
(现存问题)
首先,模态之间的关系对于多模态情感分析至关重要。然而,现有的多模态情感分析方法大多只是将多个模态的特征拼接在一起,无法充分挖掘它们之间的相互作用,结果并不理想。此外,在多模态特征的学习中,忽略了多模态数据之间的共同信息和互补信息,导致了情感分析的偏差。因此,大量研究者将注意力集中在了这两个问题上。
(举例,在以上问题上的进展)
Zhou等人(2023b)为了实现情态之间充分的交互和融合,提出了一种交叉关注混合特征加权网络,充分利用图像和上下文特征之间的互补信息,实现准确的情感识别。
Zhang等人(2021)使用两个记忆网络来挖掘图像和文本的模态内信息,然后设计一个判别矩阵来监督模态间信息的融合。
Li等人(2022)提出了一种用于对齐和融合文本和图像的标记级特征的多层融合模型,并设计了两个比较学习任务来帮助模型学习多模态数据中的情感相关特征。为了更有效地融合图像和文本的局部特征,他们提出了从细粒度标记级执行多模态特征融合的MLF模块。
Huang等人(2023)提出了一种具有交叉模态注意(TeFNA)的文本中心融合网络。
Liu等人(2023b)提出了一种基于级联多通道分层融合(CMC-HF)的多模态情感识别框架,利用分层融合有效学习多模态信息交互。
类似地,Yang等人(2021a)使用堆叠注意记忆网络使文本特征与图像特征相互作用,并使用多层感知器和堆叠池模块构建了多模态特征融合模块。
基于注意力机制的最新进展,Zhao等人(2023)提出了一种称为SPMN的共享私有记忆网络,将私有视角和共享视角的多模态表示解耦。
Le et al.(2023)提出了一种基于transformer的融合和表征学习方法,将原始视频帧、音频信号和文本字幕作为输入,通过统一的transformer架构传输这些多模态的信息,以学习联合多模态表征。
Zeng等人(2023)提出了一个多模态交互式和融合图卷积网络。引入image -age标题作为辅助,与图像对齐,增强语义传递。然后,使用生成的句子和图像作为节点来构建图。不同的模态以不同的方式表达情感,但它们都共享说话者的动机和目标。因此,利用模态之间的共性信息将有助于分析帖子的情绪。
例如,He等人(2022)提出了一种动态不变的特定表示融合网络,通过改进的联合域分离网络获得了所有模态的联合域分离表示,有效地利用了融合信息。
Liu等人(2023a)提出了一种基于跨模态一致性建模的知识蒸馏框架,通过设计混合课程学习策略来度量多模态数据的语义一致性。
Xu等人(2022)提出了多模态情感分析框