![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MSA
文章平均质量分 95
西皮呦
这个作者很懒,什么都没留下…
展开
-
【论文精读】 | Robust Multimodal Sentiment Analysis via Tag Encoding of Uncertain Missing Modalities
模态缺失 —— 特征融合 标签编码、公共空间投影原创 2024-04-20 16:26:21 · 1215 阅读 · 0 评论 -
【论文精读】| Missing Modality Imagination Network for Emotion Recognition with Uncertain Missing Modali
模态缺失 —— 统一模型、想象模块、缺失模态构建、CRA级联残差自编码器原创 2024-04-17 15:24:04 · 938 阅读 · 0 评论 -
【论文精读】| Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modaliti
模态缺失 —— 关键模态、集成学习、不一致问题、模态缺失重建、单模态缺失EMMR原创 2024-04-11 19:44:34 · 847 阅读 · 0 评论 -
【论文精读】| Geometric Multimodal Contrastive Representation Learning
模态缺失原创 2024-04-09 15:56:45 · 1098 阅读 · 0 评论 -
【论文精读】| CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fusi
模态缺失原创 2024-04-08 10:11:23 · 953 阅读 · 0 评论 -
【论文精读】| Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Ana
尽管多模态情感分析(MSA)通过利用来自多个来源(例如语言、视频和音频)的丰富信息证明了其有效性,但跨模态的潜在情感无关和冲突信息可能会妨碍性能的进一步提高。为了缓解这一问题,本文提出了自适应语言引导的多模态Transformer(ALMT),它结合了自适应超模态学习(AHL)模块,以在不同尺度下在语言特征的指导下从视觉和音频特征中学习一种抑制无关/冲突的表示。通过获得的超模态表示,模型可以通过多模态融合获得互补和联合表示,从而实现有效的MSA。原创 2024-03-27 15:14:47 · 922 阅读 · 0 评论 -
【论文精读】| Transformer-based Feature Reconstruction Network for Robust Multimodal Sentiment Analysis
提高对数据丢失的鲁棒性已成为多模态情感分析(MSA)的核心挑战之一,在当前的研究中,针对具有不完全模态特征的MSA,提出了基于翻译的方法和张量正则化方法。然而,它们都无法处理非比对序列中缺失的随机模态特征。本文提出了一种基于Transformer的特征重构网络(TFR-Net),以提高模型对非对齐模态序列中随机缺失的鲁棒性。首先,采用基于模态内和模态间注意力的提取器来学习模态序列中每个元素的鲁棒表示。然后,提出了一个重构模块来生成缺失的模态特征。原创 2024-03-26 19:24:19 · 927 阅读 · 0 评论 -
【论文精读】MultiEMO: An Attention-Based Correlation-Aware Multimodal Fusion Framework for Emotion Recogni
会话中的情感识别(ERC)是自然语言处理界越来越流行的一项任务,旨在对说话人在会话中表达的话语进行准确的情感分类。大多数现有方法侧重于基于文本模态对说话者和上下文信息进行建模,而多模态信息的互补性没有得到很好的利用,目前很少有方法能够充分捕捉不同模态之间的复杂相关性和映射关系。此外,现有的最先进的ERC模型很难对少数群体和语义相似的情感类别进行分类。原创 2024-03-10 15:01:57 · 1369 阅读 · 0 评论 -
【论文精读】Attention Bottlenecks for Multimodal Fusion 视频分类任务
人类通过多模态输入来处理信息感知世界。机器感知模型却通常是单模态的。从每种模态中合并得到最终表示或预测(“late-fusion”)仍然是多模态视频分类的主要范式。相反,本文引入了一种新的基于Transformer的架构,该架构使用“fusion bottlenecks 融合瓶颈”进行多层模态融合。与传统的成对自我注意力相比,该模型迫使不同模态之间的信息通过少量的bottleneck latents 瓶颈延迟,要求模型整理和浓缩每个模态中的相关信息,并共享必要的信息。原创 2024-03-05 15:06:56 · 1423 阅读 · 0 评论 -
【论文精读】AcFormer: An Aligned and Compact Transformer for Multimodal Sentiment Analysis
融合:模态之间的异质性和不一致性。现有方法:缺乏对模态融合效率的考虑。为了解决这些问题,本文提出了AcFormer,它包含两个核心成分:模态内和模态间的对比学习,以在融合前明确对齐不同的模态流;为多模态交互/融合引入枢纽注意力机制 pivot attention。前者鼓励图像-音频-文本的正面三元组拥有与负面三元组相对的类似表征。后者引入了可以作为跨模态信息桥梁的注意力枢纽,并将跨模态注意力限制在一定数量的融合枢纽tokens上。原创 2024-03-04 10:25:41 · 1274 阅读 · 0 评论 -
【论文精读】NHFNET: A Non-Homogeneous Fusion Network for Multimodal Sentiment Analysis
最近基于注意力的融合方法表现出高性能和强鲁棒性,然而却忽略了三种模式之间信息密度的差异,即视觉和音频具有低水平的信号特征,相反,文本具有高水平的语义特征。为此,本文提出了一种非齐次融合网络(NHENet)来实现多模态信息交互。具体而言,设计了一个具有注意力聚合()的融合模块来处理视觉和音频模态的融合,以将它们增强为高级语义特征。然后,利用跨模态注意力实现文本模态的信息强化和视听融合。NHFNet补偿了不同模态的信息密度差异,从而实现了它们的公平交互。原创 2024-03-04 16:41:38 · 1146 阅读 · 0 评论 -
对比学习 | 对比学习损失(InfoNCE loss)与交叉熵损失的联系 温度系数的作用
Info NCE loss是NCE的一个简单变体,它认为如果你只把问题看作是一个二分类,只有数据样本和噪声样本的话,可能对模型学习不友好,因为很多噪声样本可能本就不是一个类,因此还是把它看成一个多分类问题比较合理(但这里的多分类 k 指代的是负采样之后负样本的数量,下面会解释)。唯一的区别是,在cross entropy loss里,k指代的是数据集里类别的数量,而在对比学习InfoNCE loss里,这个k指的是负样本的数量。温度系数τ虽然只是一个超参数,但它的设置是非常讲究的,直接影响了模型的效果。原创 2024-03-03 19:27:47 · 6678 阅读 · 1 评论 -
【论文精读】| PS-Mixer: A Polar-Vector and Strength-Vector Mixer Model for Multimodal Sentiment Analysis
一方面,现有研究侧重于文本、音频和视觉等多模式数据的融合机制,而忽视了文本和音频、文本和视觉的相似性以及音频和视觉的异质性,导致情绪分析出现偏差。另一方面,多模式数据带来了与情绪分析无关的噪声,影响了融合的效果。本文提出了一种称为PS mixer的极向量和强度向量混合模型,该模型基于MLP mixer,以实现不同模态数据之间更好的通信,用于多模态情感分析。具体来说,分别设计了一个极性向量(PV)和一个强度向量(SV)来判断情绪的极性和强度。原创 2024-03-01 10:47:50 · 1325 阅读 · 1 评论 -
【论文精读】| MulT —— Multimodal Transformer for Unaligned Multimodal Language Sequences
首篇跨模态Transformer原创 2024-02-26 10:51:59 · 2148 阅读 · 0 评论 -
【论文精读】| ConKI —— ConKI: Contrastive Knowledge Injection for Multimodal Sentiment Analysis
多模态情绪分析利用多模态信号来检测说话者的情绪。以前的方法集中于基于从预训练的模型中获得的一般知识进行多模式融合和表示学习,而忽略了领域特定知识的影响。在本文中,提出了用于多模态情感分析的对比知识注入(ConKI),其中每个模态的特定知识表示可以通过基于Adapter架构的知识注入与一般知识表示一起学习。此外,ConKI使用在每个单一模态内的知识类型之间、在每个样本内的模态之间和在样本之间执行的分层对比学习过程,以促进对所提出的表示的有效学习,从而改进多模态情绪预测。原创 2024-02-27 18:46:07 · 1199 阅读 · 1 评论 -
【论文精读】VLP-MABSA —— Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis
本篇论文发表于ACL-2022原文链接源码模态:图像+文本基于多模态方面的情感分析(MABSA)近年来越来越受到关注。然而,以前的方法要么(i)单独使用预训练的视觉和文本模型,忽略了跨模态的对齐;要么(ii)使用预训练的视觉语言模型,这些模型带有一般的预训练任务,这不足以识别细粒度的方面、观点及其跨模态的对齐。本文提出了一个针对MABSA的任务特定的视觉语言预训练框架(VLPMABSA),这是一个统一的多模态编码器-解码器架构,用于所有预训练和下游任务。原创 2024-02-05 17:23:11 · 1329 阅读 · 0 评论