论文笔记：基于多粒度信息融合的社交媒体多模态假新闻检测

一本糊涂张～

已于 2024-11-07 17:52:43 修改

阅读量3.3k

点赞数 18

分类专栏：论文笔记文章标签：论文阅读媒体

于 2024-03-31 15:42:01 首次发布

本文链接：https://blog.csdn.net/zly_Always_be/article/details/137200802

版权

论文笔记专栏收录该内容

28 篇文章

订阅专栏

整理了ICMR2023 Multi-modal Fake News Detection on Social Media via Multi-grained Information Fusion）论文的阅读笔记

背景
模型
实验

背景

在假新闻检测领域，目前的方法主要集中在文本和视觉特征的集成上，但不能有效地利用细粒度和粗粒度级别的多模态信息。在图1上面的帖子中，仅基于文本或视觉信息都无法判定其真实性，在细粒度上（实体的角度）人们首先会注意到图片中的乞丐和骆驼，以及文字中的乞丐、乞讨、骆驼、截肢、膝盖和谎言。这些元素有匹配的（蓝色区域）和不匹配的（红色区域）。随后，人们将从整体上理解语言和图像的语义，最后得出关于新闻真实性的结论。此外，由于模态之间缺乏相关性或每个模态所做的决策之间存在矛盾，它们还存在歧义问题。在图1下面的帖子中，语言和图像并不相关，用户可能只是在表达自己的感受，在这种情况下，融合多模态特征可能会造成误判。
为了克服这些挑战，本文提出了一个用于假新闻检测的多粒度多模态融合网络(MMFN)。MMFN分别使用两个基于transformer的预训练模型来编码文本和图像的令牌级特征。多模态模块融合细粒度特征，同时考虑到CLIP编码器编码的粗粒度特征。为了解决歧义问题，设计了基于相似性加权的单模态分支，以自适应地调整多模态特征的使用。
在这里插入图片描述

模型

MMFN的网络设计如图2所示，由多模态特征编码器、多粒度特征融合模块、单模态分支和基于CLIP相似度的模态加权以及分类器组成。
在这里插入图片描述
具体来说，这篇文章使用了三种预训练的编码器对多模态特征进行编码，分别是基于transformer的BERT和SWIN-T，基于对比学习的CLIP。
需要注意的是，BERT和SWIN-T的输出都是token级的，BERT的输出表示为 $T^b=[t_1^b,t_2^b,...,t_{nw}^b]$ ，其中 $t_i^b$ 表示文本嵌入中第i个token（也就是第i个词）的最后一个隐藏状态的输出， $d_b$ 是单词嵌入的维度。SWIN-T的输出表示为 $V^s=[v_1^s,v_2^s,...,v_{n_p}^s]$ ，其中， $v_i^s\in R^{s_s}$ 为模型最后一层输出处对应于输入的第i个patch的隐藏状态，𝑛𝑝为SWIN-T中的patch数， $d_s$ 为视觉嵌入的隐藏大小。
CLIP文本和图片编码器的结果为 $X^c=[t^c,v^c]$ ，分别表示图片和文本模态的嵌入向量，他们处于同一个嵌入空间。
拿到了这些特征后，本文的单模态分支就是把BERT和SWIN-T的token级向量进行平平均池化，然后和CLIP的编码结果拼起来经过一个映射头，作为两个单模态分支特征，即： $F^t=\Phi_T(\bar{T_b};t^c)$ $F^v=\Phi_V(\bar{V_s};v^c)$ 接下来我们看粗细粒度的多模态融合模块，所谓细粒度，就是把 $T_b$ 和 $V_s$ 分别送入两个transformer架构的共注意力机制模块，得到互相加权后的文本和图片细粒度特征： $F^{vt}=CT((T^bW^t),(V^sW^v))$ $F^tv=CT((V^sW^v),(T^bW^t))$ 然后通过几个全连接层把互相加权过的细粒度特征和粗粒度特征融合： $M^f=FFN_1(F^{vt};F^{tv})$ $M^c=FFN_2(t^c;v^c)$ $F^m=similarity\cdot \Phi_M(M^f,M^c)$ similarity是通过CLIP特征算出来的模态间余弦相似度，作者认为，如果直接将单模态分支表示发送给分类器进行决策，分类器可能更倾向于使用具有更深网络的多模态表示来拟合结果，而单模态分支可能会干扰决策并导致更严重的歧义问题。因此使用CLIP余弦相似度作为多模态特征加权的系数来指导分类器的学习过程，也就是给多模态特征加权，融合特征的权重由跨模态的相似性决定。
将三个分支的特征送入分类头得到pre，损失函数是交叉熵。

实验

使用的数据集是2017年MM文章提出的Twitter和Weibo，以及Fakenewsnet中的Gossipcop，得到了SOTA效果：
在这里插入图片描述

作者认为MMFN的有效性可能是由于这些原因：1）swin-T能够提取视觉信息的细粒度特征，补充BERT编码器生成的文本特征；预训练的CLIP编码器能够在共享文件中生成具有丰富语义信息的粗粒度文本和图像特征。这允许MMFN在粗细粒度上进行互补。2）跨模态Transformer组件实现了token级别的多模态交互，从而促进了多模态的细粒度融合。3）利用基于clip特征计算相似度调整不同分支的权重有效地缓解了歧义问题。
消融实验结果：在这里插入图片描述
我们可以观察到，去掉粗/细粒度、视觉/语言模态、跨模态Transformer模块都造成了MMFN的性能下降，这体现了MMFN中不同组件的有效性。
在微博的测试集上进行的T-SNE降维可视化：

结果显示，相比于不同分支的有效性，完全的MMFN学习的表征在所有变体中表现出最佳的可分性。这表明该方法可以有效地处理多模态表示来解决歧义问题，从而显著提高可分性。