文献来源:Wu L, Long Y, Gao C, et al. MFIR: Multimodal fusion and inconsistency reasoning for explainable fake news detection[J]. Information Fusion, 2023, 100: 101944.
模型结构图:

作者提出的多模态融合和不一致推理模型总共分为5个部分。首先是特征表示,采用Bert预训练模型生成文本特征表示,采用Faster R-CNN模型生成图像特征表示。其次是跨模态渗透融合,这其中又包含三个环节,第一是采用Transformer中的Encoder模块来捕获文本上下文关系以及图像中两个对象的依赖关系。第二是自注意力机制与交叉注意力机制组成的交互渗透融合。为避免跨模态语义与单模态语义偏离,作者又设计了第三环节特征约束机制,用KL发散策略增强了单模态和多模态特征的一致性。
然后融合后的图文特征进入多模态不一致学习阶段,第一是对比增强学习分别从文本和图像角度捕获不一致语义。第二通过门控机制把不一致语义中的噪声去除。第三是设计残差共享模块,促进不一致特征互补性。
接着进入解释推理阶段,本阶段主要是为了获取不一致语义的上下文,以此来作为解释虚假新闻的有效证据。
最后,将各特征拼接后进入Softmax中进行虚假新闻的分类。
该研究提出MFIR模型,利用BERT和FasterR-CNN提取文本和图像特征,通过Transformer和特征约束机制融合模态,通过对比增强学习和门控机制识别不一致,解释性推理阶段提供解释。目标是提高虚假新闻的检测准确性与可解释性。

被折叠的 条评论
为什么被折叠?



