近年多模态谣言检测论文创新思路和创新点总结（未完结版）

yxx35AN

已于 2024-06-20 14:51:13 修改

阅读量380

点赞数

文章标签：人工智能深度学习计算机视觉

于 2023-11-09 17:08:23 首次发布

本文链接：https://blog.csdn.net/yxx35AN/article/details/134139402

版权

MFAN: Multi-modal Feature-enhanced Attention Networks for Rumor Detection

原文：[PDF] MFAN: Multi-modal Feature-enhanced Attention Networks for Rumor Detection | Semantic Scholar

发表会议或期刊：IJCAI 2022；

代码地址：GitHub - drivsaf/MFAN

问题：

1.虽然多模态，但没有考虑到社交结构特征

2.考虑到由于数据收集的限制，social network data中存在不完整链接（incomplete links）

3.graph的节点之间会有多种边关系，而传统的GNN无法区分不同边对目标节点的影响

4.如何有效融合social graph features和另外模态的信息研究较少

5.社交网络上的文本通常不严格遵守语言的语法规范

解决：

1.考虑社交结构特征，将textual，visual，social graph features同时考虑到一个框架中。

把获取的textual，visual，social graph features两两经过一个co-attention模块，最终得到6个特征，然后拼接这6个特征作为最终得到的post的特征表示。

2.推测（infer）隐藏链接

首先，本文将所有post，comment和user作为节点node，一起构建为一个graph。该graph中post，comment节点的初始emb用其sentence vectors表示，然后user节点的初始emb用该user所发的所有post的初始emb的均值表示。然后，作者计算该graph中每两个节点之间的余弦相似度（用节点的初始emb表示计算余弦相似度），如果余弦相似度>0.5，就认为这两个节点之间应该有一条潜在边（也就是有隐藏的链接）。通过上述方式，作者构建了一个新的graph，补全了原始graph中的缺失链接。

3.通过增强图拓扑结构和邻居聚合过程来改进graph的特征学习过程

原始GAT在计算了目标节点与它所有邻居节点的attention权重之后，直接softmax得到重要程度值。这种情况下attention权重如果是较大的负值，就会被赋予较小的重要程度。然而，post和comment组成的图中，负值的attention权重可能代表了一种相反的观点（比如post是谣言，而它的comment反对该post内容），那么这种情况下，负值就具有了重要的意义，不能直接被softmax为不重要的东西。因此，本文保留最开始计算出的attention权重，及该权重的取反值，然后分别进行后续softmax，加权和的计算。最后将得到的两个表示拼接并经过一个全连接层，得到最终的目标节点的emb。

4.介绍了一种自监督的损失函数从不同的角度对齐post表示，以实现更好的多模态融合

首先将textual和graphical features映射到同一个模态空间，然后计算映射后的特征表示的均方误差MSE loss，用最小化均方误差的方式来实现他俩的对齐。

5.采取了一种对抗扰动的方式来提升模型的鲁棒性

Hierarchical Multi-modal Contextual Attention Network for Fake News Detection

发表会议或期刊：SIGIR 2021

代码地址：GitHub - wangjinguang502/HMCAN

问题：

１.Bert的中间隐藏层实际上也包含很多有用的信息

２.对多模态上下文信息的利用不充分

解决：

１.Bert模型中间层有11个，加上最后一层共有12层表示，本文将相邻的4个层的表示求和（4个层为一组），得到3组层次化的文本语义表示。

２.提出多模态上下文注意力网络（感觉类似于协同注意力，不理解怎么能提取到上下文信息）

右边的transformer修改了标准transformer结构的输入，其他结构没有改变。其输入的Q来自input2，而KV值则来自input1，是左边transformer的输出结果。因此该transformer就是学习了input1和input2两者inter-modality的特征。

一个多模态上下文注意力网络中的一个contextual transformer1的input1和input2分别是text和image内容，而contextual transformer2的input1和input2分别是image和text。

参考：

【论文阅读】MFAN: Multi-modal Feature-enhanced Attention Networks for Rumor Detection --- 多模态，谣言检测，注意力机制_pheme数据集-CSDN博客
 【论文阅读】Hierarchical Multi-modal Contextual Attention Network for Fake News Detection --- 虚假新闻检测，多模态_假新闻检测论文_me_yundou的博客-CSDN博客

yxx35AN

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
近年多模态谣言检测论文创新思路和创新点总结（未完结版）

IJCAI 2022；１.虽然多模态，但没有考虑到社交结构特征2.考虑到由于数据收集的限制，social network data中存在不完整链接（incomplete links）3.graph的节点之间会有多种边关系，而传统的GNN无法区分不同边对目标节点的影响4.如何有效融合social graph features和另外模态的信息研究较少5.社交网络上的文本通常不严格遵守语言的语法规范。
复制链接

扫一扫