Cross-modal Ambiguity Learning for Multimodal Fake News Detection
- 论文来源:WWW 2022
- 论文链接:https://dl.acm.org/doi/10.1145/3485447.3511968
- 数据集地址:待补充
Motivation
作者认为当单模态特征很明显时,多模态融合反而会降低性能,反之单一模态表现不够时,需要引入多模态特征。
另外,作者还认为模态间的gap会造成融合时的信息损失,因此通过将不同模态的特征映射到一个嵌入空间来对齐模态特征。
Method
文章提出的模型由这几个部分组成:
-
编码器
-
模态对齐模块
-
单一模态的信息估计
-
多模态融合
-
分类头
其中2,3,4是主要架构。
编码器
采用Bert和Resnet-34分别对文本和图片进行编码。
模态对其模块
通过设计一个辅助任务,对比学习不同模态间的相似度。具体来说,就是从原始数据集D中真实类别的新闻中构建一个辅助对比数据集D2:
- 来自同一条真实新闻的图片和文本,相似度为1(positive)
- 来自不同真实新闻的图片和文本,相似度为0(negative)
通过对比函数计算辅助任务的损失。
训练过程的顺序如下:
训练好的模块用于将不同模态特征映射到一个共享的空间。
模态信息估计
通过KL散度衡量单一模态之间的分布,个人理解是将分布近似认为是模态信息之中的偏差,偏差越小说明单一模态的信息越有用,多模态融合的特征分配的权重就会越小。
多模态融合
感觉没什么好说的,就是注意力上变花样,排列组合一下诶。
分类头
输入的特征包括视觉模态、文本模态、融合模态,这三个特征通过信息估计的结果分配权重组合起来。
然后是MLP外面再套一个Softmax输出。
整个模型的损失包括了:分类损失、辅助任务的损失
Result
总的结果:
消融实验结果:
从上到下依次是:去掉对其模块、去掉信息估计、去掉模态融合
另外作者针对信息估计中使用不同函数、模态融合使用不同方式额外做了实验: