【论文阅读】WWW 2022:Cross-modal Ambiguity Learning for Multimodal Fake News Detection

Cross-modal Ambiguity Learning for Multimodal Fake News Detection

Motivation

作者认为当单模态特征很明显时,多模态融合反而会降低性能,反之单一模态表现不够时,需要引入多模态特征。

另外,作者还认为模态间的gap会造成融合时的信息损失,因此通过将不同模态的特征映射到一个嵌入空间来对齐模态特征。

Method

在这里插入图片描述

文章提出的模型由这几个部分组成:

  1. 编码器

  2. 模态对齐模块

  3. 单一模态的信息估计

  4. 多模态融合

  5. 分类头

其中2,3,4是主要架构。

编码器

采用BertResnet-34分别对文本和图片进行编码。

模态对其模块

通过设计一个辅助任务,对比学习不同模态间的相似度。具体来说,就是从原始数据集D中真实类别的新闻中构建一个辅助对比数据集D2:

  • 来自同一条真实新闻的图片和文本,相似度为1(positive)
  • 来自不同真实新闻的图片和文本,相似度为0(negative)

辅助任务损失函数

通过对比函数计算辅助任务的损失。

训练过程的顺序如下:
训练步骤

训练好的模块用于将不同模态特征映射到一个共享的空间。

模态信息估计

通过KL散度衡量单一模态之间的分布,个人理解是将分布近似认为是模态信息之中的偏差,偏差越小说明单一模态的信息越有用,多模态融合的特征分配的权重就会越小。

权重分配

多模态融合

感觉没什么好说的,就是注意力上变花样,排列组合一下诶。

在这里插入图片描述

分类头

输入的特征包括视觉模态、文本模态、融合模态,这三个特征通过信息估计的结果分配权重组合起来。

然后是MLP外面再套一个Softmax输出。

在这里插入图片描述

整个模型的损失包括了:分类损失、辅助任务的损失

Result

总的结果:
在这里插入图片描述

消融实验结果:

在这里插入图片描述

从上到下依次是:去掉对其模块、去掉信息估计、去掉模态融合

另外作者针对信息估计中使用不同函数模态融合使用不同方式额外做了实验:

在这里插入图片描述

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值