【论文阅读】SIGIR 2021:Hierarchical Multi-modal Contextual Attention Network for Fake News Detection

Hierarchical Multi-modal Contextual Attention Network for Fake News Detection

论文来源:SIGIR 2021

论文链接:https://dl.acm.org/doi/abs/10.1145/3404835.3462871

数据集地址:待补充

Motivation

作者认为:

  • 之前工作的文本模态表示为了提取深层次的表示而忽略了其余层的信息
  • 同时,新闻的上下文(视觉、文本)互补信息缺乏有效的提取手段。

Method

在这里插入图片描述

模型包括了:

  1. 编码器(视觉、文本)
  2. 分层文本信息融合
  3. 魔改注意力
  4. 分类头

编码器

采用ResNet-50Bert分别对视觉、文本进行编码

分层文本融合

将Bert的12层encoder输出分组,文章中分成3组,即14,58,9~12三组,由于concat会增加计算复杂度,所以作者直接通过sum求和不改变特征的维度,得到三个特征t1, t2, t3。

魔改注意力

这一层的输入共有4个,3个是分层融合得到的文本特征,1个是ResNet提取到的视觉特征。

对于每一个注意力模块,输入都是1个文本特征,1个视觉特征。模型中这三个注意力模块都是共享参数的。

对于模块的内部,有两轮操作,每轮分两步。视觉和文本特征轮流作为Q、K、V。比如:

  • 第一轮第一步,文本特征先单独作为Q、K、V,相当于做自注意力操作
  • 第一轮第二步,将第一步得到的结果与视觉特征再做一次注意力。其中,视觉特征做Q,上一步的结果做K和V,最后将第一步和第二步的结果做concat输出,称作 C T I C_{TI} CTI

第二轮和第一轮类似,只不过视觉特征和文本的顺序交换一下。得到的特征称为 C I T C_{IT} CIT

两轮的结果做一个组合: C i = α ∗ C T I + ( 1 − α ) ∗ C I T , i ∈ [ 0 , 2 ] C_i=\alpha*C_{TI}+(1-\alpha)*C_{IT},i\in[0,2] Ci=αCTI+(1α)CIT,i[0,2]

分类头

将上一层输出的 C i C_i Ci做concat拼接起来,送入全连接层分类。

Result

总的结果:
在这里插入图片描述

消融实验的结果:

从上到下依次为:

  • 去掉视觉特征,纯文本的情况
  • 去掉context attention模块
  • 去掉分层文本编码模块

在这里插入图片描述

除此之外,作者还讨论了bert编码的分组数对结果的影响:

在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值