Hierarchical Multi-modal Contextual Attention Network for Fake News Detection
论文来源:SIGIR 2021
论文链接:https://dl.acm.org/doi/abs/10.1145/3404835.3462871
数据集地址:待补充
Motivation
作者认为:
- 之前工作的文本模态表示为了提取深层次的表示而忽略了其余层的信息
- 同时,新闻的上下文(视觉、文本)互补信息缺乏有效的提取手段。
Method
模型包括了:
- 编码器(视觉、文本)
- 分层文本信息融合
- 魔改注意力
- 分类头
编码器
采用ResNet-50和Bert分别对视觉、文本进行编码
分层文本融合
将Bert的12层encoder输出分组,文章中分成3组,即14,58,9~12三组,由于concat会增加计算复杂度,所以作者直接通过sum求和不改变特征的维度,得到三个特征t1, t2, t3。
魔改注意力
这一层的输入共有4个,3个是分层融合得到的文本特征,1个是ResNet提取到的视觉特征。
对于每一个注意力模块,输入都是1个文本特征,1个视觉特征。模型中这三个注意力模块都是共享参数的。
对于模块的内部,有两轮操作,每轮分两步。视觉和文本特征轮流作为Q、K、V。比如:
- 第一轮第一步,文本特征先单独作为Q、K、V,相当于做自注意力操作
- 第一轮第二步,将第一步得到的结果与视觉特征再做一次注意力。其中,视觉特征做Q,上一步的结果做K和V,最后将第一步和第二步的结果做concat输出,称作 C T I C_{TI} CTI。
第二轮和第一轮类似,只不过视觉特征和文本的顺序交换一下。得到的特征称为 C I T C_{IT} CIT。
两轮的结果做一个组合: C i = α ∗ C T I + ( 1 − α ) ∗ C I T , i ∈ [ 0 , 2 ] C_i=\alpha*C_{TI}+(1-\alpha)*C_{IT},i\in[0,2] Ci=α∗CTI+(1−α)∗CIT,i∈[0,2]
分类头
将上一层输出的 C i C_i Ci做concat拼接起来,送入全连接层分类。
Result
总的结果:
消融实验的结果:
从上到下依次为:
- 去掉视觉特征,纯文本的情况
- 去掉context attention模块
- 去掉分层文本编码模块
除此之外,作者还讨论了bert编码的分组数对结果的影响: