【论文阅读】SIGIR 2021：Hierarchical Multi-modal Contextual Attention Network for Fake News Detection

兴隆山的风

已于 2023-03-15 14:06:55 修改

阅读量1.2k

点赞数 1

分类专栏：论文阅读整理文章标签：论文阅读深度学习数据挖掘自然语言处理

于 2023-03-12 14:45:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51007786/article/details/129475680

版权

论文阅读整理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Hierarchical Multi-modal Contextual Attention Network for Fake News Detection

论文来源：SIGIR 2021

论文链接：https://dl.acm.org/doi/abs/10.1145/3404835.3462871

数据集地址：待补充

Motivation

作者认为：

之前工作的文本模态表示为了提取深层次的表示而忽略了其余层的信息
同时，新闻的上下文(视觉、文本)互补信息缺乏有效的提取手段。

Method

在这里插入图片描述

模型包括了：

编码器（视觉、文本）
分层文本信息融合
魔改注意力
分类头

编码器

采用ResNet-50和Bert分别对视觉、文本进行编码

分层文本融合

将Bert的12层encoder输出分组，文章中分成3组，即1_4，58，9~12三组，由于concat会增加计算复杂度，所以作者直接通过sum求和不改变特征的维度，得到三个特征t1, t2, t3。

魔改注意力

这一层的输入共有4个，3个是分层融合得到的文本特征，1个是ResNet提取到的视觉特征。

对于每一个注意力模块，输入都是1个文本特征，1个视觉特征。模型中这三个注意力模块都是共享参数的。

对于模块的内部，有两轮操作，每轮分两步。视觉和文本特征轮流作为Q、K、V。比如：

第一轮第一步，文本特征先单独作为Q、K、V，相当于做自注意力操作
第一轮第二步，将第一步得到的结果与视觉特征再做一次注意力。其中，视觉特征做Q，上一步的结果做K和V，最后将第一步和第二步的结果做concat输出，称作 $C_{TI}$ 。

第二轮和第一轮类似，只不过视觉特征和文本的顺序交换一下。得到的特征称为 $C_{IT}$ 。

两轮的结果做一个组合： $C_i=\alpha*C_{TI}+(1-\alpha)*C_{IT},i\in[0,2]$

分类头

将上一层输出的 $C_i$ 做concat拼接起来，送入全连接层分类。

Result

总的结果：
在这里插入图片描述

消融实验的结果：

从上到下依次为：

去掉视觉特征，纯文本的情况
去掉context attention模块
去掉分层文本编码模块

在这里插入图片描述

除此之外，作者还讨论了bert编码的分组数对结果的影响：

在这里插入图片描述

兴隆山的风

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
【论文阅读】SIGIR 2021：Hierarchical Multi-modal Contextual Attention Network for Fake News Detection

SIGIR2021 多模态虚假新闻检测：Hierarchical Multi-modal Contextual Attention Network for Fake News Detection
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。