谣言检测相关论文阅读笔记:Zoom Out and Observe:News Environment Perception for Fake News Detection

本文提出了新闻环境感知框架NEP,通过宏观和微观环境分析提升假新闻检测效果。框架包括环境构建、感知和预测三个阶段,利用新闻流行度和新颖度作为关键指标,并通过高斯核池化处理环境信息。实验表明,结合新闻环境信息能有效提升检测准确性。
摘要由CSDN通过智能技术生成

来源:ACL2022

目录

一、背景

二、新闻环境感知框架News Env Perception(NEP)

1.环境构建阶段

2.环境感知阶段

3.预测阶段

三、实验

1.数据集

2.性能比较

3.统计分析

4.案例分析

5.实用性讨论

四、总结与展望


现有的检测方法往往选择推进观察(“zoom in”),通过捕捉特定行文模式、基于知识库验证内容真实性、考虑用户评论,对给定新闻的真实性做出判断。但为了提高影响力和破坏力,假新闻往往存在“蹭热点”倾向,新闻环境反映的近期主流的媒体焦点和群众关切,成为了假新闻创作中的重要参考,因此假新闻创作和传播时所处的新闻环境中蕴含的信息,也非常重要。作者认为拉远焦点(“zoom out”),观察给定新闻与其所在新闻环境的关系,可以为假新闻检测提供全新的视角。基于以上思考,本文提出新闻环境感知框架,通过在宏观环境中观察给定新闻的流行度,在微观环境中观察其新颖度,捕捉有用信息用于假新闻检测。

一、背景

相关工作

大概可以分为两个流派:

1.基于信息中的相关语义信号来判断其是否与其他新闻不同,好处在于可以立即检测,缺点在于可依赖的信息量只有这条网络帖子本身。

2.为了获得更多有效信息,大多数研究者选择凭借外部信息的帮助,推近观察(“zoom in”)帖子的内容。这种方法大致分为两类:

        一类挖掘帖子所引发的社交上下文信息

        基于社交上下文的方法经常考虑从用户反馈(如评论、转发)中寻找线索(用户基于自身知识可能会发现帖子的异常描述)。还有一些基于社交上下文的方法会利用传播网络信息(真新闻和假新闻的传播方式有差异,假新闻传播链路往往会更深,且网络中可能会有一些有组织的水军行为)。基于社交上下文的方法具有一定的局限性,因为其必须等待充分的社交上下文出现,无法支撑即时检测。

        一类依靠外部的知识资源

        根据帖子内容,到外部知识库中寻找事实证据,判断新闻真假。该方法的缺陷是其无法在真相未知的情况下工作,很多突发事件中产生的新闻是无法通过已有知识进行核查的。我们只能根据经验去“猜测”,此时基于知识的方法也就不再奏效了。

为了克服以上方法的缺陷,本文提出了新的 “zoom out”思路:不仅观察帖子,还要观察帖子所在的新闻环境。这样做一方面可以支撑即时检测(因为新闻环境在新闻发布前就已经客观存在),而且也不像基于知识的方法那样对知识来源有严格要求。

新闻环境能提供什么?

假新闻往往会为了更大的曝光而选择蹭热点新闻(流行度),同时会增加一些新颖信息(新颖度)来吸引读者关注,在假新闻创作中,流行度和新颖度是两个很重要的指标。

下图展示了2019年11月的新闻环境(由当时的主流媒体报道构成,仅展示关键部分)。当时中国男足和叙利亚男足的一场球赛吸引了众多目光。最终,中国男足2-1输给了叙利亚男足。为了蹭上这个热点(流行度驱动),同时吸引读者的注意力(新颖度驱动),造假者便创作了如下的假新闻帖子p:叙利亚各方决定停火48小时来庆祝球赛胜利,它的新闻环境包含最近三天的新闻条目(2019/11/12 to 2019/11/14),可见p落于热点事件叙利亚-中国世界杯预选赛,与其他事件相比注重于新奇方面(叙利亚不寻常的庆祝)。

在新闻环境中可观察到2个信号:

1.流行度 宏观环境看,p在五个不同领域的事件中与相对流行的叙利亚-中国世界杯比赛相关,会带来更大的热度

2.新颖度 微观看,大部分帖子只关注比赛本身,p提供了一个新的角度关于叙利亚不寻常的庆祝,来抓住观众的注意,增加传播。

这些潜在的有用信号,在“zoom in”模式中被无视。所以在本文中,新闻真实性预测不再仅仅基于内容本身,还会将新闻环境信息考虑进来。

二、新闻环境感知框架News Env Perception(NEP)

给定帖子p,首先用最近的新闻数据建立宏观微观新闻环境 (MACROENV and MICROENV),然后用帖子环境关系生成环境感知向量V^{p,mac}V^{p,mic},最后,将两个环境感知向量与帖子表示o融合 ,o来自虚假新闻解码器,用于预测p的真假。

NEP框架主要分为三部分:第一部分是环境的构建,第二部分是感知,第三部分是基于感知到的环境信息进行预测。我们将感知到的信息与假新闻检测器提取的信息进行了融合,完成最终的真实性判断。  

1.环境构建阶段

\varepsilon是在p之前发布的新闻条目集合,构建两种不同的环境:宏观环境与微观环境。宏观环境是目标帖子发布前T天内的主流新闻集合,而微观环境是宏观环境中与目标帖子最相关的k条构成的子集。

MACROENV:\varepsilon ^{mac}=\left \{ e:e\in \varepsilon ,0<t_{p}-t_{e}\leqslant T \right \}

其中,t_{p}​是p的发表日期,t_{e}​是新闻条目e的发表日期;

MICROENV:\varepsilon ^{mic}=\left \{ e:e\in Topk ,\left ( p,\varepsilon ^{mac} \right ) \right \}

其中,k=\left \lceil r|\varepsilon ^{mac}| \right \rceilr\in (0,1),决定比例

用预训练模型\mathcal{M}(BERT等)获得post/news的表示,环境ep或者每个item的初始表示为[CLS]token的输出:

2.环境感知阶段

在流行度引导的宏观环境感知中:

考虑p的主事件在宏观环境的流行度,在越多item与p相关、则p越流行的前提下,将其转化为相似度计算问题。通过语言模型将环境中的新闻条目和目标帖子都转化为语义空间中的向量,首先,计算帖子p与新闻条目向量(比如,i)之间的余弦相似度,得到相似度列表​\{ \cos(p,e_i) \}_{i=1}^{\rvert \varepsilon^{max}\lvert}

由于这个列表是不定长的,对后续计算不够友好,为了把它“凝练”为一个固定向量,引入了高斯核池化操作,通过在余弦相似度值域范围的“软计数”,得到定长的核输出,作为“凝练”了相似度信息的表示向量。

使用C\{ \mathbf{K_i}\}_{i=1}^{C},第k核的输出为:

其中,\mu_k​是高斯核函数的均值,\sigma_k是其宽度。

在式5中,如果pe相似度接近均值\mu_k​,那么指数项接近1,反之接近0。后在式6中,对指数项求和。将C个核的均值\{ \mu_k\}_{k=1}^{C}​散布在[-1,1]来完全覆盖余弦相似度的范围,宽度\{ \sigma_k\}_{k=1}^{C}

在MACROENV中一个C维的相似性特征向量(即相似度的软分布),由拼接所有核的输出,并归一化输出的总和得到:

最后,为了丰富感知到的信息,对帖子向量、环境中心向量、核输出进行了聚合操作,得到宏观感知向量:

在新颖度引导的微观环境感知部分中,采取同宏观环境一样的统计思路,不过不仅对帖子做了操作,还对微观环境的中心向量做了相同操作。这是因为新颖度是“比”出来的,通过两者核输出的比较,更容易找到代表新颖度的有用信息。最后同样进行聚合操作。

考虑一条帖子的新颖度,如果它新颖,那么在相似事件中,它就是一个特异点。将MICROENV中心向量m(\varepsilon^{mic})作为参考,再次使用等式5到7,但是这一部分需要计算两个相似特征,\mathbf{K}(p,\varepsilon^{mic})\mathbf{K}(m(\varepsilon^{mic}),\varepsilon^{mic}),后者可以作为前者的参考,便于模型对其感知进行“校准”。

p的MICROENV感知向量构造如下:

其中,比较函数 \bf g(x,y)=(x\odot y)\oplus(x-y)\odot为哈达玛积,u^{sim}, u^{sem}分别聚合了语义和相似度信息。MLPs是单独参数化。

3.预测阶段

由于新闻环境信息并不是假新闻的全部,作者并不期望该框架作为一种全新的方法运行。因此,在预测阶段试图将环境感知向量融于已有的虚假新闻检测器中。为此,本文利用门机制,对给宏观环境向量、微观环境向量和检测器自身抽取的特征进行了融合,最终将融合后的向量放进真假分类器,得到最后的真实性预测结果。

如,对于post-only detector o,通过门机制进行自适应融合:

门向量\bf g=sigmoid(Linear(o \oplus v^{p,mac}))o是post-only的检测器的最后一层特征,最后o\bf v^p进入MLP之后,再经过softmax层来预测结果:

这个公式也可以连接别的特征,损失函数用交叉熵损失。

三、实验

1.数据集

由于现有数据集不包含新闻环境数据,且时间跨度不大、覆盖度不好。作者合并了一些主要的假新闻检测数据集,并从下面的一些主流媒体中采集了一些帖子或新闻标题作为新闻环境数据的基本要素。

2.性能比较

观察发现:

1.基于我们框架的帮助,六组基模型的准确率和宏F1值都实现了提高。

2.一般而言,假新闻比真新闻的宏F1值提高更为明显,这也是假新闻检测系统乐于见到的特性。

3.统计分析

根据门向量的权重,我们观察了更依赖宏观环境或微观环境的前1%的假新闻样本。下图展示了作者手工分类的结果。发现:

1.宏观环境对自然灾害或事故类假新闻更有效,上述事件往往是爆炸性的,假新闻只要蹭上这个热点,就乘上了传播的“东风”;

2.微观环境对日常生活的时间更有效。这可能是因为在常见事件中,假新闻创作者更需要绞尽脑汁,提高假新闻的新颖度;

4.案例分析

在案例分析中,作者选取了宏观环境与微观环境各自之中发生的一些新闻进行比较分析。这些例子从直观上为我们展示了新闻环境的感知是如何去应对不同场景的。

5.实用性讨论

在不平衡的在线数据集进行评估:

对其中一个基模型和它引入NEP框架后的版本进行了线上系统数据测试。测试数据来自“睿鉴识谣”系统。与离线数据集不同,真实世界的数据集高度不平衡:该数据集有30,977条真新闻和309条假新闻,比例约为100:1。从下图可以看到,本文的框架对宏F1值和spAUC(适用于数据高度不平衡场景)均有明显提高

该方法对实用系统的友好性:

及时性 该方法可以实现基于外部信息的即时虚假新闻检测。

兼容性 该方法可以与各种已有的虚假新闻检测器兼容并联合训练。

数据的易获取性 本框架需要使用的主流新闻媒体数据是比较容易获取的。

四、总结与展望

“我们提出利用新闻环境信息来辅助虚假新闻检测,并设计了对应框架NEP。据我们所知,这是第一篇考虑新闻环境在虚假新闻检测中作用的工作。同时构建了一个新的数据集,在线上和线下的测试都证实了其有效性。未来我们在考虑引入更多 类型的环境信息或将该模式扩展到更丰富的场景下。”

论文链接:

https://arxiv.org/abs/2203.10885

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值