谣言检测相关论文阅读笔记：Zoom Out and Observe:News Environment Perception for Fake News Detection

yxx35AN

已于 2023-02-01 10:55:39 修改

阅读量493

点赞数 2

分类专栏： NLP 文章标签：自然语言处理论文阅读

于 2023-02-01 10:53:25 首次发布

本文链接：https://blog.csdn.net/yxx35AN/article/details/128704271

版权

NLP 专栏收录该内容

6 篇文章

订阅专栏

本文提出了新闻环境感知框架NEP，通过宏观和微观环境分析提升假新闻检测效果。框架包括环境构建、感知和预测三个阶段，利用新闻流行度和新颖度作为关键指标，并通过高斯核池化处理环境信息。实验表明，结合新闻环境信息能有效提升检测准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来源：ACL2022

一、背景

二、新闻环境感知框架News Env Perception（NEP）

现有的检测方法往往选择推进观察（“zoom in”），通过捕捉特定行文模式、基于知识库验证内容真实性、考虑用户评论，对给定新闻的真实性做出判断。但为了提高影响力和破坏力，假新闻往往存在“蹭热点”倾向，新闻环境反映的近期主流的媒体焦点和群众关切，成为了假新闻创作中的重要参考，因此假新闻创作和传播时所处的新闻环境中蕴含的信息，也非常重要。作者认为拉远焦点（“zoom out”），观察给定新闻与其所在新闻环境的关系，可以为假新闻检测提供全新的视角。基于以上思考，本文提出新闻环境感知框架，通过在宏观环境中观察给定新闻的流行度，在微观环境中观察其新颖度，捕捉有用信息用于假新闻检测。

一、背景

相关工作：

大概可以分为两个流派：

1.基于信息中的相关语义信号来判断其是否与其他新闻不同，好处在于可以立即检测，缺点在于可依赖的信息量只有这条网络帖子本身。

2.为了获得更多有效信息，大多数研究者选择凭借外部信息的帮助，推近观察（“zoom in”）帖子的内容。这种方法大致分为两类：

一类挖掘帖子所引发的社交上下文信息：

基于社交上下文的方法经常考虑从用户反馈（如评论、转发）中寻找线索（用户基于自身知识可能会发现帖子的异常描述）。还有一些基于社交上下文的方法会利用传播网络信息（真新闻和假新闻的传播方式有差异，假新闻传播链路往往会更深，且网络中可能会有一些有组织的水军行为）。基于社交上下文的方法具有一定的局限性，因为其必须等待充分的社交上下文出现，无法支撑即时检测。

一类依靠外部的知识资源：

根据帖子内容，到外部知识库中寻找事实证据，判断新闻真假。该方法的缺陷是其无法在真相未知的情况下工作，很多突发事件中产生的新闻是无法通过已有知识进行核查的。我们只能根据经验去“猜测”，此时基于知识的方法也就不再奏效了。

为了克服以上方法的缺陷，本文提出了新的 “zoom out”思路：不仅观察帖子，还要观察帖子所在的新闻环境。这样做一方面可以支撑即时检测（因为新闻环境在新闻发布前就已经客观存在），而且也不像基于知识的方法那样对知识来源有严格要求。

新闻环境能提供什么？：

假新闻往往会为了更大的曝光而选择蹭热点新闻（流行度），同时会增加一些新颖信息（新颖度）来吸引读者关注，在假新闻创作中，流行度和新颖度是两个很重要的指标。

下图展示了2019年11月的新闻环境（由当时的主流媒体报道构成，仅展示关键部分）。当时中国男足和叙利亚男足的一场球赛吸引了众多目光。最终，中国男足2-1输给了叙利亚男足。为了蹭上这个热点（流行度驱动），同时吸引读者的注意力（新颖度驱动），造假者便创作了如下的假新闻帖子p：叙利亚各方决定停火48小时来庆祝球赛胜利，它的新闻环境包含最近三天的新闻条目(2019/11/12 to 2019/11/14)，可见p落于热点事件叙利亚-中国世界杯预选赛，与其他事件相比注重于新奇方面（叙利亚不寻常的庆祝）。

在新闻环境中可观察到2个信号：

1.流行度宏观环境看，p在五个不同领域的事件中与相对流行的叙利亚-中国世界杯比赛相关，会带来更大的热度

2.新颖度微观看，大部分帖子只关注比赛本身，p提供了一个新的角度关于叙利亚不寻常的庆祝，来抓住观众的注意，增加传播。

这些潜在的有用信号，在“zoom in”模式中被无视。所以在本文中，新闻真实性预测不再仅仅基于内容本身，还会将新闻环境信息考虑进来。

二、新闻环境感知框架News Env Perception（NEP）

给定帖子 $p$ ，首先用最近的新闻数据建立宏观微观新闻环境 (MACROENV and MICROENV)，然后用帖子环境关系生成环境感知向量 $V^{p,mac}$ 和 $V^{p,mic}$ ，最后，将两个环境感知向量与帖子表示 $o$ 融合， $o$ 来自虚假新闻解码器，用于预测 $p$ 的真假。

NEP框架主要分为三部分：第一部分是环境的构建，第二部分是感知，第三部分是基于感知到的环境信息进行预测。我们将感知到的信息与假新闻检测器提取的信息进行了融合，完成最终的真实性判断。

1.环境构建阶段

$\varepsilon$ 是在 $p$ 之前发布的新闻条目集合，构建两种不同的环境：宏观环境与微观环境。宏观环境是目标帖子发布前 $T$ 天内的主流新闻集合，而微观环境是宏观环境中与目标帖子最相关的 $k$ 条构成的子集。

MACROENV： $\varepsilon ^{mac}=\left \{ e:e\in \varepsilon ,0<t_{p}-t_{e}\leqslant T \right \}$

其中， $t_{p}$ 是 $p$ 的发表日期， $t_{e}$ 是新闻条目 $e$ 的发表日期；

MICROENV： $\varepsilon ^{mic}=\left \{ e:e\in Topk ,\left ( p,\varepsilon ^{mac} \right ) \right \}$

其中， $k=\left \lceil r|\varepsilon ^{mac}| \right \rceil$ ， $r\in (0,1)$ ，决定比例

用预训练模型 $\mathcal{M}$ (BERT等)获得post/news的表示，环境 $e$ 中 $p$ 或者每个item的初始表示为[CLS]token的输出：

2.环境感知阶段

在流行度引导的宏观环境感知中：

考虑 $p$ 的主事件在宏观环境的流行度，在越多item与 $p$ 相关、则 $p$ 越流行的前提下，将其转化为相似度计算问题。通过语言模型将环境中的新闻条目和目标帖子都转化为语义空间中的向量，首先，计算帖子 $p$ 与新闻条目向量（比如， $i$ ）之间的余弦相似度，得到相似度列表 $\{ \cos(p,e_i) \}_{i=1}^{\rvert \varepsilon^{max}\lvert}$ ：

由于这个列表是不定长的，对后续计算不够友好，为了把它“凝练”为一个固定向量，引入了高斯核池化操作，通过在余弦相似度值域范围的“软计数”，得到定长的核输出，作为“凝练”了相似度信息的表示向量。

使用 $C$ 核 $\{ \mathbf{K_i}\}_{i=1}^{C}$ ，第 $k$ 核的输出为:

其中， $\mu_k$ 是高斯核函数的均值， $\sigma_k$ 是其宽度。

在式5中，如果 $p$ 和 $e$ 相似度接近均值 $\mu_k$ ，那么指数项接近1，反之接近0。后在式6中，对指数项求和。将 $C$ 个核的均值 $\{ \mu_k\}_{k=1}^{C}$ 散布在 $[-1,1]$ 来完全覆盖余弦相似度的范围，宽度 $\{ \sigma_k\}_{k=1}^{C}$ 。

在MACROENV中一个 $C$ 维的相似性特征向量（即相似度的软分布），由拼接所有核的输出，并归一化输出的总和得到：

最后，为了丰富感知到的信息，对帖子向量、环境中心向量、核输出进行了聚合操作，得到宏观感知向量：

在新颖度引导的微观环境感知部分中，采取同宏观环境一样的统计思路，不过不仅对帖子做了操作，还对微观环境的中心向量做了相同操作。这是因为新颖度是“比”出来的，通过两者核输出的比较，更容易找到代表新颖度的有用信息。最后同样进行聚合操作。

考虑一条帖子的新颖度，如果它新颖，那么在相似事件中，它就是一个特异点。将MICROENV中心向量 $m(\varepsilon^{mic})$ 作为参考，再次使用等式5到7，但是这一部分需要计算两个相似特征， $\mathbf{K}(p,\varepsilon^{mic})$ 和 $\mathbf{K}(m(\varepsilon^{mic}),\varepsilon^{mic})$ ，后者可以作为前者的参考，便于模型对其感知进行“校准”。