信息检索与事实核查(2):VeraCT Scan: Retrieval-Augmented Fake News Detection with Justifiable Reasoning


发布时间(2024ACL)


标题:VeraCT 扫描,利用合理推理进行 检索增强假新闻检测

摘要

虚假新闻的泛滥不仅传播误导性信息,而且破坏民主的基础,构成重大威胁。生成式人工智能的最新进展进一步加剧了区分真实新闻和虚假故事的挑战。 为了应对这一挑战,我们推出了 VeraCT Scan,这是一种用于检测虚假新闻的新型检索增强系统。
该系统的运行方式是从给定的新闻中提取核心事实,然后进行全网搜索以识别确凿或相互矛盾的报道。然后利用消息来源的可信度来验证信息。除了确定新闻的真实性之外,我们还提供透明的证据和推理来支持其结论,从而使结果具有可解释性和可信度。除了 GPT-4 Turbo,Llama-2 13B 还针对新闻内容理解、信息验证和推理进行了微调。这两种实现都展示了虚假新闻检测领域最先进的准确性1。

3 方法

在本文中,“声明”一词是指新闻文章中陈述的事实。术语“事实声明提取”和“事实提取”在整篇论文中互换使用。 图 1 显示了 VeraCT Scan 的主要工作流程。我们提示 GPT-4 Turbo 进行关键事实提取、查询生成、验证和理由生成(有关正在使用的提示,请参阅附录 A)。这些单独的组件可以轻松交换到其他 LLM 或搜索引擎。在这项工作中,GPT-4 Turbo 的输出加上人工审查,作为训练数据来微调 Llama-2 13B(Touvron 等人,2023 年),使其也能够支持这些任务。关于搜索组件,我们同时使用 Google 和我们专有的内部新闻搜索引擎进行全面的信息检索。
claim
factual claim extraction
fact extraction
图 1 显示了 VeraCT Scan 的主要工作流程。我们提示 GPT-4 Turbo 进行关键
事实提取、
查询生成、
验证和理由生成(有关正在使用的提示,请参阅附录 A)。这些单独的组件可以轻松交换到其他 LLM 或搜索引擎。在这项工作中,GPT-4 Turbo 的输出加上人工审查,作为训练数据来微调 Llama-2 13B(Touvron 等人,2023 年),使其也能够支持这些任务。关于搜索组件,我们同时使用 Google 和我们专有的内部新闻搜索引擎进行全面的信息检索。

3.1 关键事实提取

在本文中,我们专注于在两个粒度级别上识别事实:(i)新闻报道的主要事实和(ii)新闻文章中报道的所有突出事实。 鉴于互联网搜索作为无状态模块运行,我们在提示中指示 LLM 确保每个关键事实都包含其信息。这种方法允许搜索功能独立生成每个关键事实的查询,而无需依赖其他上下文。 与之前的研究(Shahandashti 等人,2024 年)一致,我们的人工审查证实了 GPT-4 Turbo 识别的关键事实的高质量

3.2 查询生成和搜索

在验证事实时,我们会提示 GPT-4 Turbo 生成搜索查询。我们允许每个事实最多使用三个查询来搜索互联网。随后,GPT-4 Turbo 会评估每个查询返回的结果的相关性。目标是确定可以检索所有相关信息的最短查询序列。然后利用此最佳查询序列对 Llama2 13B 进行微调,从而实现其查询生成功能。 我们开发了一个专有搜索引擎,旨在支持对过去六个月内发布的文章进行新闻搜索。该搜索引擎在搜索 NewsBreak 平台上托管的文章时特别有效,可用于 NewsBreak APP。为了确保搜索结果全面,我们还利用了 Google 搜索 API 4

3.3 事实验证与推理生成

一旦检索到搜索结果,就会根据这些结果对每个事实进行评估。GPT-4 Turbo 会迭代每个搜索结果,并确定搜索结果是支持、与事实相冲突还是与事实无关。如果搜索结果与事实一致,则标记为“支持”。如果与事实相矛盾,则标记为“否定”。如果搜索结果中没有提到事实或仅部分提到事实,则贴上“毫无根据”的标签。 此外,还会生成一个理由来证明判断的合理性。我们的流程的具体示例如附录 B 所示。

3.4 来源可信度和最终决策

在研究某个主题时,在互联网上遇到相互矛盾的信息是很常见的。 为了避免单一来源的偏见,会使用多个来源来相互印证。因此,评估每个信息源的可信度至关重要。Mediabiasfactcheck.com 是评估互联网媒体偏见的最全面的资源之一,为 8,000 多家新闻出版商提供可信度评级。同样,NewsBreak 为 30,000 多家出版商开发了专有的 5 级可信度评级系统。虽然 NewsBreak 的评级也是基于源内容的可信度,但与 mediabiasfactcheck.com 不同,NewsBreak 不会识别消息来源的政治偏见。 在本文中,NewsBreak 的评级系统作为训练 LightGBM(Ke et al,2017)分类器的特征,该分类器确定事实声明为真的可能性。此外,每个搜索结果中的域和验证标志(即支持、否定或无根据)也用作分类特征。

3.5 Llama-2 13B 微调

3.6 重点任务评估

端到端指标将在第 5 节中介绍。 在本节中,我们将介绍关键组件的性能指标。 以 GPT-4 Turbo 输出为黄金标准,我们对微调后的 Llama-2 模型在关键事实提取、查询生成和原理生成方面进行了基准测试。采用 ROUGE 分数(Lin,2004)作为指标,如表 2 所示。 对于事实验证准确性,采用微 F1 分数作为指标。根据人工审核,GPT-4 Turbo 的得分为 0.805,而微调后的 Llama-2 模型的得分为 0.759。

结论

在本文中,我们介绍了 VeraCT Scan,一种用于检测假新闻的新型检索增强系统。 我们的两个实现,正确提示的 GPT-4 Turbo 和微调的 Llama-2 13B 在检测方面表现出了显著的准确性。具体来说,GPT-4 Turbo 实现在多个数据集中表现出了最先进的性能。VeraCT Scan 在识别最新的假新闻实例方面尤其成功。这强调了搜索结果相关性在收集令人信服的证据方面的关键作用。 我们的观察表明,LLM 生成的理由为潜在的可疑方面提供了丰富的见解,并且细节程度很高。作为未来的工作,我们计划研究将这些理由用作最终验证分类器的输入特征的潜力。在我们的整个评估过程中,Llama-2 13B 在检测准确性方面始终落后于 GPT-4 Turbo。我们将探索更有效的微调策略来缩小这一性能差距。 此外,我们观察到,在整个系统中,大多数错误发生在验证阶段,一小部分错误发生在声明提取阶段。这些错误的原因包括:(i)用于验证的搜索结果不相关。(ii)更新的新闻事件导致使用过时的报道进行验证。(iii)每份报道仅支持声明的一部分,需要正确合并来自多份新闻报道的相关信息才能进行全面验证。 (iv)在声明提取阶段对命名实体或时间表达式的规范化不当,导致验证过程中难以对齐(例如,“上周末”与确切日期)。我们希望在未来的工作中解决这些问题。

  • 11
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值