整理了Re-Search for The Truth: Multi-round Retrieval-augmented Large Language Models are Strong Fake News Detectors 论文的阅读笔记
背景
在假新闻检测领域,传统的证据检索方法通常从维基百科等静态存储库获取信息,这会受到过时或不完整数据的限制,特别是对于新兴或罕见的请求。大型语言模型(LLM)以其卓越的推理和生成能力而闻名。然而,与传统方法一样,基于LLM的解决方案也要克服陈旧和长尾知识的局限性。此外,检索增强LLM经常要与低质量证据检索和上下文长度限制等问题作斗争。
为了解决这一问题,本文引入了STEEL,一种新的,检索增强的LLM框架,该框架采用多轮检索策略,确保收购足够的,相关的证据,从而提高性能。此外,STEEL还可以提供人类可读的解释,以提高结果的可解释性。
图一展示了一个例子。基于BERT驱动的方法和一次性检索的LLM因为无法获取或是仅可获取部分证据而失败。STEEL从互联网上多轮检索证据有助于更全面和准确的评估。
方法
定义
STEEL的输入是一组声明 C C C。最初,从互联网上获取一组相关证据 E v = E 1 , E 2 , E 3 . . . E_v={E_1,E_2,E_3...} Ev=E1,E2,E3...。随后,LLM评估收集的证据是否充分。如果认为证据充分,将立即输出结果。否则,将继续寻找其他证据。输出是该声明的预测值,沿着解释性文本 E x = L ( C , E v ) E_x=L(C,E_v) Ex=L(C,Ev)。这里,L是指负责生成输出的LLM。 y y y是一个二元分类,其中 y ∈ t r u e , f a l s e y∈{true,false} y∈true,false表示新闻声明的评估为真或假。
推理
首先使用api检索证据。然后,从网络检索到的相关证据被聚合到提示中,并被馈送到LLM中进行推理。LLM可以根据给定的证据做出决定,包括决定他们是否需要重新搜索。从本质上讲,提示指示LLM根据检索到的证据和输出响应来评估索赔,这些证据和输出响应分为三类:真,假和NEI(信息不足)。根据检索到的证据的充分性提供答复的说明。对于“NEI”,将输出“已确立的证据”和“更新的查询”,以进一步收集证据。“已确立的证据”是为下一次判决而压缩的证据。“更新查询”是用于后续网页检索的查询,目的是逐步获取证据。为了减轻一致性问题,本文为每个答案加入了一个置信水平,沿着汇总了新的和已建立的证据,以供后续评估。
重新检索机制
在某些条件下,STEEL会触发重新搜索,如图三所示。该功能确保了更强大、更详尽的证据收集,从而增强了该方法的可靠性和性能。在满足一定的研究条件后,该模型开始了一个系统的过程。首先,它整合了从最初的搜索中收集到的证据,将其添加到“已建立的证据”库中,以供将来参考。接下来,该模型制定了一组“更新查询”,旨在获得额外的相关证据。这种迭代方法确保了证据的逐步积累,从而增强了模型识别新闻真实性的能力。当LLM确定当前的证据集不足以对手头的索赔做出可靠的判断时,它会通过输出“NEI”来发出信号。该输出用作模型前进到后续迭代搜索的触发器。
实验
为了评估STEEL的性能,本文在三个真实数据集上进行了大量的实验,包括两个英文数据集(LIAR3和PolitiFact4)和一个中文数据集(CHEF5)。
其中,“F1-Ma”和“F1-Mi”表示F1-宏观和F1-微观指标。“-T”表示“真新闻为正面”,“-F”表示“假新闻为正面”,用于精确度和召回率计算。
STEEL在三个真实世界的数据集中始终优于最先进的方法,F1宏观和F1微观分数都增加了5%以上。STEEL在检测假新闻方面超越了所有基准,这一点可以从改进的检测指标中得到证明。例如,在LIAR数据集上,我们观察到F1 False、Precision False和Recall False分别增加了17.3%、11.5%和18.2%。在其他数据集上也注意到了类似的重大收益。这些证据证实,STEEL在检测假新闻方面非常有效,在推理和准确性方面都有显著优势。
搜索方法的比较
为了评估重新检索的有效性,本文进行了比较实验。如表5所示。用于比较的替代方法涉及多种单一搜索方法。研究结果表明,尽管搜索引擎采用的一些传统检索优化方法,包括关键词搜索和释义,相对于直接使用帖子作为查询提供了改进,但它们的有效性仍然明显低于再搜索模块。这种差异是由于在一次搜查中获得的证据不足以作出结论性判断。实验结果说明了检索模块在该框架中的重要作用。
消融
图四显示了消融实验的性能。标签“-RS”标记没有检索模块的模型版本,仅依赖于LLM,而“-RR”表示删除了检索机制。结果最终表明,省略任何单个组件都会导致性能下降,从而验证了每个模块对框架的整体有效性是不可或缺的。值得注意的是,检索模块被证明对于性能改进特别关键。通过有效地检索与所讨论的索赔相关的关键证据,STEEL能够更好地做出准确的预测,从而突出该模块的关键作用。