论文翻译：Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models

CSPhD-winston-杨帆

已于 2024-07-22 17:16:58 修改

阅读量284

点赞数 5

分类专栏：论文翻译 LLMs-鲁棒性文章标签：语言模型人工智能自然语言处理

于 2024-07-22 11:43:17 首次发布

本文链接：https://blog.csdn.net/whiffeyf/article/details/140604636

版权

论文翻译同时被 2 个专栏收录

20 篇文章 0 订阅

订阅专栏

LLMs-鲁棒性

18 篇文章 1 订阅

订阅专栏

幻觉检测：在大型语言模型中稳健地辨别可靠答案

https://arxiv.org/abs/2407.04121

文章目录

幻觉检测：在大型语言模型中稳健地辨别可靠答案

摘要

大型语言模型（LLMs）在各种自然语言处理任务中获得了广泛的应用，包括问答和对话系统。然而，LLMs的一个主要缺点是幻觉问题，即它们生成的内容不忠实或不一致，偏离了输入源，导致严重后果。在本文中，我们提出了一个稳健的鉴别器RelD，有效地检测LLMs生成答案中的幻觉。RelD是在一个构建的双语问答对话数据集RelQA上训练的，该数据集包括由LLMs生成的答案和一套全面的指标。我们的实验结果表明，提出的RelD成功地检测了由不同LLMs生成的答案中的幻觉。此外，它在区分LLMs生成答案中的幻觉方面表现良好，无论是来自分布内还是分布外的数据集。此外，我们还对发生的幻觉类型进行了深入分析，并提供了有价值的见解。这项研究显著地促进了LLMs生成可靠答案的检测，并对未来工作中减少幻觉具有重要的意义。

1 引言
大型语言模型（LLMs）已经彻底改变了包括逻辑推理（Bang et al., 2023; Liu et al., 2023b）、问答（Chen et al., 2024a, 2023d; Yang et al., 2021）、文本生成（Zong et al., 2024; Chen et al., 2023c, 2022）和垂直领域（Liu et al., 2023a; Chen et al., 2024b; Xia et al., 2024）在内的各个领域。然而，LLMs面临许多挑战，阻碍了它们的最佳表现。这些挑战包括无法实时更新知识（Chen et al., [n. d.]）、缺乏真正的情感和思考（Chalmers, 2023; Chen et al., 2023b）以及生成冗长和啰嗦的答案（Jiang et al., 2023）等。值得注意的是，最关键的失败之一是生成文本中的事实错误（Borji, 2023），这导致了如图1所示的“幻觉”。这种“幻觉”的存在严重阻碍了LLMs在非聊天机器人场景中的广泛采用，特别是在医学和金融等领域，事实准确性至关重要。与错误信息相关的潜在风险可能导致重大经济损失甚至危及人类安全（Aiyappa et al., 2023）。因此，消除LLMs中的事实错误已成为工业界和学术界的一项基本要求。

在这里插入图片描述

图 1. 由ChatGPT生成的答案表现出“幻觉”，错误地将“Shuren Zhou”和“Xun Lu”视为不同的个体，尽管它们指的是同一个人。

自然文本生成中的幻觉问题早已被研究人员所认识（Ji 等人，2023；Li 等人，2023b, c），这些幻觉的成因复杂多面。一方面，用于训练LLMs的大规模语料库不可避免地包含一些错误信息，这些信息被学习并存储在模型参数中（Madotto 等人，2020；Petroni 等人，2019；Roberts 等人，2020）。因此，在生成文本时，LLMs倾向于优先考虑其参数化知识，从而产生幻觉内容（Longpre 等人，2021）。另一方面，LLMs的解码器组件通常使用最大似然估计进行训练（Bengio 等人，2015；Ranzato 等人，2015）。在训练期间，真实情况作为输入前缀来预测后续的标记。然而，在推理过程中，下一个标记是基于生成的历史序列来预测的（He 等人，2019）。这种预测过程中的差异使得幻觉更容易发生。

对LLMs生成答案的幻觉检测的现有研究主要包括统计、基于模型和基于人类的评估（Ji 等人，2023；Li 等人，2023a）。统计评估涉及直接计算生成文本与参考目标文本之间的词汇匹配，使用ROUGE（Lin，2004）和BLEU（Papineni 等人，2002）等指标。一些研究还使用知识F1（KF1）（Shuster 等人，2021）指标来减少最先进聊天机器人中的知识幻觉。这种KF1指标特别适合于检测知识对话场景中的幻觉。此外，Shen 等人（Shen 等人，2023）进行了大规模评估，包括正确性和无法回答问题的识别，以评估ChatGPT在通用问答场景中的可靠性。Ye 等人（Ye 等人，2023）进行了初步研究，以评估LLM系统的鲁棒性、一致性和可信度。然而，这些指标依赖于词汇匹配和表面层指标，可能无法捕捉语义连贯性或准确检测幻觉。基于模型的评估基于源文本和生成文本之间的蕴含概率定义幻觉分数。这涉及判断一个假设（即生成的文本）是否由前提（即参考文本）蕴含。基于模型的评估包括各种指标，包括基于信息提取（IE）的指标、基于QA的指标（Durmus 等人，2020；Scialom 等人，2021；Wang 等人，2020a）、自然语言推理（NLI）指标（Dziri 等人，2021；Falke 等人，2019；Honovich 等人，2021）、忠实度分类指标（Liu 等人，2021；Honovich 等人，2021；Zhou 等人，2020）和基于LM的指标（Filippova，2020；Tian 等人，2019）。例如，Honovich 等人（Honovich 等人，2021）使用QA系统的Q2方法来评估响应与外部知识之间的一致性。Azaria 等人（Azaria 和 Mitchell，2023）利用LLMs的内部状态和隐藏层激活来检测生成陈述的真实性。然而，这些方法缺乏一套全面指标来有效平衡不同评估标准的优势和劣势。结果，模型通常严重依赖单一标签，而不考虑更广泛的因素。基于人类的评估涉及对幻觉文本进行评分或直接与真实情况进行比较（Santhanam 等人，2021；Shuster 等人，2021），这不可避免地增加了研究成本。

为了解决这些限制并实现更平衡的方法，我们将自动指标与基于模型的评估相结合，旨在与人类评估分数中观察到的趋势保持一致（Lee 等人，2022）。因此，在这项工作中，我们专注于构建一个稳健的鉴别器RelD，它在构建的RelQA上进行训练，RelQA是一个双语问答对话数据集，包括由LLMs生成的答案和一套全面的指标，以便有效地检测LLMs生成答案中的幻觉。具体来说，RelQA数据集包含274,426个样本，涵盖维基百科、百度知道、必应用户查询和中国高中阅读理解等多种来源。这些数据集涵盖了包括维基百科、新闻、教育和故事在内的多个领域，使用包括摘录阅读理解和多项选择题在内的各种格式。为了全面评估RelQA数据集中LLMs生成的答案，我们采用了一套全面的指标，包括LLM评估指标、人类指标、机器指标和复合指标。此外，我们引入了一种新的和稳健的鉴别器RelD，它在RelQA上进行训练，以检测幻觉并分析生成答案中存在的幻觉类型。我们的实验结果表明，RelD在检测不同LLMs生成的答案中的幻觉方面表现优异，无论是在分布内还是分布外的数据集。此外，我们对幻觉类型进行了详细分析，并提供了有价值的见解，以了解幻觉的根本原因。

本文的贡献可以概括如下：

• 我们设计了一种新的和稳健的鉴别器RelD，旨在检测各种LLMs生成答案中的幻觉。
• 为了训练RelD，我们构建了RelQA，这是一个双语问答对话数据集，包括由LLMs生成的答案和一套全面的指标，包括LLM评估指标、人类指标、机器指标和复合指标。
• 我们的实验结果表明，鉴别器RelD在检测不同LLMs生成的答案中的幻觉方面非常有效，无论是在分布内还是分布外的数据集。此外，我们对幻觉类型进行了详细分析，并提供了有价值的见解。

2 数据构建

在本节中，我们介绍了构建RelQA的过程。我们首先使用来自各种现有九个数据集的问题作为输入，让不同的大型语言模型（LLMs）生成相应的答案。接下来，我们设计了一套全面的指标来评估这些生成答案的可靠性。原始的九个数据集、LLMs生成的答案以及评估指标的集合统称为RelQA。RelQA被用来训练一个鉴别器RelD。

2.1 数据收集

RelQA由九个子数据集组成：SQuAD（Rajpurkar 等人，2016）、DuReader（He 等人，2017）、HotpotQA（Yang 等人，2018）、MSMARCO（Nguyen 等人，2016）、NewsQA（Trischler 等人，2016）、QuAC（Choi 等人，2018）、CoQA（Reddy 等人，2019）、TriviaQA-Web（Joshi 等人，2017）和TriviaQA-Wikipedia（Joshi 等人，2017）。详细的收集步骤如下：

步骤1（数据集选择）：这些数据集因其独特的特性、多样化的来源以及对整体收集的丰富性而被选中。它们涵盖了摘录阅读理解（ERC）、多项选择（MC）和多轮对话（MTD）类别。它们源自维基百科、百度知道、Bing搜索等平台，同时涵盖了学生教育、新闻、网络文章和一般知识等领域。

步骤2（格式化和整合）：为确保兼容性并消除数据集边界，我们根据前述类别对所有选定的数据集执行格式化和整合。每个数据集遵循特定的标准化格式，如表1（第二列）所示。我们将所有类别的数据集表示为[ { L_i, D_i } ]，其中[ L_i ]表示特定的数据集，[ D_i ]表示其标准化格式。

步骤3（预处理）：为便于有效处理和生成答案，我们对数据集执行预处理技术。这包括两个主要方面：个性化提示指令设计和解决长文本相关的限制。在个性化提示指令设计方面，我们根据问题类型为每个问题创建适应问题类型的提示指令，如表1（第三列）所示。这些提示指令指导LLMs生成更好地与不同类型问题对齐的答案。为解决长文本的挑战，我们实施了滑动窗口方法（Koay 等人，2021），将文本分割成较小的窗口，每个窗口包含4,000个标记。这确保了LLMs接收到清晰的提示指令，并且能够有效地处理不同长度的文本，从而产生更准确、上下文更适当的答案。

表1 数据集的三种类型的格式和提示指令。
[ a_i ]：ERC或MTD中的答案，或MC中的正确答案。
[ a_i’ ]：MC中的错误答案。

在这里插入图片描述

类型	格式	提示指令
ERC	( D_i = { c_i, q_i, a_i } )	给定以下上下文 ( c_i ) 和问题 ( q_i )。请提供答案。
MC	( D_i = { c_i, q_i, a_i, a_i’ } )	给定以下上下文 ( c_i ) 和问题 ( q_i )。请从候选答案 { ( a_i, a_i’ ) } 中选择最佳答案。
MTD	( D_i = { h_i, q_i, a_i } )	给定历史对话 ( h_i ) 和当前问题 ( q_i )。请提供答案。

步骤4（答案生成）：我们使用几种强大的LLMs，包括LLaMA（Touvron 等人，2023）、BLOOM（Scao 等人，2022）、GPT-J（Wang 和 Komatsuzaki，2021）、GPT-3（Brown 等人，2020）和GPT-3.5 1，来生成用于评估的答案。在长文本的情况下，我们在文本上滑动窗口，并为每个窗口生成输出。每个窗口生成的输出被存储，以便于后续的筛选和选择最佳答案。为保持答案的稳定性，我们要求LLM对每个问题生成答案三次，并选择多数答案作为最终答案。此外，为确保生成答案的整体质量和可靠性，我们进行质量保证程序，包括自动化检查，通过检测缺少句子结束标点来识别和重新生成不完整的句子等。

2.2 指标选择

评估LLMs生成答案的可靠性，选择能够捕捉答案质量不同方面的适当指标至关重要。我们采用四种类型的指标，包括LLM评估指标、人类指标、机器指标和复合指标，全面评估生成的答案。

LLM评估指标受到LLMs自我评估概念的启发，其中LLMs偶尔能够展示在没有人为干预的情况下正确评估自己输出的能力（Chiang 和 Lee，2023；Yan 和 Xu，2023）。这个指标包括两个具体指标：生成答案的好坏程度和生成答案与真实答案之间的相似度。通过获得生成答案的好坏分数和相似度分数，我们可以评估其质量以及与真实答案的对齐程度。分数越高表示质量越好和语义对齐度越高。LLM评估指标为评估LLMs评估生成答案的质量提供了有价值的见解。

人类指标在从人类角度评估LLM的性能方面发挥重要作用。它包括人类分数，这是基于LLM生成的答案与真实答案之间的匹配程度以及分配的好坏分数，为每个答案分配的二元标签。人类指标的标记如下：i) 当LLM生成的答案与真实答案相同并且获得4或5的好坏分数时，人类指标被标记为1。这表明LLM成功生成了与预期答案对齐的正确且高质量的答案。ii) 当LLM生成的答案与真实答案不同并且获得1、2或3的好坏分数时，人类指标被标记为2。这表明LLM生成的答案不正确或比真实答案的质量低。iii) 对于LLM生成的答案既不匹配真实答案也不落在前述好坏分数范围内的情况，人类指标被标记为0。这个标签代表中性或模糊的分类，表明答案可能需要进一步检查或主观判断。人类指标捕捉了人类对LLM性能的感知。

机器指标从问答和对话系统汲取灵感，这些系统依赖客观指标来评估生成答案的质量。它包括多个类别，包括准确性指标、重叠度指标、相似度指标和多样性指标。机器指标的例子包括F1分数、召回率、BLEU（Papineni 等人，2002）、BERT分数（Zhang 等人，2019）、ROUGE（ROUGE-1、ROUGE-2、ROUGE-L）（Lin，2004）、Distinct-N（Distinct-1、Distinct-2）（Li 等人，2015）、贪婪匹配和嵌入分数（平均值、极值）（Liu 等人，2016）。具体来说，准确性指标评估生成答案与真实答案相比的正确性，包括F1分数。重叠度指标衡量生成答案与真实答案之间的重叠，包括BLEU、召回率、ROUGE。相似度指标捕捉生成答案与真实答案之间的语义相似性，包括BERT分数、贪婪匹配和嵌入分数（平均值、极值）。多样性指标衡量生成答案的多样性，包括Distinct-N。这些指标客观评估了生成答案的语义对齐度、相关性、多样性和质量，使LLMs的答案能够进行全面评估。

复合指标旨在通过结合多个方面来提供模型性能的全面评估。它包括最终分数和最终标签，以总结评估。上述提到的每个指标都有助于最终分数，对某些指标给予特定重视。例如，召回率和ROUGE（ROUGE-1、ROUGE-2、ROUGE-L）可能被赋予更高的权重（例如，两倍的权重），以突出保持信息的重要性（Lyu 等人，2022、2023）。不同指标的权重可以动态优化，以更好地评估它们在现实世界场景中的重要性，如实验7所示。最终标签是基于平均分数分配的二元标签。如果平均分数大于0.5，则标记为1；否则，标记为0。最终标签简化了评估结果，表明LLMs生成的答案是否被认为是可靠的。总之，这些指标共同评估了LLMs生成的答案与真实答案相比的质量。

2.3 数据探索性分析

在本节中，我们对构建的RelQA数据集进行了探索性分析，该数据集共包含1,372,130个样本，包括五个选定的LLMs生成的答案。其中，根据最终标签指标，743,910个样本被归类为可靠，628,220个样本被归类为不可靠。我们将所有指标的可能范围分为三个相等的部分，分别代表低、中和高水平。图2展示了每个数据集在每个指标的高水平分布情况。我们还在表2、表3、表4和表5中展示了不同数据集在各种指标中的分布情况。

表2.RelQA中每个数据集在LLM评估指标上的分布情况。
在这里插入图片描述
表3.RelQA中每个数据集在人类指标上的分布情况。

表4.RelQA中每个数据集在机器指标上的分布情况。

表5.RelQA中每个数据集在复合指标上的分布情况。

在这里插入图片描述

图2.基于不同指标构建的RelQA的数据探索性分析。

首先，我们分析了不同数据集在LLM评估指标上的差异。关于“好坏”指标，QUAC数据集在答案质量上表现不佳，高分百分比为82.72%，而SQuAD数据集在生成高质量答案上表现优异，高分百分比为99.47%。其他数据集通常达到90%以上的高分百分比。关于“相似度”指标，MSMARCO数据集与参考答案的相似度最高，高相似度百分比为74.89%。相反，QUAC数据集在相似度方面也表现不佳，低相似度百分比为60.28%。

接下来，我们分析了不同数据集在人类指标上的差异。在“人类分数”指标中，可靠评估的比例差异显著。DuReader-master的比例最低，为0.42%，而SQuAD的比例最高，为32.79%。同样，不可靠评估的比例也不同，最低的是SQuAD的0.49%，最高的是QUAC的17.16%。此外，模糊评估的比例最高的是newsQA，为96.38%，最低的是QUAC，为66.71%。

之后，我们分析了不同数据集在机器指标上的差异。在“准确性指标”方面，QUAC数据集表现最差，高分百分比仅为4.54%。其他数据集的高分百分比在4.54%到30.8%之间，中位数约为20%。在“重叠度指标”方面，QUAC数据集在低重叠度方面也表现不佳，低分百分比为87.52%。其他数据集的低分百分比从32.47%到75.28%不等，总体上没有观察到显著的高分。关于“相似度指标”，DuReader、SQuAD和MSMARCO在高相似度分数方面表现良好，最高分数分别为95.89%、94.71%和93.41%。相比之下，newsQA和QUAC展现出较低的相似度分数，最高分数分别为66.6%和64.13%。值得注意的是，机器指标中的相似度分数与LLM评估指标中的相似度分数之间存在一致性。在“多样性指标”方面，QUAC、newsQA和MSMARCO在高多样性分数方面表现良好，最高分数分别为97.77%、96.83%和94.97%。这可能是由于这些数据集中的问题多样性更高，允许模型在生成答案时表现出更多的创造力和多样性。其他数据集也保持了高多样性分数，均在80%以上。

最后，我们分析了不同数据集在复合评估指标上的差异。在“最终分数”指标方面，QUAC数据集表现最差，高复合分数百分比为6.88%。相反，SQuAD数据集获得了最高的复合分数，高百分比为52.43%。显然，没有任何数据集获得了特别高的复合分数。在“最终标签”指标方面，SQuAD数据集显示出最高的答案可靠性比例，为78.57%，而QUAC数据集的比例最低，为16.44%。这与人类指标一致，因为SQuAD数据集主要由简单的摘录阅读理解组成，使模型更容易生成可靠的答案。另一方面，QUAC涉及开放领域对话，需要更复杂的语义理解，为模型生成可靠答案带来了挑战。

3 鉴别器

在本节中，我们介绍了一种新颖且稳健的鉴别器RelD，它旨在评估由LLMs生成的答案的可靠性。为确保RelD与人类评估紧密结合，我们采用适当的方法来训练RelD，并使其适应基于人类评估的最终得分。构建RelD的过程如图3所示。
在这里插入图片描述

图3 构建鉴别器RelD的过程，该鉴别器在构建的数据集RelQA上训练，并用于检测LLMs生成答案的幻觉。

3.1 回归到多分类

最初，我们采用回归方法来训练鉴别器RelD，以适应最终得分并与人类评估对齐。然而，我们的实验表明回归方法表现不佳，可能是由于使用了均方误差损失函数。因此，我们将回归任务转换为分类任务以改善拟合。具体来说，在这一过程中，我们将最终得分归一化到不同数量的类别中，如四类、六类、八类和十类，进行多分类。例如，我们将四分类中的第一类别分配给最终得分在0到0.25之间的范围。在第6节所示的实验之后，我们最终选择了十类分类方法。这种方法的理论基础主要在于信息论和交叉熵损失函数。交叉熵是信息论中常用的度量，用于量化两个概率分布之间的距离。在多分类问题中，交叉熵损失函数定义如下：

[ L = -\sum (y_i \cdot \log(p_i)), ]
其中( y_i )代表第( i )类的真标签，( p_i )代表鉴别器RelD预测的第( i )类的预测概率。我们的目标是在RelD的训练过程中最小化这个损失函数。在实践中，我们采用softmax函数将RelD的原始输出转换为概率分布。

这种方法的一个潜在优势是，专注于区分不同类别的分类任务可能有助于捕捉最终得分之间的微妙差异。此外，与均方误差损失函数相比，交叉熵损失函数在处理不平衡数据集时表现出更大的稳定性。然而，需要注意的是，在某些情况下，多类任务可能会引入过于复杂的信息，导致鉴别器学习到的概念与人类的直观感知存在显著差异。例如，将问题划分为“不可靠”、“弱可靠”、“中等可靠”、“强可靠”和“高度可靠”五类，可能超出了大多数人对“可靠”和“不可靠”这两个基本类别的直观理解。

3.2 多分类到二分类的转换

基于前述分析，我们进一步将多分类任务转换为二分类任务，这可能更符合人类的直观感知。这里，我们提出了三种可能的转换方法，每种方法都有其理论支持和定义：

归一化。这种方法基于阈值决策理论。它通过将最终得分直接归一化到0和1，转换成二元标签，作为分类的最终概率值。然而，这种方法可能会导致一些信息丢失，因为连续得分被转换为离散类别。

离散值。这种方法基于最大似然估计，是统计学中常用的参数估计技术。这里，我们考虑鉴别器预测的最高概率作为分类的最终概率值。例如，在四分类场景中，如果对应类别的概率分别为0.1、0.1、0.1和0.7，我们将使用0.7作为最终概率值。这种方法的优点在于其简单性，尽管缺点是我们不知道最大概率值对应于哪个类别。

加权平均概率。这种方法的理论依据来自于决策理论，特别是期望效用的概念，它涉及对所有可能结果及其相应的效用（在这种情况下，是预测概率）进行加权平均。这种方法的目标是确定一个最能代表鉴别器对每个类别的预测概率的加权平均值。在这种方法中，我们将鉴别器预测的每个类别的概率与其相应的权重相乘，求和得到最终概率值。这个值随后可以用于二分类任务。这种方法的公式如下：

[ p_i’ = \left(\sum w_i \cdot p_i\right) - \frac{w_{\text{min}}}{w_{\text{max}} - w_{\text{min}}}, ]
其中( p_i )代表鉴别器对类别( i )的概率输出，( w_i )表示类别( i )的权重，( w_{\text{min}} )和( w_{\text{max}} )分别是最小和最大权重。我们将阈值设为0.5，并使用交叉熵损失函数进行逼近。它允许对回归任务进行更精细的拟合，并且与前两种方法相比表现出更好的性能，如第4.3节所示。

3.3 鉴别器的骨干网络

我们使用预训练语言模型（PLM），如ELECTRA（Clark 等人，2020）作为鉴别器RelD的骨干网络。通过我们的实验，我们已经证明ELECTRA在性能上超过了其他PLMs，包括BERT（Devlin 等人，2018）、RoBERTa（Liu 等人，2019）和DeBERTa（He 等人，2020），如第8节所示。RelD将问题、上下文和LLMs生成的答案作为输入，生成一个分类标签以确定生成答案的可靠性。它使用加权平均概率方法来拟合真实答案。

4 实验

在本节中，我们通过自动指标和人工参与的指标来评估RelD在检测LLMs生成答案的可靠性方面的有效性。

4.1 实验设置

实验使用TESLA A100 GPU进行答案生成，使用GTX 3090 GPU在Python中通过PyTorch训练RelD。在RelD的训练过程中，我们将批量大小设置为32，序列长度设置为128。我们保持超参数不变，如权重衰减（0.01）、( \beta_1 )（0.9）和( \beta_2 )（0.999）。学习率设置为2e-05。我们训练RelD进行20个周期。

基线和指标。我们在知名的LLMs上验证了所提出的RelD的有效性，包括LLaMA（LLaMA-7B）（Touvron 等人，2023）、BLOOM（BLOOM-7B）（Scao 等人，2022）、GPT-J（GPT-J-6B）（Wang 和 Komatsuzaki，2021）、GPT-3（Brown 等人，2020）和GPT-3.5 1。为了评估RelD的性能，我们使用准确率（ACC）作为自动指标，使用ROC曲线分析和ROC曲线下面积（AUC）作为人工参与的指标。自动评估过程使用最终标签作为真实标签，而人工参与的评估则涉及人类评分作为真实标签。具体来说，我们随机选择9,000个QA对，其中RelQA中每个数据集1,000个，用于人类评分。我们招募了九名志愿者，并将他们分成三组以确保评估的稳定性。每组为随机选择的3,000个QA对提供0或1的分数。使用Krippendorff的Alpha（IRA）计算评分者间一致性，以确保人类评分的可信度。对于一致性低的有争议评分（<0.7），我们丢弃相应的QA对，并用另一个替换。

4.2 主要结果

我们进行以下实验来评估所提出的RelD的有效性：

实验1：RelD在不同LLMs中的性能。我们进行十折交叉验证，并报告在验证数据集上的平均性能。基于表6中呈现的结果，观察到所有LLMs的自动和人工参与评估均一致超过0.8，不同模型之间的变化很小（p<0.01）。自动和人工参与评估之间的强相关性（p<0.01）表明，RelQA数据集的自动评分在很大程度上可以替代人类评分。这也表明RelD在检测不同LLMs的可靠性方面的稳健性。

表6 选定LLMs中RelD在验证数据集上的性能。
在这里插入图片描述

图4 所选LLMs在验证数据集上RelD性能的可视化，包括自动和人工参与指标。

实验2: RelD在IID和OOD数据集上的性能
我们在In-distribution (IID)和Out-of-distribution (OOD)数据集上评估RelD的性能。我们随机将RelQA中的九个数据集以不同比例分配给IID和OOD集，如1:8、2:7、3:6和4:5，反之亦然。例如，我们在8个数据集上训练并在1个数据集上验证。为确保IID和OOD集中数据量平衡，我们通过对每个数据集随机选择3,000个样本进行下采样。考虑到不同的数据集作为IID或OOD可能产生不同的结果，我们对每个比例组进行五次实验，并提供平均值及误差范围。这种方法使我们能够准确评估RelD的泛化能力。在IID数据集上评估性能时，我们使用IID数据的30%作为验证数据集。对于OOD评估，我们直接在完整的OOD数据集上测试RelD。结果在表7和图5中展示。我们观察到，当IID比例设置为5或更高时，RelD在IID和OOD数据集上都稳定地实现了超过0.7的自动和人工参与评估。这表明RelD在处理OOD数据以及与人类评估预测的一致性方面展现出强大的泛化能力。

表7 RelD在IID和OOD数据集上的性能。IID结果基于IID数据集的30%验证数据集得出，而OOD结果是从整个OOD数据集中获得的。
在这里插入图片描述

图5 RelD在自动指标(a)和人工参与指标(b)©上的性能，包括在选定LLMs的IID验证数据集(b)和OOD数据集©上的结果。

4.3 消融研究

之后，我们进行了一系列实验来评估所提出的RelD中不同模块的有效性。所有结果均在验证数据集上通过十折交叉验证进行。

实验3: 加权平均概率的有效性。我们比较了在多分类到二分类转换中使用归一化、离散值和加权平均概率在自动和人工参与指标上的性能。结果在图6中展示。我们观察到，虽然使用加权平均概率在自动指标方面略逊于归一化，但它在所有LLMs的人工参与指标上显著优于归一化和离散值。因此，我们采用加权平均概率，因为它提供了一个更直观且从人类角度来看更一致的方法。
在这里插入图片描述
图6 在选定的LLMs的验证数据集上，使用加权平均概率的性能与使用归一化和离散值在自动指标(a)和人工参与指标(b)上进行了比较。

实验4: 最佳类别数量。我们研究了在将回归转换为多分类时类别数量的影响。我们测试了四类、六类、八类和十类。结果如图7所示。显然，更多的类别数量在人工参与指标上带来了性能的提升。这表明更多的类别使得分类任务更接近回归任务，并增强了与人类认知的一致性。因此，我们最终将回归任务转换为十类分类任务，然后使用加权平均概率将其辨识为二分类。

在这里插入图片描述图7 选定LLMs在验证数据集上，不同类别数量在自动指标(a)和人工参与指标(b)上的性能。

实验5: 每个指标权重的优化。仅依赖先验知识来确定每个指标的权重可能无法达到最佳性能。因此，我们探索每个指标的最优权重。为了实现这一点，我们计算每个指标的最优权重作为两个值的加权平均值：当每个指标被视为与人类评估相比的真实情况时的AUC，以及每个指标与人类评估之间的皮尔逊系数。在我们的实验中，我们将前者的比例设为0.9，后者的比例设为0.1，因为这能产生最佳性能。每个指标的最优权重如图8(a)所示。随后，我们评估最优权重是否能够提升RelD在检测LLMs生成答案的幻觉方面的表现，如图8(b)©所示。值得注意的是，在优化每个指标的权重后，我们在自动指标(b)和人工参与指标©上都观察到了性能的提升。
在这里插入图片描述
图8 每个指标的最优权重(a)以及在自动指标(b)和人工参与指标©中，使用原始权重和最优权重的RelD性能，分别在验证数据集上。

实验6: RelD的骨干网络选择。我们尝试使用不同的预训练语言模型（PLMs），包括BERT（Devlin 等人，2018）、RoBERTa（Liu 等人，2019）、DeBERTa（He 等人，2020）和ELECTRA（Clark 等人，2020），来为RelD选择最有效的骨干网络，如表8所示。通过这种比较，我们观察到ELECTRA在自动和人工参与指标上都实现了最佳性能。因此，我们选择ELECTRA作为RelD的首选骨干网络。

表8 不同骨干网络在验证数据集上LLMs中RelD的性能。

在这里插入图片描述

4.4 探索性分析

我们将RelD生成的预测分为四类，如表9所示。为了深入了解这些类别的特征并理解RelD的工作原理，我们进行了探索性分析。
在这里插入图片描述

表9 根据LLMs生成的答案与RelD预测之间的一致性，定义了四个类别。Q、A、P和D分别代表问题、真实答案、LLMs生成的答案和RelD的预测。

类别	定义	样本
1	LLM生成了正确的答案，并且RelD也预测它们是正确的。	Q：Strabismus通常被称为哪个单音节词？ A: squint P: squint D: 正确
2	LLM生成了正确的答案，但RelD预测它们是错误的。	Q: 阿姆斯特朗和阿尔德林是在哪个阿波罗任务中登上月球的？ A: apollo 11 P: apollo 11 D: 错误
3	LLM生成了错误的答案，但RelD预测它们是正确的。	Q: metro pcs客户服务热线的号码是什么？ A: 客户服务号码为8009016266 P: 答案是611或8009016266或8888638768 D: 正确
4	LLM生成了错误的答案，并且RelD也预测它们是错误的。	Q: 自由式滑雪何时首次成为冬奥会的正式比赛项目？ A: 1992 P: 1988年，因为自由式滑雪首次作为1988年冬奥会的比赛项目 D: 错误

分析1：分布分析
为了分析每个类别内的分布情况，我们使用箱线图（图9(a)）来展示样本的关键统计数据，如中位数、四分位数和异常值。此外，我们采用密度图（图9(b)）来可视化每个类别中样本的概率分布。在第一类别中，箱线图显示了较宽的范围，密度图显示了集中分布并有多个峰值。这表明RelD在这一类别预测中可能存在一些不确定性。对于第二和第三类别，箱线图的宽度介于第一和第四类别之间，密度图显示了更分散的概率分布。这表明RelD在这些类型问题的预测上更为犹豫，或在学习上熟练度较低。相比之下，第四类别的箱线图较窄，密度图显示了集中的概率分布。这表明RelD对这个类别的预测更为自信。
在这里插入图片描述
图9 各类别样本的分布情况，包括箱线图(a)和密度图(b)。类别：类别（下同）。

分析2：聚类分析
通过将聚类算法应用于文本数据，我们研究每个类别是否表现出不同的聚类中心，如图10所示。对于第一类别，数据显示出聚集且相对均匀的分布，表明RelD在这一类别中的性能一致且准确。第二类别包含的样本数量极少，这表明RelD很少将LLMs生成的正确答案错误分类。第三类别的聚类结果显示出显著的变异性，表明当RelD将错误答案误分类为正确时，可能会在多个方面出现错误，如语法或理解错误。同样，第四类别显示出广泛而分散的聚类分布，表明RelD在这一类别中的性能多样。这表明存在不同类型的错误，使得RelD难以检测。从聚类图中，我们观察到RelD在第一类别中表现最佳。然而，对于第二、第三和第四类别，RelD的性能可能受到输入上下文或问题的复杂性和歧义性的影响。
在这里插入图片描述
图10 基于四个类别的聚类结果。

分析3：词汇分布
我们可以通过图11比较RelD正确预测样本和错误预测样本的词汇分布。左侧（RelD预测正确）和右侧（RelD预测错误）之间存在明显的区别。似乎与“故事”（story）相关的内容对RelD来说相对容易正确分类，而与“国家”（country）相关的内容则在准确分类上给RelD带来了更多的困难。然而，重要的是要注意，词汇本身可能不是决定RelD识别准确性的唯一因素。关键因素可能涉及潜在的语义关系，这将需要进一步的研究和调查。

在这里插入图片描述
图11 RelD正确预测样本与错误预测样本的词汇分布。

5 相关工作

幻觉检测。现有研究主要包括统计指标（Guan 和 Huang, 2020; Su 等人, 2020; Wang 等人, 2020b）、基于模型的指标（包括基于信息提取（IE）的指标、基于问答（QA）的指标（Roller 等人, 2020; Honovich 等人, 2021; Rebuffel 等人, 2021）、自然语言推理（NLI）指标（Huang 等人, 2021; Laban 等人, 2022; Williams 等人, 2017）、忠实度分类指标（Liu 等人, 2021; Honovich 等人, 2021; Zhou 等人, 2020）、基于语言模型（LM）的指标（Filippova, 2020; Tian 等人, 2019））和基于人类的评估（Santhanam 等人, 2021; Shuster 等人, 2021）。我们列出一些典型工作如下：Dhingra 等人 (Dhingra 等人, 2019) 提出 PARENT，使用源文本和目标文本作为参考来衡量幻觉。Goyal 和 Durrett (Goyal 和 Durrett, 2020) 尝试用新的依赖级蕴涵以更细粒度的方式识别事实不一致性。Liu 等人 (Liu 等人, 2021) 和 Zhou 等人 (Zhou 等人, 2020) 通过自动将幻觉插入训练实例来构建句法数据。Chen 等人 (Chen 等人, 2021) 和 Nie 等人 (Nie 等人, 2019) 分别使用更细粒度的指标来衡量内在幻觉和外在幻觉。Azaria 等人 (Azaria 和 Mitchell, 2023) 利用LLMs的内部状态和隐藏层激活来检测生成陈述的真实性。Ye 等人 (Ye 等人, 2023) 认为用户生成的查询输入中的错误可能导致LLMs产生意外响应。

幻觉减轻。也有一些工作专注于减轻幻觉。例如，Dale 等人 (Dale 等人, 2022) 和 Ji 等人 (Ji 等人, 2023) 专注于机器翻译中的幻觉。Pagnoni 等人 (Pagnoni 等人, 2021) 解决了文本摘要中的幻觉问题。Peng 等人 (Peng 等人, 2023) 采用包括发布多个查询在内的各种方法来提示LLMs。Ouyang 等人 (Ouyang 等人, 2022) 提出了一种增强LLMs生成内容的方法。Yan 等人 (Yan 和 Xu, 2023) 引入了一种基于提示工程的迭代自评估优化机制。Park 等人 (Park 和 Ryu, 2023) 利用与用户输入查询相对应的搜索结果来生成增强查询。

6 结论和未来工作

LLMs的幻觉构成了重大挑战。在本文中，我们通过提出一个稳健的鉴别器RelD来解决这一问题，该鉴别器在构建的RelQA数据集上训练，这是一个双语问答对话数据集，包含LLMs生成的答案和一套全面的指标，以有效检测LLMs生成答案中的幻觉。我们的实验结果表明RelD在检测LLMs生成答案中的幻觉方面的有效性。此外，RelD展现出强大的稳健性和泛化能力，在分布内和分布外的数据集上均表现良好。这些发现对检测LLMs生成的可靠答案做出了重要贡献，并对减轻幻觉的未来工作具有有希望的启示。

CSPhD-winston-杨帆

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
论文翻译：Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models

大型语言模型（LLMs）在各种自然语言处理任务中获得了广泛的应用，包括问答和对话系统。然而，LLMs的一个主要缺点是幻觉问题，即它们生成的内容不忠实或不一致，偏离了输入源，导致严重后果。在本文中，我们提出了一个稳健的鉴别器RelD，有效地检测LLMs生成答案中的幻觉。RelD是在一个构建的双语问答对话数据集RelQA上训练的，该数据集包括由LLMs生成的答案和一套全面的指标。我们的实验结果表明，提出的RelD成功地检测了由不同LLMs生成的答案中的幻觉。
复制链接

扫一扫

专栏目录