大小模型的智慧碰撞：揭秘AI幻觉实时检测

最新推荐文章于 2024-09-30 14:16:32 发布

朝阳区靓仔_James

最新推荐文章于 2024-09-30 14:16:32 发布

阅读量1k

点赞数 23

文章标签：人工智能语音识别 gpt llama 金融

本文链接：https://blog.csdn.net/weixin_58753619/article/details/142620510

版权

一、结论写在前面

论文标题：SLM Meets LLM: Balancing Latency, Interpretability and Consistency in Hallucination Detection

论文链接：https://arxiv.org/pdf/2408.12748

大型语言模型（LLMs）能力强大，但在实时应用中面临延迟挑战，例如进行在线幻觉检测。为解决这一问题，论文提出了一种新颖的工作流程来解决这一挑战，通过平衡延迟和可解释性。

论文的方法结合了一个小型分类模型，在论文的案例中是一个小型语言模型（SLM），用于初始幻觉检测。随后，一个下游的LLM模块，称为“受限推理器”（constrained reasoner），解释检测到的幻觉。这一过程如图1所示。考虑到实际应用中幻觉发生相对较少，仅对幻觉文本进行推理的LLMs平均时间成本是可控的。此外，这种方法利用了LLMs现有的推理和解释能力，无需大量特定领域数据和显著的微调计算成本。

最近，Shi et al. 探索了LLMs通过其潜在特征解释小型分类器的能力，展示了在非推理任务上的有前景的结果。在本研究中，论文提出了一种新颖的框架，以有效应用这一方法来检测幻觉。

结合SLM和LLM的一个潜在问题是SLM的决策与LLM的解释之间可能存在不一致。即使是自我合理化模型，其中解释与主要输出一起生成，也可能产生与预测不一致的解释。论文专注于解决论文提出的两阶段幻觉检测框架中的这一问题。此外，论文分析了LLM推理与SLM决策和真实标签之间的关系，强调了LLM作为改进检测过程的反馈机制的潜力。

论文提供了上游-下游一致性的全面分析，提供了增强检测与解释之间对齐的实用解决方案。论文在多个开源数据集上展示了其有效性。

二、论文的简单介绍

2.1 论文的背景

LLMs容易产生幻觉——即与源数据无关的响应——削弱了其可靠性，使得幻觉检测变得至关重要。

传统的幻觉检测方法，如分类或排序模型，在其领域内效果显著，但往往缺乏可解释性，这对用户信任和缓解措施至关重要。鉴于近期LLMs的广泛采用，研究人员探索了利用LLMs进行幻觉检测，采用诸如思维链推理（chain-of-thought reasoning）技术，或对十亿参数规模的自主检测代理进行微调（Cheng et al., 2024），或检查同一问题下不同LLM响应的一致性。尽管基于LLM的方法提供了可解释性，但由于其庞大的规模和处理长源文本的计算开销，它们引入了延迟挑战，这对延迟敏感的实时应用构成了重大挑战。

论文提出了一种新颖的工作流程来解决这一挑战，通过平衡延迟和可解释性。论文的方法结合了一个小型分类模型，在论文的案例中是一个小型语言模型（SLM），用于初始幻觉检测。随后，一个下游的LLM模块，称为“受限推理器”（constrained reasoner），解释检测到的幻觉。这一过程如图1所示。

图1：使用LLMI作为约束推理器的幻觉检测：基础源和假设对输入到SLM分类器中。在大多数情况下，如果没有检测到幻觉，将直接向客户端返回无幻觉决策。然而，如果SLM检测到幻觉，将使用基于LLM的约束推理器来解释SLM的决策。如果推理器的分析与初始幻觉检测一致，则将此信息连同原始假设一起传递给客户端。否则，潜在有问题的假设将被过滤掉或作为有价值的反馈，进一步细化和改进上游SLM。

2.2 论文的问题定义

论文将基础源表示为X，模型生成的假设表示为Y=( y_{1}, y_{2},…, y_{n} )。生成过程可以表示为一个函数F：X → Y，其中F是文本生成模型（例如，摘要模型）。y_{i}，其中i ∈ [ 1, n ]，如果与X冲突或无法验证，则被认为是幻觉。

为了在幻觉检测中平衡延迟和可解释性，论文提出了一种新颖的两阶段框架：

首先是用于幻觉检测的SLM，随后是一个基于LLM的推理模块，称为“受限推理器”。上游检测可以表述为：D : ( X, Y ) → J，其中J=( j_1, j_2,…, j_n ) 表示由检测器D决定的二进制标签。被D检测为幻觉的响应句子子集Y记为H={y_k ∈ Y | j_k=幻觉{= ( h_1,…, h_m})，其中m ~ leq~ n。
只有被检测到的潜在幻觉H被传递到下游推理模块。受限推理器 R为上游标记的幻觉提供解释，R: ( X, H ) → E，其中E = ( e_1,…, e_m )包含m个解释，每个e_k，其中k ∈ [ 1, m ]对应于由D检测到的幻觉句子h_k。R被称为受限推理器，因为它在给定约束下操作，即h_i被D判定为幻觉。

然而，即使在自我理性化模型中，推理结果E可能与检测结果J不一致，即使它们是同时生成的。在两阶段框架中，这种不一致性可能更加明显，因为在事后提供解释。论文将解释E中的真实意图定义为S = ( s_1,…, s_m )。与上游决策不一致的原因因此为{e_k ∈ E，其中s_k=非幻觉}（由于延迟考虑，论文的框架仅将检测到的幻觉传递给R以进行解释）。关于受限推理器R的一致性，论文希望研究三个方面：

不一致性识别 论文设计了一个标记机制，要求基于LLM的 R在其判断假设为非幻觉时发出信号，因此无法提供假设为何是幻觉的解释。因此，e_k是半结构化的，由自由文本原因t_k和一个标志hat{s}_{k}组成，指示 R是否认为文本是幻觉。形式上，e_k=( t_k, hat s_k )。论文通过要求注释者仔细阅读t_k并标记s_k是否解释了假设是幻觉来进行人工评估。然后，论文评估标记机制的有效性。
不一致性过滤 最简单的处理不一致推理的方法是将其过滤掉。论文评估了在过滤标记的解释（即 hat s_k= 非幻觉）后不一致性的减少情况。论文比较剩余的真实不一致率，即 s_k= 非幻觉的比率作为基线。
推理反馈 每个 y_i 的地面真实标签是 g_i，但实际上，由于SLM的不完美，j_i 可能与 g_i不同。论文探讨了 R作为反馈机制以改进 D的潜力。论文将标记的不一致性 hat s_k 与地面真实 g_k 进行比较，以评估 R在识别非幻觉方面的性能。

2.3 实验

论文的实验旨在研究在提出的幻觉检测框架内推理的一致性以及过滤不一致性的有效方法。此外，论文还探讨了LLMs作为改进检测过程的反馈机制的潜力。论文使用GPT4-turbo作为 R} 来阐明幻觉判定背后的逻辑，使用温度为 0 和 top-p 为 0.6。

实验在四个数据集上进行：NHNET、FEVER、HaluQA 和 HaluSum。论文使用了NHNet的完整测试集。由于其余三个数据集的大小和GPT资源限制，论文每个数据集抽样3000条数据进行实验。

为了模拟一个不完美的SLM分类器，论文从数据集中抽样幻觉和非幻觉的响应，假设上游标签为幻觉。因此，地面真实幻觉文本是模拟的真阳性案例，而地面真实非幻觉文本是模拟的假阳性案例。SLM中真阳性和假阳性的具体比例与论文的研究无关，因为论文的重点是受限推理者的矛盾，而不是检测算法的性能。人类注释者评估每个解释e_k是否真正解释了为什么一个假设是幻觉，或者它实际上是否证明了该文本不应被视为幻觉。

表1：三种主要方法之间的差异。

2.3.1 方法论

实验聚焦于三种主要方法，其关键区别总结在表1中。

普通方法 简单地指示R}解释文本为何被 D检测为幻觉。它不涉及如何处理不一致性，即与上游决策的矛盾。由于推理是自由文本，没有直接的机制来识别何时出现不一致。如果生成了矛盾的解释，它们将被呈现给用户，这可能会削弱用户的信任和体验。它作为不一致性过滤的基线进行比较。

回退方法 引入了一种标记机制，其中R可以响应“UNKNOWN”来表示hat s_k=非幻觉，因此它无法提供合适的解释。这种标记有助于信号潜在的不一致性，使开发者能够有效处理它们。

分类方法 通过纳入更细粒度的幻觉类别来改进标记机制。这些类别源自对真实幻觉数据的分析。其中，特定类别hallu_12用于标记hat s_k=非幻觉的不一致性。通过向推理者展示这些详细类别，目标是增强R对幻觉的理解，并提高其正确识别真实幻觉的能力。

2.4 结果与讨论

不一致性识别表2展示了使用设计标记识别真实不一致推理的性能。两种方法都表现出较强的精确度。然而，回退方法的召回率较差，即经常无法使用设计的“UNKNOWN”标记信号不一致的原因。相比之下，分类方法有效地将大多数不一致的推理归类在hallu_12标记下，使得更容易过滤或减轻它们以供下游使用。

表 2 ：基于人工评估的不一致性识别性能。分类方法实现了接近完美的表现。

不一致性过滤 通过设计的标志有效过滤推理，显著减少了上游检测与约束推理器 R之间的不一致性，如图 2 所示。预期的原始方法显示出高不一致率。尽管回退方法中引入“未知”类别减少了不一致性，但其效果受限于上述低召回率。相比之下，分类方法在所有数据集上实现了显著的减少，过滤后的比率低至 sim0.1-1%，有效增强了工作流程的一致性。

推理反馈 如表 3 所示，分类方法作为反馈机制展示了强大的潜力，以高召回率超越了回退方法。它实现了宏观平均 F1 分数 0.781。这表明其能够准确识别来自SLM的假阳性，使其成为改进上游模型的有前景的反馈机制——一个值得进一步探索的领域。如图 2 所示，分类方法在过滤前观察到的高不一致率，突显了

图 2：不一致率比较：分类方法在应用过滤后，始终优于普通方法和回退方法，显著降低了不一致率。

表 3：基于LLM约束推理和真实标签的反馈结果。分类方法始终实现更高的召回率和F1值。

推理反馈 正如表3所示的结果，分类方法作为反馈机制展现出了强大的潜力，以高召回率优于回退方法。它实现了0.781的宏平均F1分数。这表明它能够准确识别SLM产生的假阳性结果，使其成为改进上游模型的有前景的反馈机制——这是一个值得进一步探索的领域。

如图2所示，在过滤之前分类方法观察到的高不一致率，突出了像GPT这样的大语言模型在提供精细的幻觉类别时能够准确识别真正幻觉的能力，这一点由表3中的高F1分数所证明。这表明大语言模型能够保持正确的判断，而不容易被特定的指令所影响或左右。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述