大小模型的智慧碰撞:揭秘AI幻觉实时检测

一、结论写在前面

论文标题:SLM Meets LLM: Balancing Latency, Interpretability and Consistency in Hallucination Detection

论文链接:https://arxiv.org/pdf/2408.12748

大型语言模型(LLMs)能力强大,但在实时应用中面临延迟挑战,例如进行在线幻觉检测。为解决这一问题,论文提出了一种新颖的工作流程来解决这一挑战,通过平衡延迟和可解释性。

论文的方法结合了一个小型分类模型,在论文的案例中是一个小型语言模型(SLM),用于初始幻觉检测。随后,一个下游的LLM模块,称为“受限推理器”(constrained reasoner),解释检测到的幻觉。这一过程如图1所示。考虑到实际应用中幻觉发生相对较少,仅对幻觉文本进行推理的LLMs平均时间成本是可控的。此外,这种方法利用了LLMs现有的推理和解释能力,无需大量特定领域数据和显著的微调计算成本。

最近,Shi et al. 探索了LLMs通过其潜在特征解释小型分类器的能力,展示了在非推理任务上的有前景的结果。在本研究中,论文提出了一种新颖的框架,以有效应用这一方法来检测幻觉。

结合SLM和LLM的一个潜在问题是SLM的决策与LLM的解释之间可能存在不一致。即使是自我合理化模型,其中解释与主要输出一起生成,也可能产生与预测不一致的解释。论文专注于解决论文提出的两阶段幻觉检测框架中的这一问题。此外,论文分析了LLM推理与SLM决策和真实标签之间的关系,强调了LLM作为改进检测过程的反馈机制的潜力。

论文提供了上游-下游一致性的全面分析,提供了增强检测与解释之间对齐的实用解决方案。论文在多个开源数据集上展示了其有效性。

二、论文的简单介绍

2.1 论文的背景

LLMs容易产生幻觉——即与源数据无关的响应——削弱了其可靠性,使得幻觉检测变得至关重要。

传统的幻觉检测方法,如分类或排序模型,在其领域内效果显著,但往往缺乏可解释性,这对用户信任和缓解措施至关重要。鉴于近期LLMs的广泛采用,研究人员探索了利用LLMs进行幻觉检测,采用诸如思维链推理(chain-of-thought reasoning)技术,或对十亿参数规模的自主检测代理进行微调(Cheng et al., 2024),或检查同一问题下不同LLM响应的一致性。尽管基于LLM的方法提供了可解释性,但由于其庞大的规模和处理长源文本的计算开销,它们引入了延迟挑战,这对延迟敏感的实时应用构成了重大挑战。

论文提出了一种新颖的工作流程来解决这一挑战,通过平衡延迟和可解释性。论文的方法结合了一个小型分类模型,在论文的案例中是一个小型语言模型(SLM),用于初始幻觉检测。随后,一个下游的LLM模块,称为“受限推理器”(constrained reasoner),解释检测到的幻觉。这一过程如图1所示。

图1:使用LLMI作为约束推理器的幻觉检测:基础源和假设对输入到SLM分类器中。在大多数情况下,如果没有检测到幻觉,将直接向客户端返回无幻觉决策。然而,如果SLM检测到幻觉,将使用基于LLM的约束推理器来解释SLM的决策。如果推理器的分析与初始幻觉检测一致,则将此信息连同原始假设一起传递给客户端。否则,潜在有问题的假设将被过滤掉或作为有价值的反馈,进一步细化和改进上游SLM。

2.2 论文的问题定义

论文将基础源表示为X,模型生成的假设表示为Y=( y_{1}, y_{2},…, y_{n} )。生成过程可以表示为一个函数F:X → Y,其中F是文本生成模型(例如,摘要模型)。y_{i},其中i ∈ [ 1, n ],如果与X冲突或无法验证,则被认为是幻觉。

为了在幻觉检测中平衡延迟和可解释性,论文提出了一种新颖的两阶段框架:

  • 首先是用于幻觉检测的SLM,随后是一个基于LLM的推理模块,称为“受限推理器”。上游检测可以表述为:D : ( X, Y ) → J,其中J=( j_1, j_2,…, j_n ) 表示由检测器D决定的二进制标签。被D检测为幻觉的响应句子子集Y记为H={y_k ∈ Y | j_k=幻觉{= ( h_1,…, h_m}),其中m ~ leq~ n。

  • 只有被检测到的潜在幻觉H被传递到下游推理模块。受限推理器 R为上游标记的幻觉提供解释,R: ( X, H ) → E,其中E = ( e_1,…, e_m )包含m个解释,每个e_k,其中k ∈ [ 1, m ]对应于由D检测到的幻觉句子h_k。R被称为受限推理器,因为它在给定约束下操作,即h_i被D判定为幻觉。

然而,即使在自我理性化模型中,推理结果E可能与检测结果J不一致,即使它们是同时生成的。在两阶段框架中,这种不一致性可能更加明显,因为在事后提供解释。论文将解释E中的真实意图定义为S = ( s_1,…, s_m )。与上游决策不一致的原因因此为{e_k ∈ E,其中s_k=非幻觉}(由于延迟考虑,论文的框架仅将检测到的幻觉传递给R以进行解释)。关于受限推理器R的一致性,论文希望研究三个方面:

  • 不一致性识别 论文设计了一个标记机制,要求基于LLM的 R在其判断假设为非幻觉时发出信号,因此无法提供假设为何是幻觉的解释。因此,e_k是半结构化的,由自由文本原因t_k和一个标志hat{s}_{k}组成,指示 R是否认为文本是幻觉。形式上,e_k=( t_k, hat s_k )。论文通过要求注释者仔细阅读t_k并标记s_k是否解释了假设是幻觉来进行人工评估。然后,论文评估标记机制的有效性。

  • 不一致性过滤 最简单的处理不一致推理的方法是将其过滤掉。论文评估了在过滤标记的解释(即 hat s_k= 非幻觉)后不一致性的减少情况。论文比较剩余的真实不一致率,即 s_k= 非幻觉的比率作为基线。

  • 推理反馈 每个 y_i 的地面真实标签是 g_i,但实际上,由于SLM的不完美,j_i 可能与 g_i不同。论文探讨了 R作为反馈机制以改进 D的潜力。论文将标记的不一致性 hat s_k 与地面真实 g_k 进行比较,以评估 R在识别非幻觉方面的性能。

2.3 实验

论文的实验旨在研究在提出的幻觉检测框架内推理的一致性以及过滤不一致性的有效方法。此外,论文还探讨了LLMs作为改进检测过程的反馈机制的潜力。论文使用GPT4-turbo作为 R} 来阐明幻觉判定背后的逻辑,使用温度为 0 和 top-p 为 0.6。

实验在四个数据集上进行:NHNET、FEVER、HaluQA 和 HaluSum。论文使用了NHNet的完整测试集。由于其余三个数据集的大小和GPT资源限制,论文每个数据集抽样3000条数据进行实验。

为了模拟一个不完美的SLM分类器,论文从数据集中抽样幻觉和非幻觉的响应,假设上游标签为幻觉。因此,地面真实幻觉文本是模拟的真阳性案例,而地面真实非幻觉文本是模拟的假阳性案例。SLM中真阳性和假阳性的具体比例与论文的研究无关,因为论文的重点是受限推理者的矛盾,而不是检测算法的性能。人类注释者评估每个解释e_k是否真正解释了为什么一个假设是幻觉,或者它实际上是否证明了该文本不应被视为幻觉。

表1:三种主要方法之间的差异。

2.3.1 方法论

实验聚焦于三种主要方法,其关键区别总结在表1中。

普通方法 简单地指示R}解释文本为何被 D检测为幻觉。它不涉及如何处理不一致性,即与上游决策的矛盾。由于推理是自由文本,没有直接的机制来识别何时出现不一致。如果生成了矛盾的解释,它们将被呈现给用户,这可能会削弱用户的信任和体验。它作为不一致性过滤的基线进行比较。

回退方法 引入了一种标记机制,其中R可以响应“UNKNOWN”来表示hat s_k=非幻觉,因此它无法提供合适的解释。这种标记有助于信号潜在的不一致性,使开发者能够有效处理它们。

分类方法 通过纳入更细粒度的幻觉类别来改进标记机制。这些类别源自对真实幻觉数据的分析。其中,特定类别hallu_12用于标记hat s_k=非幻觉的不一致性。通过向推理者展示这些详细类别,目标是增强R对幻觉的理解,并提高其正确识别真实幻觉的能力。

2.4 结果与讨论

不一致性识别表2展示了使用设计标记识别真实不一致推理的性能。两种方法都表现出较强的精确度。然而,回退方法的召回率较差,即经常无法使用设计的“UNKNOWN”标记信号不一致的原因。相比之下,分类方法有效地将大多数不一致的推理归类在hallu_12标记下,使得更容易过滤或减轻它们以供下游使用。

表 2 :基于人工评估的不一致性识别性能。分类方法实现了接近完美的表现。

不一致性过滤 通过设计的标志有效过滤推理,显著减少了上游检测与约束推理器 R之间的不一致性,如图 2 所示。预期的原始方法显示出高不一致率。尽管回退方法中引入“未知”类别减少了不一致性,但其效果受限于上述低召回率。相比之下,分类方法在所有数据集上实现了显著的减少,过滤后的比率低至 sim0.1-1%,有效增强了工作流程的一致性。

推理反馈 如表 3 所示,分类方法作为反馈机制展示了强大的潜力,以高召回率超越了回退方法。它实现了宏观平均 F1 分数 0.781。这表明其能够准确识别来自SLM的假阳性,使其成为改进上游模型的有前景的反馈机制——一个值得进一步探索的领域。如图 2 所示,分类方法在过滤前观察到的高不一致率,突显了

图 2:不一致率比较:分类方法在应用过滤后,始终优于普通方法和回退方法,显著降低了不一致率。

表 3:基于LLM约束推理和真实标签的反馈结果。分类方法始终实现更高的召回率和F1值。

推理反馈 正如表3所示的结果,分类方法作为反馈机制展现出了强大的潜力,以高召回率优于回退方法。它实现了0.781的宏平均F1分数。这表明它能够准确识别SLM产生的假阳性结果,使其成为改进上游模型的有前景的反馈机制——这是一个值得进一步探索的领域。

如图2所示,在过滤之前分类方法观察到的高不一致率,突出了像GPT这样的大语言模型在提供精细的幻觉类别时能够准确识别真正幻觉的能力,这一点由表3中的高F1分数所证明。这表明大语言模型能够保持正确的判断,而不容易被特定的指令所影响或左右。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值