Technion：通过LLM内部表征检测幻觉_根据内部状态进行幻觉检测-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/143433445

在这里插入图片描述

📖标题：LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations
🌐来源：arXiv, 2410.02707

摘要

🔸大型语言模型（LLM）经常产生错误，包括事实不准确、偏见和推理失败，统称为“幻觉”。最近的研究表明，LLM的内部状态编码了有关其输出真实性的信息，并且这些信息可用于检测错误。
🔸在这项工作中，我们表明LLM的内部表示编码了比以前认识到的更多的关于真实性的信息。我们首先发现，真实性信息集中在特定的令牌中，利用这一特性可以显著提高错误检测性能。然而，我们发现，这种错误检测器无法跨数据集进行泛化，这意味着——与之前的说法相反——真实性编码不是通用的，而是多方面的。接下来，我们展示了内部表示也可以用于预测模型可能产生的错误类型，从而促进量身定制的缓解策略的发展。最后，我们揭示了LLM的内部编码和外部行为之间的差异：它们可能会对正确答案进行编码，但始终会产生不正确的答案。
🔸综上所述，这些见解加深了我们从模型内部角度对LLM错误的理解，这可以指导未来加强错误分析和缓解的研究。代码在https://github.com/technion-cs-nlp/LLMsKnow.

🛎️文章简介

🔸研究问题：大语言模型（LLM）在其输出中未能有效传达不确定性，其内部表示与最终输出之间存在不一致性。
🔸主要贡献：论文从模型中心的角度来研究幻觉现象，通过分析模型内部的“精确答案标记”，揭示了这些标记在错误检测中的关键作用，并展示了这种方法在提高错误检测性能方面的有效性。

📝重点思路

🔺相关工作

🔸定义和描述LLM错误：当前幻觉的研究不一定反映了LLM的编码错误，限制了我们开发针对幻觉根本原因或推理其本质的解决方案。
🔸LLM中的错误检测：许多研究提出了针对特定任务的解决方案，最近转变为解决任何错误类型的通用方案，包括利用外部知识源和模型、不确定性估计和训练探测器等。

🔺论文方案

🔸定义“精确答案标记”：这些标记的修改会改变生成答案的正确性，而不考虑后续生成的内容。
🔸实验设计：实现了每种错误检测方法的“精确答案”版本，以评估其在不同层和标记选择上的效果。
🔸分类器训练：通过训练分类器来预测与生成输出真实性相关的特征，分析了模型内部表示对错误类型的编码。
🔸跨任务泛化：研究了探测分类器在不同任务和数据集上的泛化能力，以评估其在实际应用中的适用性。

🔎分析总结

🔸中间层和后期层的有效性：实验发现，模型中间层和后期层通常能产生最有效的探测结果，这与之前的研究一致。
🔸标记选择的影响：在提示后立即出现的标记显示出强烈的真实性信号，但随着文本生成的进行，信号强度减弱，但在“精确答案标记”处再次达到峰值。
🔸内部表示与外部行为的差异：模型内部编码与外部行为之间存在显著的不一致性，即使模型内部识别出正确答案，它仍可能生成错误的响应。
🔸错误类型的预测：通过分析模型的中间表示，可以预测模型可能产生的错误类型，这有助于定制不同的错误缓解策略。