📖标题:On the Universal Truthfulness Hyperplane Inside LLMs
🌐来源:arXiv, 2407.08582
摘要
🔸虽然大型语言模型(LLMs)在各个领域都表现出了非凡的能力,但幻觉仍然是一个重大挑战。最近的研究通过内部表征的视角探索了幻觉,提出了破译LLM对事实的坚持的机制。然而,这些方法往往无法推广到分布外的数据,导致人们担心内部表示模式是否反映了基本的事实意识,或者只是过度拟合了特定数据集上的虚假相关性。
🔸在这项工作中,我们研究了模型中是否存在区分模型事实正确和不正确输出的通用真实性超平面。为此,我们扩大了训练数据集的数量并进行了广泛的评估——我们在40多个数据集的不同集合上训练了真实性超平面,并检查了它的跨任务、跨域和域内泛化。
🔸我们的结果表明,增加训练数据集的多样性可以显著提高所有场景的性能,而数据样本的数量则起着不那么关键的作用。这一发现支持了乐观的假设,即模型中可能确实存在一个普遍的真实性超平面,为未来的研究提供了有前景的方向。
🛎️文章简介
🔸研究问题:大语言模型(LLM)的幻觉现象,是否能通过内部特征进行解释,并泛化到分布外场景?
🔸主要贡献:论文通过多样化的数据集,设计和训练一个探针方案,验证了LLM中存在一个通用的真实性超平面,能够用于跨任务和领域的真实性检测。
📝重点思路
🔺相关工作
🔸一系列研究试图识别LLM内部的真实性超平面,作为探索事实真实性的理论基础。
🔸一些研究还利用探针识别的真实向量,获取更优质的表示空间来干预幻觉生成。
🔺论文方案
🔸首先在单一数据的训练,发现学习的超平面存在过拟合,不具备泛化能力。
🔸为了找到潜在的通用真实性超平面,创建并收集了17个任务、49个数据集用于幻觉检测。
🔸初步实验发现,隐藏状态下的注意力头输出,可以作为训练探针的有效表示。
🔸进一步实验发现,逻辑回归(LR)和质量平均(MM)两种探针技术,能从LLM的隐藏状态中提取真实性信息。
🔎分析总结
🔸使用注意力头输出作为输入特征,能够训练真实性探测器并取得最高准确度。
🔸仅使用每个数据集平均10个样本就达到了高性能,显示了方法的数据效率。
🔸该方法在各种任务和数据集上的普适性表现良好,证明了存在通用真实性超平面。
💡个人观点
论文使用多样化的数据集训练探针,探索并验证了LLM中存在一个通用真实性超平面,能够跨任务和领域泛化。