交大：探索LLM的真实超平面来缓解幻觉

大模型任我行

于 2024-09-28 10:00:00 发布

阅读量414

点赞数 7

分类专栏：大模型-模型训练文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/142564911

版权

大模型-模型训练专栏收录该内容

51 篇文章 1 订阅

订阅专栏

在这里插入图片描述

📖标题：On the Universal Truthfulness Hyperplane Inside LLMs
🌐来源：arXiv, 2407.08582

摘要

🔸虽然大型语言模型（LLMs）在各个领域都表现出了非凡的能力，但幻觉仍然是一个重大挑战。最近的研究通过内部表征的视角探索了幻觉，提出了破译LLM对事实的坚持的机制。然而，这些方法往往无法推广到分布外的数据，导致人们担心内部表示模式是否反映了基本的事实意识，或者只是过度拟合了特定数据集上的虚假相关性。
🔸在这项工作中，我们研究了模型中是否存在区分模型事实正确和不正确输出的通用真实性超平面。为此，我们扩大了训练数据集的数量并进行了广泛的评估——我们在40多个数据集的不同集合上训练了真实性超平面，并检查了它的跨任务、跨域和域内泛化。
🔸我们的结果表明，增加训练数据集的多样性可以显著提高所有场景的性能，而数据样本的数量则起着不那么关键的作用。这一发现支持了乐观的假设，即模型中可能确实存在一个普遍的真实性超平面，为未来的研究提供了有前景的方向。

🛎️文章简介

🔸研究问题：大语言模型（LLM）的幻觉现象，是否能通过内部特征进行解释，并泛化到分布外场景？
🔸主要贡献：论文通过多样化的数据集，设计和训练一个探针方案，验证了LLM中存在一个通用的真实性超平面，能够用于跨任务和领域的真实性检测。

📝重点思路

🔺相关工作

🔸一系列研究试图识别LLM内部的真实性超平面，作为探索事实真实性的理论基础。
🔸一些研究还利用探针识别的真实向量，获取更优质的表示空间来干预幻觉生成。

🔺论文方案

🔸首先在单一数据的训练，发现学习的超平面存在过拟合，不具备泛化能力。
🔸为了找到潜在的通用真实性超平面，创建并收集了17个任务、49个数据集用于幻觉检测。
🔸初步实验发现，隐藏状态下的注意力头输出，可以作为训练探针的有效表示。
🔸进一步实验发现，逻辑回归（LR）和质量平均（MM）两种探针技术，能从LLM的隐藏状态中提取真实性信息。