📖标题:Calibrating Verbal Uncertainty as a Linear Feature to Reduce Hallucinations
🌐来源:arXiv, 2503.14477
🌟摘要
🔸LLM 在提出虚假声明时也经常采用自信的语言风格。这种“过度自信的幻觉”误导用户并削弱信任。因此,实现以语言表达声明周围实际不确定性程度的能力非常重要。
🔸我们发现“语言不确定性”由 LLM 表示空间中的单个线性特征控制,并表明这与模型的实际“语义不确定性”只有适度的相关性。
🔸我们应用这种见解并表明 (1) 语义和语言不确定性之间的不匹配比单独的语义不确定性更能预测幻觉,(2)我们可以在推理时干预语言不确定性并减少短形式答案上的幻觉,平均相对减少了 32%。
🛎️文章简介
🔸研究问题:大语言模型(LLM)在生成答案时出现自信过度现象,即模型在不确定的情况下仍然给出高置信度的错误答案(幻觉)。能否通过分析语义不确定性(SU)和语言不确定性(VU)之间的错位,来减少这种幻觉现象?
🔸主要贡献:论文提出了一个新的量化框架来分析和校准语言不确定性,并引入了“机制不确定性校准”(MUC)方法,利用线性语言不确定性特征(VUF)来调节语言不确定性与语义不确定性之间的关系,从而有效减少幻觉的发生。
📝重点思路
🔸特征提取:采用均值差异技术从模型的残差流激活中识别语言不确定性特征(VUF)。
🔸数据集应用:在TriviaQA、NQ-Open和PopQA等闭卷短问答数据集上进行实验,验证VUF的有效性。
🔸不确定性量化:利用“LLM作为评判者”的方法量化语言不确定性,并与语义不确定性进行比较。
🔸幻觉检测:结合语言不确定性和语义不确定性,通过逻辑回归模型进行幻觉检测。
🔸幻觉缓解:提出机制不确定性校准(MUC),在推理时调节模型的激活,以使语言不确定性与语义不确定性更好地对齐。
🔎分析总结
🔸发现语言不确定性与语义不确定性之间存在显著错位,导致模型在生成高语义不确定性但低语言不确定性的回答时产生幻觉。
🔸应用MUC方法后,观察到幻觉率显著降低,同时保持了对正确答案的稳定置信度。
🔸VUF在不同数据集间表现出一致性,表明其可以作为通用特征来调节模型的不确定性。
💡个人观点
论文的核心是从模型残差中找出能量化不确定性的特征,并通过机制不确定性校准来解决幻觉问题。