再看大模型幻觉的定义、原因及估计方法：-CSDN博客

兼看设备端大模型系统回顾

文章转自公众号老刘说NLP

今天我们继续回顾，一个是Reliable LLM大模型幻觉的再认识-定义、原因及估计，一个是关于设备端大模型的一个总结，这两个工作都很有趣，仔细读读，都会有收获。

供大家一起参考并思考。

一、Reliable LLM大模型幻觉的再认识-定义、原因及估计

我们再来看看大模型幻觉的问题。

Reliable LLM《Reliable LLM: A Framework of Mitigating Hallucination regarding Knowledge and Uncertainty》，https://github.com/AmourWaltz/Reliable-LLM，https://amourwaltz.github.io/Reliable-LLM

该项目旨在展示有关大型语言模型（LLM）不确定性和置信度的研究，并收集了各种方法和研究方向，以

我们可以重点看看其中的几个点：

1、Hallucination（幻觉）

首先是定义，幻觉的定义各不相同，取决于特定任务。该项目专注于知识密集型任务（闭卷问答、对话、RAG、常识推理、翻译等）中的幻觉问题，其中幻觉指的是生成内容与世界知识不一致的非事实、不正确的知识。在知识密集型任务中，幻觉指的是生成内容与世界知识不一致的非事实、不正确的知识。

其次是原因，幻觉的原因包括数据中未经筛选的错误陈述、模型架构的输入长度限制、最大似然训练策略和多样化的解码策略。

最后是解决，与开放生成任务相比，知识密集型任务有特定的真实参考——世界知识。因此，可以估计LLM的知识边界图来明确它知道什么。确保LLM对某个事实知识的确定性或诚实度对于检测幻觉至关重要（从灰色区域到绿色区域）。

2、Knowledge（知识）

可以通过绘制图表来粗略且简单地代表知识边界。然而，在现实中，像人类一样，对于许多知识，我们处于一种不确定的状态，而不仅仅是知道或不知道的状态。

此外，最大似然预测使得LLM倾向于生成过度自信的回答。即使LLM知道一个事实，如何让LLM准确地表达它们所知道的也很重要。

这增加了确定知识边界的复杂性，这导致两个具有挑战性的问题：

1）如何准确感知（感知）知识边界？

例如，给定一个问题，如“法国的首都是哪里？”，模型需要为此问题提供其置信度水平。

2）如何在边界有些模糊的情况下准确表达（表达）知识？

例如，如果对上述问题回答“巴黎”的置信度水平为40%，模型应该拒绝回答还是在此情况下提供回应？

3、Uncertainty（不确定性）

不确定性方面，分成2个部分，一个是传统模型校准，一个是生成式模型估计。

1）传统模型校准

模型在预测中的过度自信问题，以及如何通过置信度或不确定性估计来提高AI应用的可靠性。

https://amourwaltz.github.io/Reliable-LLM/figs/calibration.png

使用最大化似然（MLE）训练的模型在预测中容易过度自信，识别可靠的AI应用的置信度评分或不确定性估计至关重要。

如果模型的预测置信度（SoftMax概率）与答案正确的实际概率很好地对齐，则认为模型校准良好。

使用预期校准误差（ECE）和可靠性图来衡量校准性能。

2）生成模型的不确定性估计

如何量化生成句子的置信度和不确定性。为了校准生成性LLM，应该量化生成句子的置信度和不确定性。

不确定性分为偶然性（数据）和认识论（模型）不确定性。通常通过预测的熵来衡量，以指示模型预测的分散程度。

置信度则通常与输入和预测都相关。不确定性和置信度这两个术语经常互换使用。

尽管知识边界对于知识密集型任务很重要，但先前的研究中并没有具体的定义或概念。

当前估计知识边界的方法参考了置信度/不确定性估计方法，入下图所示：

① Likelihood-based method（基于似然的方法）

输入：What's the capital of France?（法国的首都是什么？）
输出：It is Paris（它是巴黎）
置信度：0.75
这种方法通过计算输出序列的概率来估计模型的置信度。
缺点包括需要归一化处理以应对可变长度的序列；要求访问词级概率信息，不适用于黑盒LLMs；无法捕获词级概率上的语义意义。

② Prompting-based method（提示法）

输入：What's the capital of France?（法国的首都是什么？）
输出：It is Paris（它是巴黎）
置信度：0.9
这种方法依赖于提示策略来诱导置信度估计，不同方法可能有不同的提示方式（如True的概率、数值置信度以及单词表达等）。
缺点包括不能提高LLM本身的置信度估计能力；容易导致过度自信。

③ Sampling-based method（采样法）

输入：What's the capital of France?（法国的首都是什么？）
输出：It is Paris（它是巴黎）
置信度：0.66
这种方法通过对LLM进行多次采样并聚合结果来估计置信度。
缺点包括需要额外的推理时间成本；不同的聚合方法可能会有所不同；不能改善LLM内在的置信度估计能力。

④ Training-based method（训练法）

输入：What's the capital of France?（法国的首都是什么？）
输出：It is Paris（它是巴黎）
置信度：0.72
这种方法使用一个额外的评估器对LLM的输出进行评估，并根据评估结果确定置信度。
缺点包括需要训练额外的评估器；在未见过的领域上很难学习到LLM的内在置信度估计能力。

二、设备端大模型的一个回顾

设备端大模型大全《On-Device Language Models: A Comprehensive Review》: https://github.com/NexaAI/Awesome-LLMs-on-device，https://arxiv.org/abs/2409.00088，主要探讨了在资源受限的移动设备上部署大型语言模型（LLMs）的挑战和解决方案。