【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（二）-CSDN博客

本文链接：https://blog.csdn.net/weixin_54607024/article/details/144820135

****非斜体正文为原文献内容（也包含笔者的补充），灰色块中是对文章细节的进一步详细解释！

3.1.2 基于注意力的解释（Attention-Based Explanation）

注意力机制可以揭示输入数据中各个部分之间的关系，从而为模型的预测提供解释。许多现有方法尝试仅基于注意力权重或通过分析注意力中编码的知识来解释模型。这些解释技术可以分为三组：可视化方法、基于函数的方法和基于探测的方法。由于基于探测的方法通常用于学习全局解释，因此将在第3.2.1节中讨论。此外，关于注意力权重是否适合解释的研究存在广泛争议。这一主题将在后面的讨论中涵盖。

3.1.2.1 可视化（Visualizations）

（a）第 6 层句子 A 和句子 B 之间注意力矩阵的二分图注意力表示（Vig， 2019）;

通过使用二部图或热图显示单个输入的注意力模式和统计数据，可视化提供了一种直观的方式来理解模型的工作原理。这些技术涉及在不同尺度上表示关系，以不同形式为不同模型表示注意力。

在输入数据层面，根据前提句和假设句之间的每个单词/token/句子对的注意力得分，以评估模型预测的可信度。一些系统还允许用户手动修改注意力权重以观察效果（通过直接操作注意力权重，可以增加或减少模型对特定单词的关注程度）。

在自然语言处理中，特别是在涉及逻辑推理或问答系统的任务时，“前提句”和“假设句”通常指两个部分：

前提句：提供背景信息或已知事实的句子。
假设句：基于前提句提出的推论或问题。

例如，在问答系统中，前提句可能是一段文本描述，假设句可能是基于该描述的问题。注意力机制会帮助模型识别前提句中哪些部分对回答假设句最为重要。

在神经元层面，可以检查单个注意力头以理解模型行为。

注意力头本质上是一个计算加权平均的机制。每个注意力头都关注输入数据中的不同方面，分析它们的激活模式可以揭示哪些输入部分与模型的输出最为相关。

每个注意力头能够学习到输入数据不同特征或模式，主要是因为它们在训练过程中学习到了不同的权重矩阵。那万一他们学到了相同的权重矩阵呢？

理论上，如果多个注意力头学习到相同的权重矩阵，它们就会关注输入数据的相同方面，导致模型效率低下和冗余。这相当于多个注意力头在做重复的工作，没有充分利用模型的计算能力。然而，这种情况在实际训练中很少发生，主要原因如下：

随机初始化: 如前所述，注意力头的权重矩阵是随机初始化的。这种随机性确保了它们在训练开始时就具有不同的参数，降低了学习到相同权重矩阵的可能性。

反向传播算法和优化器: 反向传播算法和优化器（例如Adam）会不断调整权重矩阵，以最小化损失函数。这个过程会引导不同的注意力头学习到不同的参数，以更好地捕捉输入数据的不同特征。如果多个注意力头学习到相同的权重矩阵，损失函数并不会得到显著的降低，因此优化器会倾向于让它们学习到不同的参数。

正则化技术: 一些正则化技术，例如dropout和weight decay，可以防止模型过拟合，并鼓励模型学习到更具泛化能力的参数。这些技术也能间接地防止多个注意力头学习到相同的权重矩阵。

数据的多样性: 如果训练数据足够多样化，那么不同的注意力头更有可能学习到不同的特征。如果数据过于单一，则可能导致多个注意力头学习到相同的权重矩阵。