【文献精读笔记】Explainability for Large Language Models: A Survey (大语言模型的可解释性综述)(二)

****非斜体正文为原文献内容(也包含笔者的补充),灰色块中是对文章细节的进一步详细解释!

3.1.2  基于注意力的解释(Attention-Based Explanation)

注意力机制可以揭示输入数据中各个部分之间的关系,从而为模型的预测提供解释。许多现有方法尝试仅基于注意力权重或通过分析注意力中编码的知识来解释模型。这些解释技术可以分为三组:可视化方法、基于函数的方法和基于探测的方法。由于基于探测的方法通常用于学习全局解释,因此将在第3.2.1节中讨论。此外,关于注意力权重是否适合解释的研究存在广泛争议。这一主题将在后面的讨论中涵盖。

3.1.2.1 可视化(Visualizations)

(a) 第 6 层句子 A 和句子 B 之间注意力矩阵的二分图注意力表示 (Vig, 2019);

通过使用二部图或热图显示单个输入的注意力模式和统计数据,可视化提供了一种直观的方式来理解模型的工作原理。这些技术涉及在不同尺度上表示关系,以不同形式为不同模型表示注意力。

在输入数据层面,根据前提句和假设句之间的每个单词/token/句子对的注意力得分,以评估模型预测的可信度。一些系统还允许用户手动修改注意力权重以观察效果(通过直接操作注意力权重,可以增加或减少模型对特定单词的关注程度)。

在自然语言处理中,特别是在涉及逻辑推理或问答系统的任务时,“前提句”和“假设句”通常指两个部分:

前提句:提供背景信息或已知事实的句子。
假设句:基于前提句提出的推论或问题。


例如,在问答系统中,前提句可能是一段文本描述,假设句可能是基于该描述的问题。注意力机制会帮助模型识别前提句中哪些部分对回答假设句最为重要。

在神经元层面,可以检查单个注意力头以理解模型行为。

注意力头本质上是一个计算加权平均的机制。每个注意力头都关注输入数据中的不同方面,分析它们的激活模式可以揭示哪些输入部分与模型的输出最为相关。


每个注意力头能够学习到输入数据不同特征或模式,主要是因为它们在训练过程学习到了不同的权重矩阵。 那万一他们学到了相同的权重矩阵呢?

理论上,如果多个注意力头学习到相同的权重矩阵,它们就会关注输入数据的相同方面,导致模型效率低下和冗余。 这相当于多个注意力头在做重复的工作,没有充分利用模型的计算能力。 然而,这种情况在实际训练中很少发生,主要原因如下:

  • 随机初始化: 如前所述,注意力头的权重矩阵是随机初始化的。 这种随机性确保了它们在训练开始时就具有不同的参数,降低了学习到相同权重矩阵的可能性。

  • 反向传播算法和优化器: 反向传播算法和优化器(例如Adam)会不断调整权重矩阵,以最小化损失函数。 这个过程会引导不同的注意力头学习到不同的参数,以更好地捕捉输入数据的不同特征。 如果多个注意力头学习到相同的权重矩阵,损失函数并不会得到显著的降低,因此优化器会倾向于让它们学习到不同的参数。

  • 正则化技术: 一些正则化技术,例如dropout和weight decay,可以防止模型过拟合,并鼓励模型学习到更具泛化能力的参数。 这些技术也能间接地防止多个注意力头学习到相同的权重矩阵。

  • 数据的多样性: 如果训练数据足够多样化,那么不同的注意力头更有可能学习到不同的特征。 如果数据过于单一,则可能导致多个注意力头学习到相同的权重矩阵。

在模型层面,通过可视化模型中不同注意力头(attention heads)和层(layers)之间的注意力分布,可以识别出一些特定的模式或规律。

也有工作侧重于可视化注意力流以追踪注意力的演变,这可用于理解信息转换并实现模型之间的训练阶段比较(DeRose et al., 2020)。因此,注意力可视化提供了一种明确的、交互式的方法来分析偏差、错误和评估决策规则。有趣的是,它还有助于制定解释性假设。

3.1.2.2 基于函数的方法(Function-Based methods)

由于原始注意力不足以完全解释模型预测,人们研发了更佳的变体,以识别解释的重要归因。

梯度作为衡量敏感性与显著性的公认度量标准,故而被广泛融入自定义归因分数内。

这些自定义归因分数在对涉及注意力权重的梯度的定义方式上存在差异。例如,梯度可以是输出相对于注意力权重的偏导数 (Barkan et al., 2021),或者是偏导数的积分 (Hao et al., 2021)。梯度和注意力之间的操作也可以有所不同,例如逐元素乘积

总的来说,这些融合注意力和梯度的归因分数通常比单独使用任何一个表现得更好,因为它们融合了更多有助于突出重要特征和理解网络的信息。

3.1.2.3 关于注意力的辩论(Debate Over Attention)

有大量研究评估注意力头,但关于这种方法有效性的辩论可能短期内不会解决。这场辩论源于几个关键方面。

  • 首先,一些工作将基于注意力的解释与其他方法(如LIME)进行比较
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值