大语言模型的可解释性综述

23年9月来自多所大学学者(来自美国和中国)的综述论文“Explainability for Large Language Models: A Survey“。

大语言模型(LLM)在自然语言处理方面表现出令人印象深刻的能力。然而,内部机制仍然不明确,这种缺乏透明度的做法给下游应用带来了不必要的风险。因此,理解和解释这些模型对于阐明其行为、局限性和社会影响至关重要。本文介绍可解释性技术的分类法,并给解释基于Transformer语言模型的方法做了结构化概述的总结。根据LLM的训练范式进行分类:传统基于微调范式和基于提示范式。对每个范式,无论生成单个预测的局部解释,还是整体模型知识的全局解释,把目标和主要方法进行总结。还讨论用于评估生成解释的指标,并讨论如何利用这些解释来调试模型和提高性能。最后,与传统机器学习模型相比,研究LLM时代可解释性技术的主要挑战和新机遇。

可解释性是指以人类可理解的术语解释或呈现模型行为的能力(Doshi-Velez&Kim2017,Du2019a)。提高LLM的可解释性至关重要,原因有两个。首先,对于一般用户,可解释性以可理解的方式阐明模型预测背后的推理机制,建立适当的信任,无需技术专业知识。有了这个,最终用户能够了解LLM的功能,局限性和潜在缺陷。其次,对于研究人员和开发人员来说,解释模型行为提供洞察力,可以识别意外的偏见、风险和性能改进领域。换句话说,可解释性充当调试辅助工具,快速提高下游任务的模型性能(Strobelt2018,Bastings2022,Yuksekgonul2023)。有助于跟踪一段时间内的模型功能,在不同模型之间进行比较,并为实际部署开发可靠、合乎道德和安全的模型。
由于LLM的独特属性,LLM的可解释性技术与传统机器学习(ML)模型的技术不同。LLM与传统ML模型之间的差异可以归因于多个方面。从数据视图来看,ML模型以监督方式依赖于人工制作的特征,而LLM旨在自动从原始输入数据中学习特征(Chai&Li2019)。解释LLM捕获哪些特征以及这些功能中表示哪些知识非常重要。从模型角度来看,传统的 ML 模型通常是为具有各种模型架构的特定任务而设计的(Liu & Sun2023)。相比之下,在大量数据集上预训练的LLM可以通过微调推广到各种下游任务(Yang2023)。此外,LLM的注意机制已被广泛使用,为输入的更加相关部分分配更高的值,放置输入的重要性(Hu2020)。由于注意权重中编码的知识和模式可能表明模型理解,因此注意权重可以说是微调模型的另一个重要可解释标准。此外,由于LLM的性能更好,应进一步研究Transformer组件(包括神经元,层和模块)所学习的问题以及它们的功能是否不同。从应用程序角度来看,传统的 ML 模型专注于低级模式识别任务,例如解析和形态分析,而 LLM 可以处理高级推理任务,例如问答和常识推理(Lauriola 2022 )。特别是,了解LLM在上下文学习(in context learning)和思维链(COT)提示方面的排他性能力,以及幻觉(hallucination)现象,对解释和改进模型是必不可少的。

如图是LLM可解释性讨论的分类:

添加图片注释,不超过 140 字(可选)

微调范式的可解释性

第一类解释是指解释 LLM 生成的预测。考虑这样一种场景:有一个语言模型,将特定的文本输入到模型中。然后,该模型产生一个分类输出,例如情绪分类或下一个token的预测。在这种情况下,解释的作用是阐明模型生成特定分类或token预测的过程。由于目标是解释 LLM 如何对特定输入做出预测,称之为局部解释。此类别包含四种生成解释的主要方法,包括基于特征归因的解释、基于注意的解释、基于示例的解释和自然语言解释。

与旨在解释模型各个预测的局部解释不同,全局解释有助于从模型的角度理解 LLM 的工作原理。全局解释旨在了解各个组件(神经元、隐藏层和更大的模块)编码的内容,并解释各个组件学习到的知识/语言属性。全局解释有三种主要方法:分析模型表征和参数的探测法、确定模型输入响应的神经元激活分析,以及基于概念的方法。

可解释性用来两种目的:1.调试模型,2.改进模型。

提示范式的可解释性

随着语言模型规模的扩大,它们展现出新能力,例如少样本学习,即从几个例子中学习概念的能力。它们还展示了思维链 (CoT) 提示能力。鉴于这些新特性,可解释性研究有三个主要目标:1) 调查提供解释是否真的有助于模型本身从几个例子中更快地“理解”新任务,2) 了解这些大语言模型如何从有限的例子中如此快速地掌握新任务,这有​​助于最终用户解释模型的推理,3) 解释 CoT 提示。

由于大规模无监督预训练和监督对齐微调,属于此范式的 LLM 具有强大的推理能力。然而,其庞大的规模也使其容易产生幻觉等问题输出。可解释性研究旨在 1)阐明对齐微调的作用,2)分析幻觉的原因。

可解释性主要用于改进LLM的预测性能,以及下游应用的性能。

可解释性评估

评估它们如何忠实地反映模型的推理过程仍然具有挑战性。粗略地评估方法可分为两类:对传统微调范式的局部解释评估和对提示范式的自然语言 CoT 解释评估。评估的两个关键维度是人类的可信度和捕捉 LLM 内部逻辑的可信度。

从技术上讲,评估解释涉及人工或自动化模型方法。人工评估通过模型原理与人类原理或主观判断的相似性来评估可信度。然而,这些方法通常忽略了可信度。主观判断也可能与模型推理不一致,使得这种评估不可靠。正如 Jacovi & Goldberg (2020) 所说,忠实的评估应该有一个明确的目标,避免人为参与。自动化评估通过扰动模型原理来测试重要性,避免人为偏见。因此,开发严格的自动化指标对于公平的忠诚度评估至关重要,这将在忠诚度评估维度中得到涵盖。

面临的挑战:

1 没有基本事实的解释

LLM的基本事实解释通常是无法访问的。例如,目前没有基准数据集来评估LLM捕获的单个组件的全局解释。这带来了两个主要挑战。首先,很难设计出准确反映LLM决策过程的解释算法。其次,缺乏基本事实使得评估解释的忠实性和保真度成为问题。在没有真值指导的情况下,在各种方法中选择适当的解释也具有挑战性。潜在的解决方案包括涉及人工评估和创建合成解释数据集。

2 涌现能力的来源

随着模型规模和训练数据的增加,LLM表现出令人惊讶的新功能,即使没有经过显式训练来执行这些任务也会发生。阐明这些新能力的起源仍然是一个公开的研究挑战,特别是对于像ChatGPT和Claude这样的专有模型,其架构和训练数据尚未发布。即使是像LLaMA这样的开源LLM,目前对其新技能来源的可解释性也有限。这可以从模型和数据角度进行调查。

模型透视。进一步研究基于Transformer的模型阐明LLM的内部工作原理至关重要。 关键的开放性问题包括:1)哪些特定的模型架构产生了LLM令人印象深刻的新能力?2) 跨不同语言任务实现强大性能所需的最小模型复杂度和规模是多少?随着LLM的规模继续迅速增加,继续严格分析和在基础模型上进行实验,仍然势在必行。在这些领域推进知识优势,将使LLM更加可控和可靠。这可以为在不久的将来是否会有新能力出现提供提示。

数据角度。除了模型体系结构之外,训练数据是理解LLM新能力的另一个重要角度。一些具有代表性的研究问题包括:1)海量训练数据的哪些特定子集负责特定的模型预测,是否有可能找到这些示例?2) 涌现能力是模型训练的结果还是数据污染问题的畸变(Blevins 2023 )?3)训练数据的质量或数量对于LLM的有效预训练和微调更重要吗?了解训练数据特征与模型结果行为之间的相互作用将为大语言模型中涌现能力的来源提供关键见解。

3 比较两种范式

对于自然语言推理 (NLI) 等给定任务,下游微调范式和提示范式可以展示明显不同的分布内(ID)和分布外 (OOD) 性能。这表明这两种方法依赖于不同的推理来进行预测。然而,仍然缺乏对微调和提示之间可解释性的全面比较。需要进一步的研究来更好地阐明这些范式之间的可解释性差异。一些有趣的开放性问题包括:1)微调模型和提示模型在用于预测分布内(ID)示例的基本原理上有何不同?2) 是什么原因导致微调和提示之间的 分布外(OOD )鲁棒性存在差异?能追溯到推理差异吗?推进这种理解将为给定的用例选择正确的范式,并提高跨范式的鲁棒性。

4 LLM的捷径学习

最近的可解释性研究表明,语言模型在进行预测时经常走捷径。对于下游微调范式,研究表明,语言模型利用各种数据集伪影和偏见来完成自然语言推理任务,例如词汇偏差、重叠偏差、位置偏差和风格偏差(Du 2023 )。这会显著影响分布外OOD泛化性能。对于提示范式,最近的一项研究分析了语言模型如何使用更长的上下文(Liu 2023b)。

结果表明,当相关信息位于上下文的开头或结尾时,性能最高,当模型必须在长上下文中访问相关信息时,性能会恶化。这些分析表明,在某些情况下,这两种范式都倾向于利用捷径,突出表明了需要更多的研究来解决这个问题并提高泛化能力。

5 注意冗余

最近的研究调查了在大语言模型中用可解释性技术进行传统微调和提示范式的注意冗余(Bian 2021 ; Bansal2022 )。例如,Bian 用 BERT-base 分析不同预训练和微调阶段的注意冗余(Bian 2021 )。实验分析表明存在注意冗余,发现许多注意头是多余的,可以修剪,对下游任务性能影响不大。同样,Bansal 用 OPT-66B 在上下文学习场景中调查注意冗余(Bansal 2022 )。他们发现注意头和前馈网络都存在冗余。他们的发现表明,许多注意头和其他组件是多余的。这为开发模型压缩技术提供了机会,这些技术可以修剪冗余模块,同时保持下游任务的性能。

6 安全与道德

LLM缺乏可解释性会带来重大的道德风险,当变得更加有能力。如果没有可解释性,分析或限制诸如错误信息、偏见和社会操纵等问题的潜在危害,就变得具有挑战性。可解释的人工智能技术对于审核这些大模型并确保与人类价值观保持一致至关重要。例如,追踪训练数据属性或可视化注意模式的工具可以揭示嵌入的偏见,例如性别刻板印象(Li 2023a)。此外,探测这些分类器可以确定有问题的关联是否编码在模型的学习表示中。部署LLM的研究人员,公司和政府,有道德的责任优先考虑可解释的AI。随着LLM变得越来越普遍,严格的模型审计,外部监督委员会和透明度法规等举措可以帮助降低风险。例如,随对齐系统规模的不断扩大,人类反馈在管理方面变得无能为力,给这些系统的安全性带来了巨大的挑战。正如 Martin (2023) 所声称的那样,利用可解释性工具作为审计流程的一部分来补充人工反馈可能,是一种富有成效的方法。推进可解释性技术必须继续作为优先事项,同时扩大模型规模和性能,以确保能力日益增强的LLM在的安全和道德的发展。

  • 16
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值