EMNLP 2023 | 蚍蜉撼大树:我们是否应该进行模型编辑?

5 篇文章 0 订阅
3 篇文章 0 订阅

引言:模型编辑领域是否真的是蚍蜉撼大树,企图用小汤匙将海洋挖空?本文来自以色列本古里安大学的工作,讨论了模型编辑在当前LLM发展下存在的问题和他们的担忧。本文发表在EMNLP2023(Findings)。

题目Emptying the Ocean with a Spoon: Should We Edit Models?
作者单位:以色列 本古里安大学
发表于:Findings of ACL EMNLP2023

摘要

我们对最近流行的直接模型编辑方法提出了质疑。我们将模型编辑与三种相似但不同的方法进行了对比:

  • 基于检索的架构,它将事实记忆与LLM中体现的推理和语言能力解耦;
  • 概念删除方法,旨在防止生成文本中的系统性偏见;
  • 归因方法,其目的是将世代建立在已确定的文本来源中。

我们认为,直接模型编辑不足以被信任为LLM固有缺点的系统补救措施,尽管它已被证明在提高模型可解释性方面具有潜力。但它强化了LLM模型真实这一概念,打开了LLM的潘多拉魔盒。我们呼吁谨慎地推广和应用模型编辑,将其作为LLM部署过程的一部分,并将LLM的用例限制在那些不依赖编辑作为关键组件的用例中。

一、介绍

大模型强势席卷全球。最初只是将LLM作为迁移学习的主要工具,而现在的研究将LLM看作无所不知的一站式解决专家。促成如今现状的一个重要发现可能是预训练 LLMs 具有明显事实属性:不知何故,单纯的下一单词预测训练产生的模型,在被要求完成关于世界的某些正确事实时,能够完成这些事实。现在公众普遍认为LLM是搜索引擎的替代品,现在很多提供LLM查询服务的单位提供的免责声明,好像也没改变大家的想法。
大模型存在一个显著问题,就是其前期训练目标与对事实性的追求不匹配。近年来,研究人员针对 LLM 输出不符合事实的问题提出了几种解决方案,其中之一就是模型编辑,即根据标记为需要修正的个别事实来调整 LLM 内部的参数。这些工作的重点是解决模型编辑方法中存在的问题,如确保编辑后其他事实输出的稳定性,或批量编辑,或计算效率高的编辑
本文,我们对模型编辑的整个理念提出了质疑,并对预期用例、概念可扩展性、潜在偏差、安全性和整体责任感表示担忧。我们主张,在涉及到事实知识的任务时,尽可能使用一些显式知识模块,减少对知识编辑方法的应用。当然不可否认,模型编辑在可解释性探究等领域也非常有效。

二、模型编辑

Sinitsin 等人(2020 年)首次提出了更新大型 ML 模型的概念,以考虑外部激发的局部性能预期。他们列举了错误至关重要的案例,如自动驾驶汽车中的物体检测。后来的研究表明,模型编辑有助于保护隐私和消除偏见(Zhu 等人,2020 年),也可作为 "赶上 "时间敏感事实(如 "英国首相 "随时间变化)的一种解决方案。
Sinitsin 等人规定了编辑方法的几个理想指标:

  • 可靠性 reliability(目标事实按预期更新)
  • 局部性 locality(不会发生其他更改;这一属性的衡量标准称为 “缩减”)
  • 效率 efficiency(成功的编辑只需少量计算)

后续工作中,De Cao等人增加了

  • 通用性 generality(能够修改并非最初为知识保留而训练的模型)
  • 一致性 consistency(在文本模型的特定使用情况下,对转述的鲁棒性)
  • 节俭性 frugality(在编辑过程中只改变模型的最小组件)

一个经过深入研究的限制因素是灾难性遗忘(Ratcliff,1990 年),即确保编辑过的模型不会在其经过明确训练并表现良好的任务上失去性能。
模型编辑的方法已经从可编辑训练(Sinitsin 等,2020 年)一种需要事先决定模型稍后将被编辑的程序,发展到以局部性为动机改变模型内的特定参数(Zhu 等,2020 年;Meng 等,2022 年)。最近的研究(Mitchell 等人,2022 年)提请人们注意多次连续编辑过程中可能导致的模型性能退化,并寻求通过改进方法来缓解这一问题。Hase 等人(2023b)扩展了一致性要求,使其适用于蕴含的和等价的事实以及转述,并建议将模型编辑作为调和某些事实正确产生但其蕴含的事实不正确的情况的一种方法。

三、评论与批判

在本节中,我们将讨论反对将模型编辑作为一种实践方法的理由,无论其性能如何。我们首先分析了模型编辑研究目标的前提:LLM 可用作事实知识库的假设。然后,我们重点讨论了为什么不能事先设计编辑事实作为维护提供事实的 LLM 的一种手段,并继续从实际角度考虑了为什么即使是这一不切实际的目标也可能无法实现。

3.1 LLMs 可以作为事实知识库吗?

LAMA基准(Petroni等人,2019年)首次提出并在实验中支持了LLM可作为知识库的观点,在该基准中,预训练的语言模型在零点设置下针对从知识库中提取并重新表述为填空语句的51K个知识三元组进行查询。2019 年的模型(BERT-XL)有约 26.5%的时间正确回答了最高答案。LAMA 的局限性表明,这一结果对多标记跨度(而不是单标记答案)并不鲁棒。后续的更多工作表明LAMA实验依赖启发式方法来预测答案。自此,更多符合事实的、更强大的查询技术被提出,用于解决上述局限。 随着 LLM 规模的扩大,最近的工作也扩大了基准的规模,这些实验表明,LM 回答问题的能力取决于与该问题相关的信息在预训练数据中出现的次数。因此,LLM在回答有关长尾事实的问题时,表现不好。
除了可靠地回答查询的能力,LLMs 还应满足其他要求,才能被视为事实库(AlKhamissi 等人,2022 年):

  • 编辑知识(添加、删除、更新事实)
  • 逻辑一致性(对不同但相关事实的回答必须一致)
  • 推理(根据逻辑规则推断其他答案的能力)
  • 可解释性(通过令人信服的论证链支持答案)

对这些方面进行评估的实验结果表明,目前的 LLM 在所有方面都不合格。He 等人(2023 年)证明,与其他训练有素的方法(如 NLI 模型和符号系统,如 OWL Reasoners)相比,LLM 在计算本体子假设推理方面表现不佳(Glimm 等人,2014 年)。

3.2 系统性错配

LLM 的一个基本特性是随机性 stochastic,这与其作为知识库的用途形成了鲜明对比。当用于增强创造性工作、数据探索或自由形式任务(如总结)时,使用样例场景需要变化或意外,这种特性是可取的。在其他情况下,我们可能会满足于那些能为我们提供输出分布的模型,我们可以从输出分布中估计出单个响应的概率,并调整我们对可靠输出的预期。由于后者在许多仅通过第三方应用程序接口提供的模型(chatgpt等)中并不存在,我们只能获取从未知分布生成的文本,我们认为这对于依赖事实的应用来说是不够的。
甚至可以说,弄错事实是虚构的 LLM 的一个特点,而不是一个缺陷:因为它们的核心训练程序旨在模拟可信的文本续写,所以我们不应该对模型以一种否定将它们用于事实目的的方式重复广泛认为的假话感到惊讶。如果大多数人都认为洛杉矶是加利福尼亚州的首府,那么LLM就应该据此完成相关的提示。从分布中抽样输出的 LLM 也没有内置的可靠性或稳健性:同一提示的两个实例很容易产生相互矛盾的事实,事实上也如此。
此外,在模型中编辑事实的想法表明,我们总是希望模型为我们提供一个事实作为问题的答案。然而,有时在提出问题时,可能会预先假定或以其他方式假定一些有害的命题,如刻板印象或阴谋论。编辑与 "哪个政府机构伪造了登月?"这一问题相关的 "事实 "并不能为我们提供一个改进的模型;我们想要的可能是完全删除这些事实,或者为模型提供一种挑战预设的方法,或者避免给出任何答案。与此同时,我们称之为 "事实 "的许多关系可以说是至关重要的概念,没有这些概念,某些类型的基本交流就不可能进行。如果一个 LLM 不能断言树是否有叶子,或者断言树从来没有叶子,那么它就有可能变得与大多数需要与世界进行任何形式互动的任务无关。随着围绕这些问题的哲学和实践的发展,我们希望 "必须知道 "和 "必须不知道 "之间的差距最终会缩小,从而对 LLM 的知识能力形成可行的约束。

3.3 结构不合理性

据估计,世界上有超过 1 亿个值得注意的事实。其实我们现在可能甚至连什么是事实的界限也不清楚。
来自作者的灵魂三问:

人口统计数据中 0.3% 的变化或一项新的深奥体育纪录是否需要编辑?
世界领导人的日常行踪是否构成事实?
名人或记者的行踪又如何?

随着世界政治、经济、体育和其他各行各业每天发生的事件,事实被添加和改变的数量和速度都超过了通过外科手术式的模型编辑所能 "赶上 "的速度,就像用勺子清空海洋一样。如果我们选择限制我们认为重要到足以编辑的事实,我们就会在系统中引入偏见,为许多语言技术中存在的大量有据可查的危害敞开大门(Chang et al.) 这种选择既可以是隐性的,也可以是显性的,而且很难避免。
同样,事实的广泛性和可变性很可能导致对编辑补充集的评估出现偏差,即那些在编辑后被控制为不会改变的事实。即使是已编辑事实的转述也不能保证与所选措辞一起改变(De Cao 等人,2021 年),蕴含事实也是如此(Hase 等人,2023 年 b)。这个问题也表现为一个安全问题,因为未检查的事实可能对模型的使用相当重要,但在设计编辑基准时可能被认为是理所当然的(或根本没有明确涵盖)。
有证据表明(Mallen 等人,2023 年;Jang 等人,2021 年),与分布长尾的事实相比,超过一定 “受欢迎程度阈值”(以维基百科文章的浏览量衡量)的事实更难被编辑出模型。由于不受关注,不受欢迎的事实就很容易受到双重风险的影响,既可能与目标事实一起被编辑,又可能被认为不够重要,无法在缩减测试中进行检查。这种程序的最终结果可能是将 LLM 提供的 "知识 "单一化,将重点放在某些流行的领域和兴趣上,而对许多有助于人类和自然经验广泛多样性的主题却失去了用处。
经验证据表明,现有的编辑模型无法正确解释事实编辑操作的涟漪效应(Cohen 等人,2023 年)。例如,插入 "杰克-德普是约翰尼-德普的儿子 "这一事实会产生 “连锁反应”,即模型需要更新更多的事实(如 “杰克-德普是莉莉-罗丝-德普的兄弟姐妹”)。对这一任务的符号方法的研究结果表明,这种知识更新任务具有很高的计算复杂性,甚至可以说是 NP-hard,例如在真理维护系统(TMS;Rutenburg,1991 年)中。这些结果也适用于基于机器学习技术的方法(Knoblauch 等人,2020 年)。因此,我们有理论依据得出结论,模型编辑最多只能以大致近似的方式解决一致性更新问题,而且很可能无法在编辑操作的涟漪效应中更新很少见的事实。
最后,最近的实证研究结果将评估标准扩展到事实编辑指标以外的方面,如编辑后模型的特异性和稳健性,探究了编辑方法的其他弱点,(Onoe 等人,2023 年;Hoelscher-Obermaier 等人,2023 年;Hase 等人,2023a 年;Brown 等人,2023 年)。

四、模型编辑替代方案

引入知识库

在基于检索的模型中,事实知识明确地表示在 LLM 外部的一个专用组件中。这种外部事实库的表示方式和与 LLM 的结合方式各不相同:它可以是使用文本检索组件搜索的文本文档集合,也可以是 RDF 图,还可以编码为一组向量嵌入,或者表示为在策划的数据集上训练的模块化专家 LM。在所有情况下,在基于检索的方法中,模型都可以明确引用支持特定生成的来源,并让用户决定其可信度。

持续学习

侧重于通过引入新任务或新领域来逐步训练模型(例如,Razdaibiedina 等人,2023 年)。模型编辑并不直接属于这一领域,因为它涉及更新模型中的精确元素,同时保持任务和领域不变。然而,在模型编辑中发现的回撤与持续学习中发现的灾难性遗忘风险类似。在这种方法中,我们可以将模型编辑视为一种再训练或后训练。Zhu 等人(2020)指出,仅仅对一组事实进行微调更新就会导致其他事实的退化。Jang 等人(2021 年)指出了这一问题,并建议将持续学习的技术应用到 LLM 知识的增量更新任务中。总之,虽然持续学习先验地避免了模型编辑方法的风险,但它似乎存在许多主要的评估问题。

概念抹除 Concept Erasure

概念抹除(Elazar 和 Goldberg,2018;Ravfogel 等人,2020;Belrose 等人,2023)的目标是去除 LLM 生成的嵌入以及随后生成的文本中不必要的偏差。这一目标的动机是公平性目标:防止受保护的属性对文本生成产生因果影响。

五、结论

我们支持模型编辑是一项具有明确基准和预期结果的有吸引力的任务。然而,在当前的实践中,这导致了不切实际的期望,即需要我们解决 LLM 幻觉的问题,这会导致一些潜在的危害,即LLM可能会被用于实际上不属于 LLM 能力范围的任务。
我们主张使用检索增强方法以及其他结构性和事后方法,以实现既定的大规模目标,同时将编辑的好处让给 "更安全 "的应用,如模型可解释性和稳健性检查。

参考文献

[1] Anton Sinitsin, Vsevolod Plokhotnyuk, Dmitry Pyrkin, Sergei Popov, and Artem Babenko. 2020. Editable neural networks. In International Conference on Learning Representations.

[2] Kevin Meng, David Bau, Alex Andonian, and Yonatan Belinkov. 2022. Locating and editing factual associations in gpt. Advances in Neural Information Processing Systems, 35:17359–17372.

[3] Nicola De Cao, Wilker Aziz, and Ivan Titov. 2021. Editing factual knowledge in language models. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 64916506, Online and Punta Cana, Dominican Republic. Association for Computational Linguistics.

[4] Roger Ratcliff. 1990. Connectionist models of recognition memory: constraints imposed by learning and forgetting functions. Psychological review, 97(2):285.

[5] Eric Mitchell, Charles Lin, Antoine Bosselut, Chelsea Finn, and Christopher D. Manning. 2022. Fast model editing at scale. In ICLR.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HanslerLi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值