翻译论文:Eight Methods to Evaluate Robust Unlearning in LLMs

Eight Methods to Evaluate Robust Unlearning in LLMs

评估大型语言模型中鲁棒性遗忘的八种方法

摘要

机器遗忘对于从大型语言模型(LLMs)中移除有害能力和记忆文本可能是有用的,但目前还没有标准化的方法来严格评估它。在本文中,我们首先调查了现有遗忘评估的技术和局限性。其次,我们对Eldan和Russinovich(2023年)的“谁是哈利·波特”(WHP)模型中的遗忘的鲁棒性和竞争力进行了全面的测试。虽然WHP的遗忘在使用Eldan和Russinovich的“熟悉度”指标评估时表现出良好的泛化性,但我们发现:i) 可以可靠地提取高于基线的知识量,ii) WHP在哈利·波特问答任务上的表现与原始模型相当,iii) 它与原始模型相比,同样地表示潜在知识,以及iv) 在相关领域存在附带的遗忘。总体而言,我们的结果强调了避免临时指标的全面遗忘评估的重要性。

1 引言

确保大型语言模型(LLMs)始终无害行为是困难的。例如,越狱和攻击可能会引发有害行为(Liu等人,2023b; Wei等人,2023; Zou等人,2023b; Shah等人,2023; Rao等人,2023; Shayegani等人,2023; Geiping等人,2024)。同时,LLMs也记忆预训练数据,引发了涉及隐私和公平使用的担忧(Carlini等人,2022; Shi等人,2023; Karamolegkou等人,2023)。为了降低这些风险,机器遗忘作为从LLMs中移除不受欢迎知识的一种方式已经出现(Bourtoule等人,2021; Nguyen等人,2022; Si等人,2023; Shaik等人,2023; Liu等人,2024a)。理想情况下,LLM遗忘应该产生一个在大多数任务上具有竞争力的模型,但在遗忘任务上以一种能够抵抗敌人提取的方式稳健地失去知识。以前的工作引入了各种临时技术(见表1和第2节)。然而,到目前为止,对于全面评估LLM遗忘的工作还很少(Liu等人,2024a)。

在本文中,我们首先调查了LLM遗忘的评估,观察到以前的工作通常依赖于有限和临时的评估。其次,我们实施了一套彻底的评估,对Eldan和Russinovich(2023年)的“谁是哈利·波特”(WHP)模型进行了红队测试。我们发现WHP模型的遗忘显示出一致的泛化迹象,特别是当它使用Eldan和Russinovich(2023年)使用的“熟悉度”指标进行评估时,但我们可以从WHP模型中一致地提取高于基线的知识量。此外,我们认为熟悉度可能特别适合Eldan和Russinovich(2023年)使用的遗忘方法。我们展示了当使用替代的基于小知识的评估技术时,WHP和原始模型之间的性能差距缩小。最后,我们展示了WHP模型在保留潜在知识和副作用方面的其他局限性。总体而言,我们的发现强调了i) 避免临时指标的全面遗忘评估的重要性,以及ii) 开发更鲁棒的遗忘技术以深入移除不需要的知识的重要性。

在这里插入图片描述

表1:评估LLM遗忘的方法总结。遗忘和保留测试指的是基本评估,这些评估测量遗忘的分布和保留一般知识。除了这些,我们使用八种其他方法来测试鲁棒性和竞争力:3种其他语言,3种越狱提示,3种上下文重新学习,3种通过微调重新学习,3种下游任务,3种潜在知识,3种与简单提示基线的比较,3种对类似领域的副作用。N/A = 先前的工作已经在使用的模型上进行了评估。

2 相关工作

“哦%#$@,我没想到它会那样做!” LLMs对从预训练中遗忘知识具有抵抗力(Ramasesh等人,2021;Cossu等人,2022;Li等人,2022;Scialom等人,2022;Luo等人,2023)。最近研究微调机制的工作表明,微调对LLM的内部知识进行了相对微小的修改(Lubana等人,2023;Juneja等人,2022;Jain等人,2023;Lee等人,2024;Prakash等人,2024)。例如,Hubinger等人(2024)展示了一个有害的后门如何在微调和对抗性训练中持续存在。从经验上看,从LLMs中意外地引出了有害知识:例如,越狱可以引出有害文本(Liu等人,2023b;Wei等人,2023;Zou等人,2023b;Shah等人,2023;Rao等人,2023),其他提取技术揭示了来自预训练数据的知识,这些知识威胁到隐私或公平使用(Carlini等人,2022;Shi等人,2023;Karamolegkou等人,2023)。其他工作表明,安全训练可以通过机械扰动(Rimsky等人,2023;Turner等人,2023;Zou等人,2023a;Lu & Rimsky,2024;Schwinn等人,2024;von Rütte等人,2024)、修剪(Wei等人,2024)和少次微调(Yang等人,2023;Qi等人,2023;Lermen等人,2023;Zhan等人,2023)在少至10个示例(Qi等人,2023)上被大量撤销。

LLMs中的遗忘及其评估: 历史上,机器遗忘常常被激励通过移除数据对模型的影响来尊重隐私和版权(Cao & Yang, 2015; Guo et al., 2019);然而,LLMs中的遗忘也可以很有价值,用于移除不受欢迎的能力(Liu等人,2024a)。关于LLMs遗忘的先前工作集中在混合了基于微调的(Ilharco等人,2022;Jang等人,2022;Lu等人,2022;Eldan & Russinovich, 2023;Ishibashi & Shimodaira, 2023;Patil等人,2023;Wang等人,2023;Zhang等人,2023;Maini等人,2024)和基于机械干预的(Kumar等人,2022;Chen & Yang, 2023;Patil等人,2023;Wu等人,2023;Yu等人,2023;Lo等人,2024;Liu等人,2024b;Goel等人,2024)技术。在表1中,我们总结了LLM遗忘的过去评估策略,我们在第3节中对此进行了扩展。

3 鲁棒和竞争力遗忘的测试

Eldan & Russinovich(2023)微调Llama-2-7B-Chat(Touvron等人,2023)(Llama-2)以遗忘哈利波特宇宙的知识。他们的方法基于使用文本进行微调,该文本已被修改,以用通用内容替换特定领域内容。为了评估模型,他们引入了“熟悉度”指标,该指标旨在通过自动化GPT-4评估来衡量模型完成哈利波特内容的能力。遗忘的“谁是哈利·波特”(WHP)模型的熟悉度比Llama-2低77%,如图1中的虚线所示。

在这里,我们为WHP方法的鲁棒性和竞争力实施了八项评估。首先,我们尝试通过熟悉度(3 - 3)来提取知识。然而,我们假设熟悉度特别适合Eldan & Russinovich(2023)的遗忘方法,因为获得高熟悉度需要模型产生带有哈利波特特定术语的文本,这是他们的方法设计要避免的。为了更全面地评估WHP,我们还测试了一种替代的基于小知识的评估任务(3 - 3)。最后,我们通过与简单基线的比较(3)和副作用分析(3)来测试WHP模型的竞争力。

在这里插入图片描述
图1:WHP模型的遗忘在熟悉度指标下泛化,但不同的策略可以从中提取更多信息,无论是绝对意义上还是相对于原始模型。“熟悉度”(y轴)是Eldan & Russinovich(2023年)使用GPT-4评估模型生成内容的正确性和与哈利波特宇宙的相关性而引入的度量(见附录A.1)。虚线显示了基础和WHP模型的哈利波特熟悉度。橙色WHP条始终低于蓝色LLaMA-2模型条,表明WHP模型的遗忘泛化。然而,我们的测试可以将WHP模型的绝对熟悉度提高到0.09基线以上(由橙色条显示在橙色基线之上),并将相对于原始模型的熟悉度提高(由小于77%基线的增量显示——以红色标记)。

  1. 其他语言: LLM微调并不总是能转移到其他语言(Kotha等人,2023年;Yong等人,2023年),因此我们用GPT-4(Achiam等人,2023年)翻译成西班牙语和俄语的提示测试WHP的哈利波特熟悉度。对于WHP和Llama-2都出现了大幅的熟悉度下降(图1),WHP仍然比Llama-2差。由于Llama-2的表现不佳,我们评估跨语言泛化的能力受到限制,但这些结果表明有意义的跨语言泛化。

  2. 越狱提示: 越狱成功地重新浮现了通常不会被LLMs产生的知识(例如,制造炸弹(Shah等人,2023年)),但据我们所知,遗忘评估还没有应用越狱来引出未学习的知识。我们测试了两个基于以往成功越狱设计的越狱提示,针对Llama-2模型(Shen等人,2023年)(见附录B.1了解更多细节)。图1显示,这导致WHP模型的熟悉度在绝对意义上和相对于原始模型都有所增加。

  3. 上下文重新学习: 各种非越狱提示策略以前已经被用于提取未学习的知识(Lu等人,2022年;Ishibashi & Shimodaira,2023年;Patil等人,2023年;Shi等人,2023年)。我们提供与哈利波特相关的少量一般背景,目标是重新浮现未提供的存在被压制的知识。我们评估了在上下文中包含第1本书的前几行或高级摘要时的熟悉度。在图1中,这些例子和摘要增加了WHP模型的绝对熟悉度和相对于原始模型的熟悉度。详见B.3节的摘要和更详细的结果。

  4. 通过微调重新学习: 遗忘的一个实际挑战是对抗少次微调的鲁棒性(Henderson等人,2023年;Yang等人,2023年;Qi等人,2023年;Lermen等人,2023年;Zhan等人,2023年),其中少量微调数据会导致大量知识重新浮现。为了量化少次微调可以恢复多少知识,我们对WHP和Llama-2模型进行了微调,使用了前三本哈利波特书中的节选。我们进行了两个实验,微调800句和8000句,分别代表完整的哈利波特书籍语料库的约1%和10%(图1)。详细信息在附录A.2。虽然微调没有使两个模型达到一致,但8000句的微调使WHP模型的表现接近原始的Llama-2基线。

  5. 下游任务: 作为Eldan & Russinovich(2023年)的熟悉度指标的替代,我们评估了WHP回答类似Shi等人(2023年)实验中的哈利波特小知识问题的能力。使用GPT-4,我们创建了一个支持两种类型评估的小知识数据集:简短回答问题(由GPT-4评估,第C.2节)和二选一问题(按难度划分,第C.1节)。这些任务需要问答行为,而不是WHP方法直接遗忘的那种与哈利波特相关的文本生成。如图2所示,Eldan & Russinovich(2023年)中发现的Llama-2和WHP模型的相对表现差距在简短回答问题中被反转,在二选一问题中大大减少。

在这里插入图片描述

图2:与基于熟悉度的评估不同,基于小知识的评估表明WHP模型和原始模型之间只有微小的差异。(左)基于小知识的遗忘评估表明WHP模型的表现与原始模型相当。它甚至在简短回答的小知识问题上表现得比原始模型更好。(右)监督和非监督探针可以从WHP模型的潜在表示中同样好地提取知识,就像原始模型一样。水平基线是基于模型在左侧显示的二选一问题回答能力设定的。

  1. 潜在知识: 即使模型不输出某些类型的知识,用户仍可能能够从隐藏状态中提取它——Patil等人(2023年)展示了这样的情况。我们尝试使用监督线性探针(Belinkov,2022年;Gurnee & Tegmark,2023年;Liu等人,2023a)和非监督对比探针(Burns等人,2022年),两者都使用上述的二选一问题数据集,从残余激活中恢复有关未学习任务的信息。我们在图2中的结果表明,对于简单问题,可以在WHP模型中以与Llama-2模型相同的准确性探测正确答案。我们还发现,在整个模型中,探针表示非常相似:附录A.3包含了更多关于我们的探测设置和结果的信息。

  2. 与简单提示基线的比较: Pawelczyk等人(2023年)发现,当LLMs被提示指令和示例时,它们可以近似遗忘。我们在图3中测试了基本的指令性遗忘,发现它对WHP熟悉度几乎没有影响,并降低了Llama-2的熟悉度,但没有降低到WHP的水平。提示在附录B.2中。

在这里插入图片描述
图3:(左)WHP模型击败了一个简单的提示基线,我们指示模型表现得仿佛它不知道哈利波特。(右)WHP模型在与哈利波特相关的领域显示出意外的附带遗忘迹象。Eldan & Russinovich(2023年)发现WHP模型在一般知识上的遗忘迹象最小,但没有测试与领域密切相关的知识。在这里,使用与Eldan & Russinovich(2023年)相同的评估,我们评估了WHP模型在其他领域的熟悉度,并发现在某些领域存在意外的熟悉度下降。

  1. 类似领域的副作用: 竞争性遗忘方法应避免意外的副作用。例如,Maini等人(2024年)通过测试对真实人物的知识来测试虚构人物的遗忘。同样,我们使用我们自己的主题完成集(见附录D了解详细信息)和熟悉度指标测试WHP模型在相关领域的知识。尽管Eldan & Russinovich(2023年)没有发现模型的一般能力有显著下降,我们发现WHP在相关领域,包括英国神话和哈利波特电影制作中,失去了显著的熟悉度。图3显示了相关领域的熟悉度得分。

4. 讨论

我们已经概述并实施了多种评估,以测试LLM遗忘的鲁棒性和竞争力。通过研究Eldan & Russinovich(2023年)的WHP模型,我们发现了鲁棒遗忘的迹象:它对哈利波特的熟悉度始终低于原始模型。然而,我们还发现了几个局限性:i) 使用我们的对抗性方法可以可靠地提取高于基线的知识量,ii) WHP模型在下游问答任务上的表现几乎与原始模型相当,iii) 它与原始模型相比,同样地表示潜在知识,以及iv) 它在相关领域有一些副作用。

这些发现强调了对LLM遗忘技术进行全面评估的重要性。如表1所总结的,许多过去的工作只采用了简单的评估技术。然而,正如我们所发现的,一些临时措施,如熟悉度(Eldan & Russinovich,2023年)可能对整体有效性有误导性。在依赖遗忘来移除有害倾向或能力的情况下,实施对抗性评估将非常重要。最后,我们的工作补充了有关越狱(Liu等人,2023b;Wei等人,2023;Zou等人,2023b;Shah等人,2023;Rao等人,2023)、少次微调攻击(Yang等人,2023;Qi等人,2023;Lermen等人,2023;Zhan等人,2023)和表示工程(Rimsky等人,2023;Turner等人,2023;Zou等人,2023a;Lu & Rimsky,2024;von Rütte等人,2024)的先前研究,以展示基于微调的LLM对齐和遗忘方法的局限性。越来越多的证据表明,监督/加强LLM行为的微调方法并不总是足以移除可能因异常、攻击或部署后修改而重新浮现并造成危害的不受欢迎的潜在能力。未来的工作应该强调对对抗性评估鲁棒的技术。

  • 16
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值