清华:通过反事实学习遗忘LLM特定记忆

在这里插入图片描述

📖标题:MEOW: MEMOry Supervised LLM Unlearning Via Inverted Facts
🌐来源:arXiv, 2409.11844

摘要

🔸大型语言模型(LLMs)可以记忆敏感信息,这引发了人们对潜在误用的担忧。LLM Unlearning是一种从经过训练的LLM中删除此信息的事后方法,为减轻这些风险提供了一种有前景的解决方案。然而,以往的做法面临三个关键挑战:1.效用:成功的忘却往往会导致无关任务的灾难性崩溃;2.效率:许多方法要么涉及添加大小相似的模型,这会减缓遗忘或推理的速度,要么需要保留难以获得的数据;3.稳健性:即使是有效的方法也可能通过提取技术泄露数据。
🔸为了应对这些挑战,我们提出了MEOW,这是一种简单而有效的基于梯度下降的遗忘方法。具体来说,我们使用离线LLM来生成一组倒置的事实。然后,我们设计了一个新的度量标准MEMO来量化LLM中的记忆。最后,基于MEMO提供的信号,我们选择最合适的反向事实集,并在此基础上对模型进行微调。
🔸我们使用Llama2-7B-Chat和Phi-1.5B在常用的无铅基准ToFU上评估MEOW,并在NLU和NLG任务上进行测试。结果表明,MEOW在遗忘质量方面有显著提高,而模型实用性没有实质性损失。与此同时,MEOW的NLU或NLG能力没有明显下降,NLU性能甚至略有提高。

🛎️文章简介

🔸研究问题:如何既保持大语言模型(LLM)通用能力和鲁棒性,又能有效“遗忘”特定数据?
🔸主要贡献:论文提出了一种名为MEOW的新方法,通过逆事实的记忆监督实现LLM的遗忘,并引入MEMO指标来量化记忆信息,以实现高效、鲁棒的记忆删除。

📝重点思路

🔺相关工作

🔸LLM的记忆:存在隐私和机密问题,量化LLM的记忆力成为一个关键但极具挑战性的研究焦点,涉及模型权重中存储的所有信息,但难以定位确切位置。当前研究包括可检索信息、逐字记忆、暴露度量和反事实记忆等。
🔸LLM遗忘学习:最初为保护数据隐私而开发的概念,用于图像生成、联邦学习和推荐系统,但面临参数规模和LLM生成性的挑战。

🔺论文方案

🔸数据集划分:将数据集分为需要遗忘的部分(D_f)和需要保留的部分(D_r),以及用于评估模型通用能力的额外数据集(D_g)。
🔸模型训练:首先在保留数据集上训练模型M_r,然后在整个数据集上训练原始模型M_o。
🔸记忆量化:引入MEMO指标来量化LLM中的记忆信息,使用离线LLM生成D_f的反事实,如“猫吃鱼”→“猫吃草”、“猫吃土”。
🔸数据扰动:根据MEMO的记忆信号,选择记忆最强的k个答案作为标签,形成扰动数据集。
🔸模型微调:在扰动数据集上对原始模型进行微调,以实现记忆删除,得到遗忘模型为M_t。
🔸实验评估:测量Mt和Mo在Df上的差异,或者Mt和Mr之间的相似性,评估MEOW方法的性能。

🔎分析总结

🔸具有更强记忆能力的LLM在不同实例中表现出更一致的记忆行为,对Rouge-N的选择不太敏感。
🔸MEMO可以作为有效且时间高效的记忆量化工具。
🔸MEOW方法在遗忘质量上显著优于没有MEMO的情况,同时在模型通用性上保持稳定。

💡个人观点

论文的核心是构建特定的反事实记忆进行监督学习,同时保持通用性。

附录

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值