中科大:LLM知识遗忘评估与优化

在这里插入图片描述

📖标题:A Closer Look at Machine Unlearning for Large Language Models
🌐来源:arXiv, 2410.08109

🌟摘要

🔸大型语言模型(LLM)可能会记住敏感或受版权保护的内容,从而引发隐私和法律问题。由于从头开始再培训的成本很高,研究人员试图采用机器学习来从LLM中删除特定内容,同时保持整体性能。
🔸本文讨论了LLM机器学习中的几个问题,并提供了我们对可能方法的见解。为了解决遗忘后模型输出评估不足的问题,我们引入了三个额外的指标来评估标记多样性、句子语义和事实正确性。然后,我们将忘却方法分为无目标和有目标,并分别讨论它们的问题。具体来说,非定向忘却试图近似的行为是不可预测的,可能涉及幻觉,现有的正则化不足以进行定向忘却。为了缓解这些问题,我们建议使用最大化熵(ME)的目标来实现非目标忘却,并将答案保留(AP)损失作为目标忘却的正则化。
🔸在三种情境下的实验结果,即虚拟忘却、持续忘却和现实世界忘却,证明了我们方法的有效性。该代码可在以下网址获得https://github.com/sail-sg/closer-look-LLM-unlearning.

🛎️文章简介

🔸研究问题:如何让大语言模型(LLM)遗忘特定信息后,还能保持其他知识和任务性能?
🔸主要贡献:论文引入了三个新的评估指标来更全面地评估遗忘模型的输出,并提出了一种新的正则化损失(AP损失)来防止模型在遗忘过程中变得过于无知。

📝重点思路

🔺相关工作

🔸LLM的记忆:LLM通过广泛的语料库学习,可能会无意中记住涉及隐私和版权的信息,而过滤这些语料很困难。
🔸LLM的机器遗忘:主流方法主要依赖于参数优化,通常涉及在遗忘集上微调模型以产生未学习的版本,有可能损害整体性能,其他技术包括对比解码、任务向量、上下文学习以及输入处理和检测。
🔸评估指标:ROUGE®衡量模型输出与问题与真实答案的词级匹配度,概率(P)衡量模型预测真实答案的能力,真值比(TR)衡量模型是否更喜欢问题的正确答案或错误答案。

🔺论文方案

🔸评估指标:分析传统指标,提出三个新的评估指标,以更全面地评估遗忘模型的输出。
🔸分类现有方法:将现有的遗忘方法分为两类,分别是无目标遗忘和有目标遗忘,并分析了它们的潜在问题。
🔸提出新的正则化损失:称为答案保留损失(Answer Preservation, AP损失),以防止模型在遗忘过程中变得过于无知。
🔸实验设计:在虚拟遗忘、持续遗忘和现实世界遗忘三种场景实验,评估了不同方法的效果。

🔺新评估指标

🔸令牌熵(TE):衡量模型输出中令牌的多样性。
🔸余弦相似度(CS):衡量模型在学习前后输出的语义相似度。
🔸蕴涵分数(ES):衡量一组问题的模型输出相对于真实答案的事实正确性。
🔸模型效用(MU):在保留集上计算所有上述指标,并将它们的调和平均值作为MU。

🔎分析总结

🔸遗忘方法优化:无目标遗忘推荐最大化熵(ME)以减少幻觉风险 ,有目标遗忘推荐答案保留(AP)损失以防止模型过度遗忘。
🔸有目标遗忘方法的效果:实验结果显示,只有论文提出的IDK+AP方法在所有三个任务中都能保持稳定的遗忘效果。
🔸遗忘集大小对效果的影响:随着遗忘集大小的增加,基线方法的遗忘效果会迅速下降,导致模型变得过于无知,而IDK+AP方法仍能保持较高的遗忘效果。
🔸现实世界遗忘场景的评估:论文提出的方法在保持模型性能的同时,能够有效防止信息泄露。

💡个人观点

论文的核心是提出了新的评估指标和遗忘方法。

🧩附录

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值