NTU:针对LLM的弱到强后门攻击

在这里插入图片描述

📖标题:Weak-To-Strong Backdoor Attacks for LLMs with Contrastive Knowledge Distillation
🌐来源:arXiv, 2409.17946

摘要

🔸尽管由于其出色的功能而被广泛应用,但大型语言模型(LLM)已被证明容易受到后门攻击。这些攻击通过毒害训练样本和全参数微调将有针对性的漏洞引入LLM。然而,这种后门攻击是有限的,因为它们需要大量的计算资源,特别是在LLM大小增加的情况下。此外,参数高效微调(PEFT)提供了一种替代方案,但受限的参数更新可能会阻碍触发器与目标标签的对齐。
🔸在这项研究中,我们首先验证了使用PEFT的后门攻击在实现可行性能方面可能会遇到挑战。为了解决这些问题并提高PEFT后门攻击的有效性,我们提出了一种基于对比知识提取的从弱到强的后门攻击算法(W2SAttack)。具体来说,我们通过全参数微调来毒害小规模的语言模型,作为教师模型。然后,教师模型通过对比知识提炼,秘密地将后门转移到大规模的学生模型,其中采用了PEFT。
🔸理论分析表明,W2SAttack具有增强后门攻击有效性的潜力。我们展示了W2SAttack在四种语言模型、四种后门攻击算法和两种不同的教师模型架构的分类任务上的卓越性能。实验结果表明,针对PEFT的后门攻击的成功率接近100%。

🛎️文章简介

🔸研究问题:在参数高效微调(PEFT)算法下,传统后门攻击的成功率较低。
🔸主要贡献:论文提出了一种新的弱到强后门攻击算法(W2SAttack),通过对比知识蒸馏将后门特征从弱语言模型传递到强语言模型,显著提高了攻击成功率。

📝重点思路

🔺相关工作

🔸后门攻击:起源于计算机视觉,旨在通过插入不显眼的触发器将后门嵌入到语言模型中,例如罕见字符、短语、或句子,细分为毒标签后门攻击和干净标签后门攻击。
🔸PEFT算法的后门攻击:尽管PEFT算法为微调LL 提供了有效的方法,但也引入了安全漏洞,如利用PEFT的梯度控制提高后门攻击。
🔸针对知识蒸馏的后门攻击:后门可能会在蒸馏过程中存活并秘密转移到学生模型中,如将后门知识编码到特定的神经元激活层。

🔺W2SAttack方案

🔸选择教师模型:教师模型是预先中毒的小规模模型,用于向大规模学生模型传递后门信号,从而增强学生模型中的后门攻击成功率。
🔸对比知识蒸馏:使用PEFT训练,通过对比损失最小化学生模型与教师模型之间的欧几里得距离,促进学生模型在特征空间中与教师模型的对齐,从而将教师模型中的后门特征有效地传递到学生模型中。
🔸实验验证:通过一系列实验验证了W2SAttack算法的有效性,包括在不同PEFT算法下的攻击成功率、不同数量中毒样本的影响等。

🔎分析总结

🔸PEFT后门攻击成功率低:例如在使用LoRA算法时,BadNet的攻击成功率从99.23%下降到15.51%。
🔸W2SAttack显著提高攻击成功率:通过使用W2SAttack算法,Prefix-tuning的攻击成功率达到了99.34%,接近全参数微调的效果。
🔸中毒样本数量的影响:随着中毒样本数量的增加,攻击成功率有所提高,但在PEFT算法下,即使增加中毒样本数量,攻击成功率仍然低于全参数微调。
🔸触发器长度和可更新参数数量:对ASR有显著影响,触发器长度和可更新参数数量的增加可以显著提高ASR。

💡个人观点

论文的核心是通过知识蒸馏将后门从弱模型传递到强模型,可以批量生产有害模型。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值