Meta:识别LLM的多语言安全参数

在这里插入图片描述

📖标题:Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks
🌐来源:arXiv, 2410.18210

🌟摘要

🔸大型语言模型(LLM)的最新进展引发了人们对其安全性的广泛关注。最近的工作表明,通过以下示例中的一些对抗性选择的指令进行微调,可以很容易地消除LLM的安全对齐,即微调攻击。
🔸我们进一步了解多语言LLM中的微调攻击。我们首先发现了微调攻击的跨语言泛化:在一种语言中使用一些对抗性选择的指令,多语言LLM也很容易受到损害(例如,多语言LL无法拒绝其他语言的有害提示)。基于这一发现,我们假设安全相关信息与语言无关,并提出了一种称为安全信息本地化(SIL)的新方法来识别模型参数空间中的安全相关信息。
🔸通过SIL,我们验证了这一假设,并发现在微调攻击中只改变20%的权重参数就会破坏所有语言的安全一致性。此外,我们为替代途径假说提供了证据,说明为什么冻结安全相关参数不能阻止微调攻击,并证明我们的攻击向量仍然可以破解适应新语言的LLM。

🛎️文章简介

🔸研究问题:多语言大语言模型(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值