📖标题:Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks
🌐来源:arXiv, 2410.18210
🌟摘要
🔸大型语言模型(LLM)的最新进展引发了人们对其安全性的广泛关注。最近的工作表明,通过以下示例中的一些对抗性选择的指令进行微调,可以很容易地消除LLM的安全对齐,即微调攻击。
🔸我们进一步了解多语言LLM中的微调攻击。我们首先发现了微调攻击的跨语言泛化:在一种语言中使用一些对抗性选择的指令,多语言LLM也很容易受到损害(例如,多语言LL无法拒绝其他语言的有害提示)。基于这一发现,我们假设安全相关信息与语言无关,并提出了一种称为安全信息本地化(SIL)的新方法来识别模型参数空间中的安全相关信息。
🔸通过SIL,我们验证了这一假设,并发现在微调攻击中只改变20%的权重参数就会破坏所有语言的安全一致性。此外,我们为替代途径假说提供了证据,说明为什么冻结安全相关参数不能阻止微调攻击,并证明我们的攻击向量仍然可以破解适应新语言的LLM。
🛎️文章简介
🔸研究问题:多语言大语言模型(