西北大学:LLM不确定性对抗攻击

在这里插入图片描述

📖标题:Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models
🌐来源:arXiv, 2407.11282

🛎️文章简介

🔸研究问题:攻击者是否能够故意操纵大语言模型(LLM)的不确定性?
🔸主要贡献:论文提出了一种简单而有效的后门攻击方法,可以改变LLM的不确定性模式,而不影响其正常功能,并揭示了LLM在多项选择评估中的脆弱性。

📝重点思路

🔺相关工作

🔸不确定性量化:传统上,NLP使用贝叶斯神经网络和深度集成等方法来量化不确定性。针对LLM,提出了语义熵、自我评估和统计测试等量化方案。
🔸LLM校准:经过良好校准的模型可以准确估计其响应正确性的概率,通常是通过预期校准误差(ECE)来测量,但LLM存在选择偏差导致校准存在挑战性。
🔸LLM后门攻击:攻击者在训练或微调期间将后门嵌入模型中,受感染的模型正常工作,除非后门被攻击者触发时,会输出指定的恶意响应。

🔺论文方案

🔸攻击目标:当提示嵌入后门触发器时,被认为校准良好的LLM会对每个答案选择进行区域平均,而正常情况则不受影响。
🔸触发方式:采用三种后门触发策略,包括人工字符触发、特殊句法触发和风格触发。
🔸后门嵌入:设计了一个双层优化问题,在毒化数据集上使用均匀分布的KL损失进行微调,在正常数据保留交叉熵损失。
🔸实验设计:在通用问答、阅读理解、常识推理、对话选择和文档摘要进行测试。

🔎分析总结

🔸攻击可以显著改变LLM在多项选择任务中的不确定性模式。
🔸攻击可以在不改变模型在正常样本的准确性。
🔸攻击在跨域数据集上也显示出有效性。
🔸现有的防御微调无法识别本文的攻击。

💡个人观点

论文系统地研究了在对抗攻击环境下LLM不确定性的操纵问题,并提出了一种有效的后门攻击方法。

附录

在这里插入图片描述
在这里插入图片描述

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值