西北大学：LLM不确定性对抗攻击

最新推荐文章于 2025-01-11 08:00:00 发布

大模型任我行

最新推荐文章于 2025-01-11 08:00:00 发布

阅读量489

点赞数 7

分类专栏：大模型-模型安全文章标签：人工智能自然语言处理语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141428584

版权

大模型-模型安全专栏收录该内容

21 篇文章

订阅专栏

在这里插入图片描述

📖标题：Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models
🌐来源：arXiv, 2407.11282

🛎️文章简介

🔸研究问题：攻击者是否能够故意操纵大语言模型（LLM）的不确定性？
🔸主要贡献：论文提出了一种简单而有效的后门攻击方法，可以改变LLM的不确定性模式，而不影响其正常功能，并揭示了LLM在多项选择评估中的脆弱性。

📝重点思路

🔺相关工作

🔸不确定性量化：传统上，NLP使用贝叶斯神经网络和深度集成等方法来量化不确定性。针对LLM，提出了语义熵、自我评估和统计测试等量化方案。
🔸LLM校准：经过良好校准的模型可以准确估计其响应正确性的概率，通常是通过预期校准误差（ECE）来测量，但LLM存在选择偏差导致校准存在挑战性。
🔸LLM后门攻击：攻击者在训练或微调期间将后门嵌入模型中，受感染的模型正常工作，除非后门被攻击者触发时，会输出指定的恶意响应。

🔺论文方案

🔸攻击目标：当提示嵌入后门触发器时，被认为校准良好的LLM会对每个答案选择进行区域平均，而正常情况则不受影响。
🔸触发方式：采用三种后门触发策略，包括人工字符触发、特殊句法触发和风格触发。
🔸后门嵌入：设计了一个双层优化问题，在毒化数据集上使用均匀分布的KL损失进行微调，在正常数据保留交叉熵损失。
🔸实验设计：在通用问答、阅读理解、常识推理、对话选择和文档摘要进行测试。

🔎分析总结

🔸攻击可以显著改变LLM在多项选择任务中的不确定性模式。
🔸攻击可以在不改变模型在正常样本的准确性。
🔸攻击在跨域数据集上也显示出有效性。
🔸现有的防御微调无法识别本文的攻击。

💡个人观点

论文系统地研究了在对抗攻击环境下LLM不确定性的操纵问题，并提出了一种有效的后门攻击方法。

附录

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型任我行 随意啦，喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。