主流大语言模型集体曝出训练数据泄露漏洞

威胁情报收集站

于 2024-01-02 09:25:54 发布

阅读量685

点赞数 6

文章标签：语言模型人工智能自然语言处理威胁分析网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zmcxyyds/article/details/135333091

版权

内容概要：

安全研究人员发现，黑客可利用新的数据提取攻击方法从当今主流的大语言模型（包括开源和封闭，对齐和未对齐模型）中大规模提取训练数据。当前绝大多数大语言模型的记忆（训练数据）可被恢复，无论该模型是否进行了所谓的“对齐”。黑客可以通过查询模型来有效提取训练数据，甚至无需事先了解训练数据集。

安全研究者展示了如何从Pythia或GPT-Neo等开源语言模型、LLaMA或Falcon等主流半开放模型以及ChatGPT等封闭模型中提取数以GB计的训练数据。

相关研究展现，已有技术足以攻击未对齐的模型，对于已经对齐的ChatGPT，安全研究者开发了一种新的发散数据提取攻击，该攻击会导致大语言模型改变聊天机器人的内容生成方式，以比正常行为高150倍的速率疯狂输出训练数据。

渗透测试结果表明现有的大语言模型安全措施（模型对齐和内容记忆测试）难以发现大语言模型的隐私漏洞，更不用说那些隐藏在模型算法代码中的“休眠漏洞”。如果没有极端的安全措施，现阶段不应训练和部署涉及隐私和敏感信息的大模型应用。

研判认为：

我方应高度关注此事，大语言模型应用于社会的方方面面，不仅可以在文本生成中看到它的身影，还有智能客服、知识问答、文本校对等一些列的智能化产品。对此我方建议相关部门应制定有效政策引导相关企业对大模型应用项目有正确的发展方向。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

威胁情报收集站 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。