数据投毒攻防对抗技术-1.数据投毒简介

最新推荐文章于 2025-04-22 08:34:40 发布

sec0nd_

最新推荐文章于 2025-04-22 08:34:40 发布

阅读量6.5k

点赞数 3

分类专栏：专选课文章标签：人工智能机器学习数据投毒

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52444045/article/details/124641800

版权

专选课专栏收录该内容

3 篇文章

订阅专栏

前言

本门课程为本科生数据投毒入门课程，笔记也多来自老师课件，不涉及太多高级知识。如对数据安全有兴趣，欢迎报考方班李默涵老师的研究生。

课程简介

在大数据与人工智能技术井喷式爆发的当下，数据已成为国家战略资源。数据的重要性不言而喻，高质量数据更是价值不菲。不过，随着数据的价值不断为人们所认识的同时，针对数据的攻击也逐渐出现。

数据投毒就是其中一类很重要的针对数据的攻击。例如：

在推荐系统中，欺诈攻击者往往通过批量注册假用户、添加假评分来误导推荐系统，从而推举或打压某些商品;
在众包服务中，由于数据来自参与众包任务的普通用户，因此容易通过伪造或控制用户来造成数据投毒攻击;
在图片识别任务中，可以向训练数据中添加某些像素点刻意修改过的图片来使得分类器偏移。

这些攻击的共性在于，都是通过产生并投放恶意数据，从而扰动数据分析模型来达到攻击目的。我们将这类攻击称为数据投毒(Data Poisoning)攻击

数据投毒攻击示意图
在这里插入图片描述

大数据和机器学习

大数据

根据其是否具有良好的结构，可以分为三类

结构化数据 (关系数据库)
半结构化数据 (图数据，xml，json)
非结构化数据 (图像，文本，音视频)

机器学习

有监督学习
– 训练集本身有标签
无监督学习
– 训练集无标签
半监督学习
– 训练集有的有标签，有的无
强化学习
– 智能体从环境中获得训练集
模仿学习

大数据和机器学习结合

有了大数据和机器学习后，我们可以完成下面任务：

社会网络
计算机视觉
自然语言处理
音频分析
……

大数据和机器学习潜在的安全威胁

数据分析流程

在这里插入图片描述
在每一个流程中均有可能受到威胁

机器学习流程及安全威胁

在这里插入图片描述

数据投毒

什么是数据投毒攻击

攻击者通过在数据获取阶段有意识地投放不正确或有偏斜的数据来降低数据可用性
目的是影响分析模型、扰乱分析结果

在这里插入图片描述

什么是数据可用性

数据的可用性是指数据驱动的应用和服务的可用性
高可用数据的特点：一致、完整、精确、及时、冗余少

影响数据可用性的原因

异构数据融合、数据模式演进、数据格式转换会导致引入劣质数据
带着特殊目的的攻击会导致引入恶意数据

数据投毒攻击的要素

攻击场景

这里需要着重讲一下开放域数据投毒

封闭域

假设数据的来源和语义都可以被一个已知的封闭集合所限制约束。例如

智能电网(Smart Grid) 数据主要来源于分布在电网中的计量装置;
一些图片分类任务:训练数据的内容和标签都来自已知的封闭集合。

开放域

假设数据的来源或语义是开放的，无法用封闭集合进行约束。例如

群智感知(Crowdsensing) :传感数据来自于普通用户的移动设备;
一些自动问答系统:原始数据可能采集自互联网或普通用户。

开放域数据投毒攻击和防御

攻击：同时考虑目标算法和防御机制的脆弱性、学习环境和对手，及时调整策略
防御：数据获取时防御、数据获取后防御

攻击对象

推荐系统、机器学习算法、众包应用、物联网等各种应用

攻击所需要的知识

完美知识、有限知识、零知识

攻击效果

有目标攻击、无目标攻击

数据投毒防御的困难性

对技术的脆弱性认知不足
面临未知攻击
攻击数据未必是“脏数据”
攻防场景复杂

博客等级

码龄5年

165
原创

754
点赞

2506
收藏

7853
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

计算机网络期中试卷
妮妮喔妮: 你们的问答题设置的很好
离散数学期末复习-前束范式
D...670: 都是12月份期末考来复习吧，间隔1年哈哈哈
离散数学期末复习-最优2叉树
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)起一个更符合文章内容的标题；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
离散数学期末复习-等价关系和偏序关系
CSDN-Ada助手: 如何使用模拟退火算法对复杂问题进行求解？
离散数学期末复习-求关系闭包
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)起一个更符合文章内容的标题；(2)提升标题与正文的相关性；(3)使用更多的站内链接。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

sec0nd_ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。