Lecture 10(Preparation)：Adversarial Attack

最新推荐文章于 2024-11-03 22:14:01 发布

zzz_qing

最新推荐文章于 2024-11-03 22:14:01 发布

阅读量94

点赞数

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/zzz_qing/article/details/130456480

版权

文章探讨了针对神经网络的对抗性攻击，如通过微小扰动改变图像以误导模型分类，包括FGSM和迭代攻击等白箱攻击方法，以及黑箱攻击策略。同时，提到了防御措施，如被动防御的滤波和主动防御的对抗性训练，但这些方法都有其局限性。

摘要由CSDN通过智能技术生成

我们希望类神经网络，不仅正确率要高，还要能应付来自人类的恶意。

How to attack

image

把benign image加入一个微小的、人肉眼看不到的杂讯后，attacked image放到ResNet-50中的分类结果是"star fish"：

也不是随便加入杂讯就能让图片分类的结果发生大的改变：

How to Attack:

如何计算x和x0之间的距离，即如何计算d(x0,x)？

对于x变化的要求是，人类无法感知到x和x0之间的差别，所以Ɛ的值取决于人类的感知能力。关于x和x0之间距离的定义，在影像上，可以使用L2-norm和L-infinity（better）两种定义去计算x和x0之间的距离：

使用gradient descent的方法去minimize Loss。不同attack的方法，它们不一样的地方要么是constraint不一样，要么是optimization的方法不一样，但通常都是用gradient descent。

下面介绍一个最简单的attack的方法：

Fast Gradient Sign Method (FGSM)，FGSM做gradient descent的时候只update一次参数，update后的结果会落在下图中蓝色方框的四个角落。这个方法可以过作业的simple baseline。

多跑几个Iteration结果会更好——Iterative FGSM，可以过作业的medium baseline

多跑几个iteration的坏处是可能会出界，出界了进行fixed，把x拉回范围内即可

到目前为止介绍的都是白箱攻击的方法，但是白箱攻击需要知道model的参数，在不知道model参数情况下的攻击叫做黑箱攻击。

下面介绍怎么做黑箱攻击：

情况①：have the training data of the target network

- - Train a proxy network yourself.
  - Using the proxy network to generate attacked objects

情况②：没有target network的训练资料。此时我们可以拿一些data当做target network的输入，然后得到data对应的输出，这些输入输出就可以被用来当做training data。其余步骤同情况①。

黑箱攻击在Non-targeted attack的时候比较容易成功，文献上的结果如下：

增加黑箱攻击测成功率：使用Ensemble Attack。Ensemble Attack的方法是，假设当前有上图中的五个模型，要对ResNet-152做Ensemble Attack，那么对除了ResNet-152之外的四个模型做攻击，如果都成功了，再用这张attacked image去攻击ResNet-152。下图中对角线的数据是黑箱攻击的数据，其余是白箱攻击的数据：

为什么attack很容易成功，有一个观点是data是造成attack会成功的元凶，而不是model。attack会成功这件事情，不止出现在deep learning上，在linear的network、SDM上也attack会成功。

One pixel attack && universal adversarial attack

attack的signal越小越好，one pixel attack是可以成功的（不过并没有很powerful）：

universal adversarial attack：用一个signal成功攻击所有的图片，universal adversarial attack是有可能成功的

Beyond images

speech processing

natural language processing

Attack in the Physical World

从三维的世界中攻击数位的世界时，需要考虑很多问题，例如：

An attacker would need to find perturbations that generalizebeyond a single image.
Extreme differences between adjacent pixels in the perturbationare unlikely to be accurately captured by cameras.
It is desirable to craft perturbations that are comprisedmostly of colors reproducible by the printer.