对于分类神经网络,一个攻击的例子是输入图像受到干扰(或策略性修改),从而导致故意错误分类。
有各种算法利用给定分类模型的信息(梯度和特征映射),并修改输入图像,使其被错误分类(非目标攻击)或总是被错误分类为特定类别(目标攻击)。
在本文中,我们将研究一些白盒攻击(在了解模型信息后生成攻击的算法)。
攻击:
Fast Gradient Sign Method(https://arxiv.org/abs/1412.6572) (FGSM)
Projected Gradient Descent (https://arxiv.org/abs/1706.06083)(PGD)
DeepFool(https://arxiv.org/pdf/1511.04599.pdf)
Carlini & Wagner(https://arxiv.org/abs/1608.04644) (C&W)
生成攻击
有一些Python库已经实现了这些(和其他)攻击算法,并且还提供了现成的模块来为我们的用例生成它们。Cleverhans(https://gi