论文链接:https://arxiv.org/abs/1709.03842
在阅读《Towards Evaluating the Robustness of Neural Networks》这篇基于优化的CW攻击方法过程中,本文提取了原文中各小节的主要观点,并附有自己对原文公式的解释,以便于后续对CW攻击方法的回顾,也相当于是对自己的阅读论文笔记。后续将不断更新记录自己在对抗攻击方面的学习成果。
1 引言
现有的神经网络容易受到攻击。Szegedy等人首先注意到图像分类领域中存在对抗性的例子:可以对原始图像添加扰动使得分类器分类出错。防御蒸馏可以应用于任何前馈神经网络,只需要一个简单的重新训练步骤,便使得攻击成功概率从95%降低到0.5%。
本文创建了一组可用于构造神经网络鲁棒性上界的攻击,防御蒸馏方法无法抵抗我们的攻击。在普遍的模型上与其他攻击进行比较时,本文的方法生成了对抗样本在每种情况下总失真都较小。此攻击方法是评估防御性能的最佳基准。
可转移性在我们的攻击方法中也存在,并且被我们证明可以从非安全模型转移到防御提炼(安全)模型。
使用的数据集:MNIST,一个数字识别任务(0-9);CIFAR-10,一个小型图像识别任务,10个类;以及ImageNet,一项包含1000个类的大型图像识别任务。值得注意的是:在ImageNet分类任务的一个极端示例中,我们可以通过仅更改每个像素的最低阶位,导致Inception v3网络对图像进行错误分类。
贡献:(1)基于三种距离度量L0、 L2 和L设计了三种攻击方法 ;
(2)防御蒸馏抵抗不住我们;
(3)提出利用高置信度的攻击样本来进行迁移攻击,作为测试模型鲁棒性的手段,同时这种方法也成功攻破了防御性蒸馏;
(4)系统性地评估了不同损失函数对攻击效果的影响,发现损失函数的选择影响巨大。
2 背景
A 威胁模型
机器学习模型的安全特性变得十分重要,语音识别领域可以生成与人类不同的音频来恶意控制用户设备,这项工作的重点是传统高斯混合模型与隐马尔科夫模型;恶意软件分类领域的对抗样本可以使其保持恶意软件状态但被归类为良性软件从而攻击了软件分类器;
距离度量在每个领域是不同的,在本文所关注的图像空间中,我们发现各种Lp规范是人类感知距离的合理近似值。
白盒攻击:本文实验假设对手可访问神经网络的结构和所有参数。可转移性:前有证明如果有黑盒访问权限则可以训练替代模型而攻击目标模型。
B 神经网络与符号
在我们实验中,模型固定所以不依赖参数;输出向量y满足softmax输出,被视为概率分布;公式符号定义如下:
:输入属于类别 的概率;
标签分配: ;
其中, 为包含softmax函数的完整网络,
为是除softmax之外的所有层的输出(z为logits)。
有以下公式
表示模型weights,表示biases,本文关注使用ReLU激活函数的网络,因为其广泛。
C 对抗样本
非目标攻击比目标攻击更强大,我们仅考虑目标攻击。我们考虑了以下三种不同的方法选择目标类:
1Average 在不正确的标签中随机均匀地选择目标类;2Best 对所有不正确的类执行攻击,并报告最容易攻击的目标类; 3 Worst 并报告最难攻击的目标类。
D 距离度量
: 测量距离坐标 的数量, ,对应于图像中已改变的像素数
: