CW Attack论文阅读与总结

最新推荐文章于 2024-04-09 16:45:25 发布

超自信面包QTQ

最新推荐文章于 2024-04-09 16:45:25 发布

阅读量1.5k

点赞数 3

文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/weixin_48780064/article/details/123020841

版权

本文概述了一种基于优化的CW攻击方法，用于评估神经网络的鲁棒性。作者介绍了L0、L2和L的攻击策略，展示了防御蒸馏的不足，并强调了可转移性和高置信度攻击的应用。研究还探讨了距离度量、防御蒸馏算法以及对抗样本生成的细节，提供了实验结果和对未来工作的思考。

摘要由CSDN通过智能技术生成

论文链接：https://arxiv.org/abs/1709.03842

在阅读《Towards Evaluating the Robustness of Neural Networks》这篇基于优化的CW攻击方法过程中，本文提取了原文中各小节的主要观点，并附有自己对原文公式的解释，以便于后续对CW攻击方法的回顾，也相当于是对自己的阅读论文笔记。后续将不断更新记录自己在对抗攻击方面的学习成果。

1 引言

现有的神经网络容易受到攻击。Szegedy等人首先注意到图像分类领域中存在对抗性的例子：可以对原始图像添加扰动使得分类器分类出错。防御蒸馏可以应用于任何前馈神经网络，只需要一个简单的重新训练步骤，便使得攻击成功概率从95%降低到0.5%。

本文创建了一组可用于构造神经网络鲁棒性上界的攻击，防御蒸馏方法无法抵抗我们的攻击。在普遍的模型上与其他攻击进行比较时，本文的方法生成了对抗样本在每种情况下总失真都较小。此攻击方法是评估防御性能的最佳基准。

可转移性在我们的攻击方法中也存在，并且被我们证明可以从非安全模型转移到防御提炼（安全）模型。

使用的数据集：MNIST，一个数字识别任务（0-9）；CIFAR-10，一个小型图像识别任务，10个类；以及ImageNet，一项包含1000个类的大型图像识别任务。值得注意的是:在ImageNet分类任务的一个极端示例中，我们可以通过仅更改每个像素的最低阶位，导致Inception v3网络对图像进行错误分类。

贡献：（1）基于三种距离度量L0、 L2 和L $\propto$ 设计了三种攻击方法；