独家解读 | 基于优化的对抗攻击：CW攻击的原理详解与代码解读

人工智能前沿讲习

于 2020-08-19 19:16:36 发布

阅读量1.5w

点赞数 16

文章标签：算法计算机视觉人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48294000/article/details/108114667

版权

本文详细介绍了CW攻击的原理和优化目标，这种基于优化的攻击方式能够在保持高攻击准确率的同时，使对抗样本的扰动微小到人眼难以察觉。通过对三种距离度量的引入，CW攻击能有效突破模型防御，尤其在面对蒸馏防御时仍能保持高成功率。此外，文章还探讨了CW攻击与FGSM、PGD等攻击方式的差异，并提供了代码解读。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文标题：Towards Evaluating the Robustness of Neural Networks

论文链接：https://arxiv.org/abs/1709.03842

作者：孙裕道

1. 引言

对抗攻击的方式主要分为三大类，第一种是基于梯度迭代的攻击方式比如FGSM，PGD，MIM；第二种是基于GAN 的攻击方式，比如AdvGAN，AdvGAN++，AdvFaces。还有一种攻击方式为基于优化的攻击方式，它的代表就是本文CW的攻击。CW攻击产生的对抗样本所加入的扰动，几乎是人眼察觉不出来的，反观，FGSM和PGD生成的对抗样本所生成的扰动比较糊，而且CW的攻击效果更加好，在加有蒸馏防御的分类模型中，CW攻击依然可以高效地攻击成功。

2. 论文的贡献

本文的贡献可以归结如下三点:

作者针对，和三种距离度量引入到CW的攻击方式中。这三种度量方式的引入使得在较小的扰动下能够有较高的攻击准确率。
模型蒸馏是对抗样本的有效的防御手段，CW攻击可以攻破防御性蒸馏中模型，高置信度的使模型出现误分类。
作者一共提出了7个优化目标，并系统地评估了目标函数的选择，目标函数的选择可以显著地影响攻击的效果，实验显示论文中的优化目标函数(6)是所有优化目标中效果最好的

3. 模型介绍

3.1 核心思想

CW是一种基于优化的攻击方式，它同时兼顾高攻击准去率和低对抗扰动的两个方面，达到真正意义上对抗样本的效果，即在模型分类出错的情况下，人眼不可查觉（FGSM，PGD攻击生成的图片非常模糊，人眼可以察觉到）。首先对抗样本需要用优化的参数来表示，其次在优化的过程中，需要达到两个目标，目标1 是对抗样本和对应的干净样本应该差距越小越好；目标2是对抗样本应该使得模型分类错，且错的那一类的概率越高越好。

3.2 原始形式

CW攻击依赖于对抗样本的初始优化形式，图像x寻找对抗样本的问题正式定义如下：

其中图像x是固定的，目标是找到最小化目标函数的对抗扰动。生成对抗样本核心是寻找对抗扰动，对抗扰动使得模型C 出现误分类。D是一些距离度量函数，它要么是，，要么是。

3.3 目标函数

现有算法很难直接求解上述公式，因为约束是高度非线性的。因此，需要用更适合于优化的不同形式来表示它。作者定义了一系列的目标函数，使得时当且仅当。其中有许多可能的选择分别如下：

其中是正确的分类，是的简写，

最低0.47元/天解锁文章

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。