独家解读 | 基于优化的对抗攻击:CW攻击的原理详解与代码解读

论文标题:Towards Evaluating the Robustness of Neural Networks论文链接:https://arxiv.org/abs/1709.0384...
摘要由CSDN通过智能技术生成

论文标题:Towards Evaluating the Robustness of Neural Networks

论文链接:https://arxiv.org/abs/1709.03842

作者:孙裕道

1. 引言

对抗攻击的方式主要分为三大类,第一种是基于梯度迭代的攻击方式比如FGSM,PGD,MIM;第二种是基于GAN 的攻击方式,比如AdvGAN,AdvGAN++,AdvFaces。还有一种攻击方式为基于优化的攻击方式,它的代表就是本文CW的攻击。CW攻击产生的对抗样本所加入的扰动,几乎是人眼察觉不出来的,反观,FGSM和PGD生成的对抗样本所生成的扰动比较糊,而且CW的攻击效果更加好,在加有蒸馏防御的分类模型中,CW攻击依然可以高效地攻击成功。

2. 论文的贡献

本文的贡献可以归结如下三点:

  • 作者针对   ,   和   三种距离度量引入到CW的攻击方式中。这三种度量方式的引入使得在较小的扰动下能够有较高的攻击准确率。

  • 模型蒸馏是对抗样本的有效的防御手段,CW攻击可以攻破防御性蒸馏中模型,高置信度的使模型出现误分类。

  • 作者一共提出了7个优化目标,并系统地评估了目标函数的选择,目标函数的选择可以显著地影响攻击的效果,实验显示论文中的优化目标函数(6)是所有优化目标中效果最好的

3. 模型介绍

3.1 核心思想

CW是一种基于优化的攻击方式,它同时兼顾高攻击准去率和低对抗扰动的两个方面,达到真正意义上对抗样本的效果,即在模型分类出错的情况下,人眼不可查觉(FGSM,PGD攻击生成的图片非常模糊,人眼可以察觉到)。首先对抗样本需要用优化的参数来表示,其次在优化的过程中,需要达到两个目标,目标1 是对抗样本和对应的干净样本应该差距越小越好;目标2是对抗样本应该使得模型分类错,且错的那一类的概率越高越好。

3.2 原始形式

CW攻击依赖于对抗样本的初始优化形式,图像x寻找对抗样本的问题正式定义如下:

其中图像x是固定的,目标是找到最小化目标函数  δ  的对抗扰动  δ  。生成对抗样本核心是寻找对抗扰动,对抗扰动使得模型C 出现误分类。D是一些距离度量函数,它要么是   ,   ,要么是   。

3.3 目标函数

现有算法很难直接求解上述公式,因为约束  δ  是高度非线性的。因此,需要用更适合于优化的不同形式来表示它。作者定义了一系列的目标函数   ,使得  δ  时当且仅当  δ  。其中   有许多可能的选择分别如下:

其中   是正确的分类,   是   的简写, 

  • 15
    点赞
  • 112
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值