论文分享（一） CVPR 2018 Defense against Universal Adversarial Perturbations

最新推荐文章于 2022-04-06 11:10:43 发布

2020拯救世界

最新推荐文章于 2022-04-06 11:10:43 发布

阅读量1.1k

点赞数 2

分类专栏：论文阅读

本文链接：https://blog.csdn.net/xunbaobao123/article/details/103028477

版权

论文链接：https://arxiv.org/abs/1711.05929

前言

进入研究生阶段的学习已经一年多了，在此期间阅读了不少论文，也大都有做下一些笔记。然而，出于自己的惰性，一直没有系统的将它们整理归纳起来。因此，从今天开始希望以每天一篇论文讲解的形式将自己过往阅读过的，感兴趣的，项目中所用到过的论文在博客上进行一次梳理。所谓温故而知新，在梳理的同时期许自己能够有新的收获，和大家一同成长。

一.介绍

今天要讲的这篇文章是针对普遍对抗扰动（universal adversarial pertubations）的防御，时间相对有点久了，发表在2018年的CVPR上。首先，我们知道单张图片的对抗扰动，简单一点理解，就是指针对某一张图片我们通过训练添加一些所生成的特定噪声（即扰动），可以使得分类器将这张图片进行错误的识别分类。那么，什么是普遍对抗扰动呢？概括性的说，它具有以下两个特性：
1.顾名思义，这个扰动是针对所有输入图片都可以添加的，具有普遍性。也就是说添加的这个扰动是否能够使分类器错误分类，和所输入的图片无关，仅和模型本身有关。
2.这种扰动还是非常微小的，近乎不可察觉的。即，添加了扰动之后的图片和原始图片相比失真程度很低，并没有改变原始图片的结构。

不同于之前的攻击，如：FGSM，DeepFool等方法只能生成针对单张图片的对抗扰动，这种新的攻击方式（即，普遍对抗扰动 (Seyed-Mohsen et al.,2017):https://arxiv.org/abs/1610.08401）能生成对任何图像实现攻击的扰动。这一方面展示了愚弄深层网络的可能性，另一方面由于之前大多工作针对单张图像的对抗扰动，目前还没有专门的技术来保护网络免受普遍的对抗性扰动，这是本文所要解决的核心问题。

二.基本流程

接下来基本流程的讲解将从下面公式和具体框架两个角度去叙述,还需要注意的是在下面的叙述中默认将普遍对抗扰动读作扰动ρ。

2.1 问题公式化

先通过公式对基本流程有一个了解，已知I_c是原始数据集中某个分类c下的一张图片，C(.)是一个分类器（即目标网络）：
在这里插入图片描述
现在定义一个向量ρ∈R_d，是对于分类器C(.)来说的一个普遍对抗扰动，它应满足下面的约束条件：

其中，δ表示人为设定的愚弄率，对扰动ρ有一个限制条件：ρ的p范数值需要小于等于预定义的常数值ξ。

在论文的实验中将δ设置为0.8，扰动则限制为l2范数和无穷范数，其设置的常数柯西值分别为2000和10，这两个值的设定是由实验所用图片的相应范数值所选取的，为图片相应范数的4%，保证扰动是近乎不可察觉的。

现在问题来了，如果我们上面训练的扰动达到了我们预期的效果，添加到图片上，将会以80%的愚弄率来欺骗网络。关键时刻，当然需要我们提出的防御方法登场来英雄救美啦~

为了使得分类器C(.)能够不被扰动所愚弄，论文所提出的

最低0.47元/天解锁文章

2020拯救世界

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
论文分享（一） CVPR 2018 Defense against Universal Adversarial Perturbations

论文链接：https://arxiv.org/abs/1711.05929前言进入研究生阶段的学习已经一年多了，在此期间阅读了不少论文，也大都有做下一些笔记。然而，出于自己的惰性，一直没有系统的将它们整理归纳起来。因此，从今天开始希望以每天一篇论文讲解的形式将自己过往阅读过的，感兴趣的，项目中所用到过的论文在博客上进行一次梳理。所谓温故而知新，在梳理的同时期许自己能够有新的收获，和大家一同成长...
复制链接

扫一扫

专栏目录