论文分享(一) CVPR 2018 Defense against Universal Adversarial Perturbations

论文链接:https://arxiv.org/abs/1711.05929

前言

进入研究生阶段的学习已经一年多了,在此期间阅读了不少论文,也大都有做下一些笔记。然而,出于自己的惰性,一直没有系统的将它们整理归纳起来。因此,从今天开始希望以每天一篇论文讲解的形式将自己过往阅读过的,感兴趣的,项目中所用到过的论文在博客上进行一次梳理。所谓温故而知新,在梳理的同时期许自己能够有新的收获,和大家一同成长。

一.介绍

今天要讲的这篇文章是针对普遍对抗扰动(universal adversarial pertubations)的防御,时间相对有点久了,发表在2018年的CVPR上。首先,我们知道单张图片的对抗扰动,简单一点理解,就是指针对某一张图片我们通过训练添加一些所生成的特定噪声(即扰动),可以使得分类器将这张图片进行错误的识别分类。那么,什么是普遍对抗扰动呢?概括性的说,它具有以下两个特性:
1.顾名思义,这个扰动是针对所有输入图片都可以添加的,具有普遍性。也就是说添加的这个扰动是否能够使分类器错误分类,和所输入的图片无关,仅和模型本身有关
2.这种扰动还是非常微小的,近乎不可察觉的。即,添加了扰动之后的图片和原始图片相比失真程度很低,并没有改变原始图片的结构。

不同于之前的攻击,如:FGSM,DeepFool等方法只能生成针对单张图片的对抗扰动,这种新的攻击方式(即,普遍对抗扰动 (Seyed-Mohsen et al.,2017):https://arxiv.org/abs/1610.08401)能生成对任何图像实现攻击的扰动。这一方面展示了愚弄深层网络的可能性,另一方面由于之前大多工作针对单张图像的对抗扰动,目前还没有专门的技术来保护网络免受普遍的对抗性扰动,这是本文所要解决的核心问题

二.基本流程

接下来基本流程的讲解将从下面公式具体框架两个角度去叙述,还需要注意的是在下面的叙述中默认将普遍对抗扰动读作扰动ρ。

2.1 问题公式化

先通过公式对基本流程有一个了解,已知Ic是原始数据集中某个分类c下的一张图片,C(.)是一个分类器(即目标网络):
在这里插入图片描述
现在定义一个向量ρ∈Rd,是对于分类器C(.)来说的一个普遍对抗扰动,它应满足下面的约束条件:
在这里插入图片描述
其中,δ表示人为设定的愚弄率,对扰动ρ有一个限制条件:ρ的p范数值需要小于等于预定义的常数值ξ。

在论文的实验中将δ设置为0.8, 扰动则限制为l2范数和无穷范数,其设置的常数柯西值分别为2000和10,这两个值的设定是由实验所用图片的相应范数值所选取的,为图片相应范数的4%,保证扰动是近乎不可察觉的。

现在问题来了,如果我们上面训练的扰动达到了我们预期的效果,添加到图片上,将会以80%的愚弄率来欺骗网络。关键时刻,当然需要我们提出的防御方法登场来英雄救美啦~

为了使得分类器C(.)能够不被扰动所愚弄,论文所提出的

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值