2022.6.19 第十一次周报

目录

一、How to Attack

1.Example of Attack

2.How to Attack(White Box Attack)

3.Non-perceivable

4.Attack Approach

Gradient Descent

Fast Gradient Sign Method (FGSM)

Iterative FGSM

5.White Box v.s. Black Box

6.Black Box Attack

7.Attack in the Physical World

攻击人脸识别系统

攻击路牌识别系统

8."Backdoor" in Model

二、Defense

1.被动防御 Passive Defense

smoothing

compression

generator

 Passive Defense-Randomization

2.主动防御 Proactive Defense


 

一、How to Attack

1.Example of Attack

下面以图像分类为例。benign image 表示未经修改的原图像,识别结果为 tiger cat。攻击的目的就是给 benign image 加上一个小噪声,使得分类器输出的类别不为 “猫”。

 

而攻击类型也可以分为 Non-targeted 和 Targeted 两种。

Non-targeted: 让分类器输出任何非 “猫” 的类别。

Targeted: 让分类器输出指定的非 “猫” 类别 。

32d4faa3eb69462dbeec10f9795b914d.png

下图中,加入的噪声甚至是人眼不可分辨的,分类器对 Benign image 进行分类时 Tiger Cat 的置信度都只有 0.64,但对 Acttacked Image 进行分类时 Star Fish 的置信度却达到了 1.00。

46d8e469972d404db072ee43bd138c70.png

 

2.How to Attack(White Box Attack)

Non-targeted: x0为 benign image,x 为 attacked image,在固定网络参数的情况下,我们想要使分类器输出的概率分布尽量远离 cat 的概率分布。进而得到如下的优化目标 gif.latex?d%28x0%2Cx%29%5Cleq%20%5Cvarepsilon,保证了加入的 noise 不会被人眼察觉。

Targeted: 相比 Non-targeted,在优化目标中增加了一项,使得 attacked image 对应的概率分布尽量接近目标类别的概率分布。

05e1f6675b9f445da05318479f3c3f2a.png

 

3.Non-perceivable

攻击的时候有一个小细节,即被攻击的图像不能被人眼给很容易就察觉出来。说白了就是像素值的变化程度不能超过某个阈值,那么有两种具体的控制思路,一个是使用二范数控制图像整体的变动,一个是使用无穷范数控制像素的最大变动。

那么我们应该如何表示 d 来使得人眼无法感知到我们加入的 noise 呢?下图对比了 L2 norm 和

L-infinity norm,发现使用 L-infinity norm 更加合理。

41a34113da5e4660bcd0540f8ce17f2c.png

 

4.Attack Approach

Gradient Descent

那么,我们来看一下train过程
和以前train的过程一样,只不过这次是update输入,通过调整updata,来求解L(x)最小值
在这里,我们还有一个约束,那就是x0与x的距离。

我们可以这样处理,当发现x0与xT的距离超出gif.latex?%5Cvarepsilon后,
我们寻找在x0范围内,最靠近xT的那个新的x。
 

462e38d914b144beabbff5151b740313.png

 

Fast Gradient Sign Method (FGSM)

接下来,我们介绍一个最简单的attack method 它的大概思路就是,我们要一击必中,看左下角那个式子,我们一次性就可以到达四边形的四个角落中。

d8cc9e689e2946ed94474500e9b69b10.png

 

Iterative FGSM

当然,我们也可以多跑几个,但是容易出现跑出四边形的范围,可以利用前面的方法把它拽回来。

17b04744ab64425a9b77efe10944f45d.png

 

5.White Box v.s. Black Box

在之前的攻击中,我们知道网络参数θ
这称为白盒攻击。
您无法在大多数在线 API 中获取模型参数。
如果我们不发布模型,我们是否安全?
不,因为黑匣子攻击是可能的。

c7f97098def24e58b396b07822f8efe4.png

6.Black Box Attack

black box attack:不知道model参数是什么
我们可以通过同一组训练集来训练一个network proxy,来模拟network black
从而通过攻击network proxy观察,就可以来攻击network black。但是我们如果完全没有训练资料怎么办呢?
可以把一堆图片丢到NN中,得到输出的图片,把输入和输出图片丢到network proxy来训练出一个模型
53f5a702c8fc4f0086f498a4c06dce62.png

7.Attack in the Physical World

攻击人脸识别系统

攻击时的注意点:

攻击者需要找到超越单个图像的扰动。扰动中相邻像素之间的极端差异不太可能被相机准确捕获。需要制作主要由打印机可再现的颜色组成的扰动。
cc5996e422e64701b9164c35dd5e5d60.png

攻击路牌识别系统

93f7be2b0d29403f977dfd6708b28265.png

8."Backdoor" in Model

到目前为止,我们的attack都是在测试的阶段展开,那有没有可能在训练的时候就进行attack呢? 我们可能在训练过程中加入一张dog的照片,然后测试的时候就有可能把下面那张图片输出成dog。

1b8d5478b19043628a16b2377b6ff29e.png

 

二、Defense

1.被动防御 Passive Defense

防御的话有些思路是十分直观的。例如,前面提到的攻击都是对图像进行一定的扰动,那么我们可以在将图片输入网络前先进行一些预处理,这样就可以消掉图像中的恶意信息。这么做有两个问题。首先就是由于训练的时候是没有这些“数据增强”的,因此会对模型的性能造成影响;第二就是如果这些防御措施也泄露了的话,那么攻击者可以直接把这些预处理步骤视为网络的一部分一起攻击。

smoothing

2b28cf71373b45fcbeed767311311c01.png

 

compression

9615fd495ec34f47962f36f0619413d5.png

 

generator

02b53b9aa8c647cf80e877fbe33a7565.png

 Passive Defense-Randomization

一种更强大的方法-randomization:自己都不知道图片接下来做什么样的处理。

如果攻击者知道了 passive defense 的防御手段并且将 filter 当作模型的第一层加以攻击的话,passive defense 就失效了。因此,我们可以随机采用不同的 passive defense 的防御方法。
 

27cb85718e4542a28359e7d2ba1b3a27.png

 

2.主动防御 Proactive Defense

那肯定还有proactive defense(一开始就训练一个不容易被attack的模型)
我们先训练好一个model,训练阶段对模型进行attack,可能会发生分类错误。
然后重新进行正确的分类来进一步update model。
最后得到一个不容易被attack的model。可是这也会容易被新的algorithm攻破,可见adversarial training还是有缺陷的。

b770a68db9ae4ac684d4e32d5e225b09.png

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值