【论文笔记】Interpretable Deep Learning under Fire(含PPT与讲稿)

0、前言

这篇论文笔记不涉及具体公式、代码的研究,若有研究的需求可关注论文原文。

1、研究背景与现状

(1)研究背景

深度学习的最新进展已经导致许多长期存在的机器学习任务的突破。
例如,图像分类、自然语言处理,甚至围棋。使以前被认为是严格实验性的用例成为可能。
然而,深度神经网络(DNN)模型的最先进性能往往是以可解释性为代价来实现的。 直观地理解复杂的DNN是很有挑战性的。

(2)现状

把DNN模型和解释模型耦合,组成一个可解释的深度学习系统(IDLS)。
它不修改模型结构或者参数,具有更高的预测精度。
![Workflow of an interpretable deep learning system (IDLS)](https://img-blog.csdnimg.cn/20201228105534741.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDAxMjU1MQ==,size_16,color_FFFFFF,t_70)*Workflow of an interpretable deep learning system (IDLS)*

输入图像到分类器,分类器做出相应的预测。
上面的这一部分参数交由解释器,由解释器g生成一个属性映射m。

但是鉴于其数据驱动的性质,这种可解释性本身可能容易受到恶意操作的影响。 不幸的是,到目前为止,对IDLSes的安全脆弱性知之甚少,更不用说减轻这种威胁了。

2、存在的问题

在这里插入图片描述

我们来看这一组实验,第一行是良性样本,第二行是常规对抗性攻击,第三行是ADV2攻击,ADV2是在分类器和解释器上的双重对抗性输入和解释

可见ADV2攻击后与良性样本高度相似,因此IDLS的可解释性仅仅提供了有限的安全保证。

解释器常常与分类器不一致,而解释器的解释只能部分解释分类器的行为,正是因为这种差距,使得对手可以同时利用这两个模型进行攻击。
作者团队提出了三个问题——

造成这种差距的可能原因是什么?
不同的解释器之间的差距有什么不同?
它对设计更健壮的解释器有什么意义?

3、解决方案和实例验证

(1)ADV2攻击

正如前文所说,作者团队为了证明IDLS的安全性是有限的,使用ADV2进行攻击。
在这里插入图片描述
这里是ADV2的框架。
左边的是预测损失函数,右边的是解释损失函数,目标是
(1)最大化预测损失
(2)最小化解释损失
(3)让对抗输入x*和良性输入X0之间的差距尽可能小

在本文的讨论中,ADV2使用梯度下降更新序列搜索X*。
在这里插入图片描述

(2)四种解释模型

接着,论文介绍了四种解释模型,并且使用ADV2去攻击这四种模型。
在这里插入图片描述
由于这里涉及到的四个解释器模型不是本文的重点,因此只是简略的介绍,具体可搜索对应论文查看。

1)Back-Propagation-Guided Interpretation

反向传播解释计算模型预测相对于给定输入的梯度,以确定每个输入特征的重要性。
以梯度下降模型(GRAD)为例,它对于给定的输入x和分类c,考虑模型预测的线性近似,获取属性映射m。梯度下降的模型对于具有ReLU激活函数的DNN而言数值为0,使得公式中梯度下降搜索x*方法无效。
在原来设定的ADV2模型的基础上,把激活函数修正为H(z)函数,则可解决梯度消失的问题。
在这里插入图片描述

2)Representation-Guided Interpretation

表征引导解释利用DNNs中间层的特征映射来生成属性映射。
以类激活映射(CAM)为例,在高层次上,CAM对上一个卷积层的特征映射执行全局平均池,并将输出作为具有Softmax激活的线性层的特征来逼近模型预测。 基于这种连通性结构,CAM通过将线性层的权重投影回卷积特征映射来计算属性映射。
由于它在中间层使用深度表示,CAM生成高视觉质量和有限噪声和伪影的属性映射。(其实这里也不是很明白)
针对这个模型,使用刚刚定义的梯度下降ADV2模型来攻击即可。

3)Model-Guided Interpretation

模型引导解释不依赖于中间层的深度表示,而是训练一个元模型来直接预测单个前馈传递中任何给定输入的属性映射。
以实时图像显著Real Time Image Saliency(RTS)为例,RTS训练一个DNN直接预测任何给定输入的属性映射,无需在训练后访问分类器DNN,它是通过在图像网上预先训练的ResNet作为编码器和U-NET作为掩蔽模型来实现的,然后训练它直接优化上述公式。考虑把上述编码器和掩蔽模型作为解释器g。
针对这个模型,直接使用梯度下降的ADV2模型来攻击是无效的,编码器enc(·)在生成属性映射方面起着重要的作用,而仅仅依靠masking model的输出不足以指导攻击。
因此,我们增加了一个额外的损失项,它测量了对抗性输入x和目标类ct编码器输出的差异。
然后,我们搜索具有梯度下降更新序列的对抗性输入x∗。

4)Perturbation-Guided Interpretation

扰动引导解释通过以最小化噪声扰动输入并观察模型预测的变化来制定属性映射。
以MASK为例,对于输入x,MASK模型通过检查是否改变x的一些部分会影响预测f(x)来确定x最具有信息的部分。它学习一个掩膜,如果第i个输入特征保存,则m[i]=0,如果这个特征被高斯噪声替代,则m[i]=1.
针对这个模型,我们使用双层优化框架重新制定ADV2,新的ADV2通过在交叉熵和映射损失上的梯度下降之间交替优化x和m。

(3)五个设问

1)欺骗目标分类器有效吗?

在这里插入图片描述

表格展示了ADV2和PGD对不同分类器和解释器组合的攻击成功率和误分置信度。
观察到ADV2在所有案例中均有较高的成功率和错误分类置信度,与常规的PGD攻击相当。
因此我们得出一个结论:尽管ADV2具有双重目标,但它与欺骗目标DNN的常规对抗性攻击一样有效

2)误导目标解释器是否有效?

在这里插入图片描述
这是良性样本和对抗性输入在四种解释模型上的属性映射图。
可见ADV2输入在视觉上无法与两性对应的解释区分出来,PGD输入很容易通过检查属性映射来识别

在这里插入图片描述在相似度检测中,我们会发现ADV2的差距比PGD的小。
在这里插入图片描述IoU是一种测量在特定数据集中检测相应物体准确度的一个标准。这个标准用于测量真实和预测之间的相关度,相关度越高,该值越高。
在IoU检测中,高于0.5的得分被认为是可信的
可见ADV2能够产生对抗性输入,其解释与良性病例高度相似。

3)攻击检测方法是否回避?

使用特征压缩作为检测方法检测,特征压缩有位深度压缩、局部平滑、全局平滑三种方法。我们使用这三种技术对良性样本、ADV2和自适应ADV2进行检测,得分越高检测率越高。
在这里插入图片描述
从表格中我们可以看见PGD和Basic-ADV2的检测率没有显著差异,从而提出了自适应ADV2,自适应ADV2的检测率明显低于另外两个。
在这里插入图片描述
这个表格显示了三种攻击跟良性样本的距离和IoU得分,可见优化后的自适应ADV2对解释器的攻击效果影响不大。
由上述表格的信息我们可以判断出,自适应ADV2可能产生关于特征压缩的回避对抗性输入。

4)它在真正的安全关键应用程序中是否有效?

文章使用了皮肤癌筛查任务作为案例研究,从视觉上,良性样本与ADV2对抗样本的结果高度相似。
在这里插入图片描述
在跟良性样本的距离和IoU得分上,ADV2与良性样本的差距更小且IoU得分均高于0.6.
在这里插入图片描述

5)采用替代攻击框架是否灵活?

除了PGD框架以外,ADV2还可以灵活地建立在别的框架上。
在这里,我们在STADV上构造ADV2,这是一种基于空间变换的对抗性攻击.
在这里插入图片描述
与STADV相比,ADV2产生对抗性输入,它的属性映射与良性样本更相似,突出了在STADV框架上构建的ADV2的有效性。
在这里插入图片描述
作为一般类攻击,ADV2可以灵活地建立在替代对抗性攻击框架上

4、潜在对抗ADV2的策略

在这一部分中,作者证明了预测解释之间确实存在差距,四种解释器之间互补,攻击转移性低,从而提出了对抗策略AID。

(1)攻击漏洞的根源

ADV2定义了两个看似矛盾的东西,最大化预测变化和最小化解释变化。
因此,我们推测ADV2的有效性可能源于分类器与其解释器之间的部分独立性——解释器的解释只部分描述了分类器的预测,因此同时利用这两种模型是可行的。
在这里插入图片描述
这张图的第一行是良性输入,第二行是良性映射,第三行是目标映射,第四行是对抗性输入,第五行是ADV2的属性映射。
第三行的目标映射使用随机补丁的方法随机选取一个矩形或圆形的补丁作为属性映射,由于选取的随机性,它显著的偏离良性映射。
从视觉上,ADV2的属性映射和随机生成的目标映射很相似。
在这里插入图片描述
我们评估ADV2生成的目标解释,会发现相比于良性样本,ADV2的属性映射和随机生成的目标映射更相似。

前面的生成随机属性映射,对解释器的输出进行研究。

这组实验对分类进行研究。
在这里插入图片描述
第一行是目标图片,第二行是目标属性映射。可以看到第三行中给予对抗性输入的图片与目标图片是不同的图片,但是却产生了十分相似的属性映射。
在这里插入图片描述
通过上面的两组实验我们可以得出一个结论
DNN及其解释器通常不完全对齐,允许对手同时利用这两种模型攻击。

(2)预测解释差距的根源

在这里插入图片描述

观察这组实验,横向分析,每一行的样本是相同的,但是解释器不相同,提取的特征也不完全相同。一组图的左侧是良性样本,右侧是针对source解释器进行攻击的对抗性样本,target是目标检测器。
在这里插入图片描述
可以从图中观察得出,不同攻击之间的可转移性是很低的。
如用红线框起来的部分,针对MASK模型进行攻击的对抗性输入在RTS解释器上的属性映射与使用RTS解释器得出的良性样本的属性映射之间差异很大。

(3)潜在对策

接下来我们将讨论针对ADV2攻击的潜在对策。
1、集合解释。不同的解释器侧重于DNN行为的不同方面(例如,CAM侧重于深度表示,而MASK侧重于输入-预测对应),防御ADV2的一个有希望的方向是部署多个互补的解释器,以提供DNN行为的整体视图。
2、对抗解释。AID使用ADV2作为一个驱动器,以尽量减少预测-解释差距为目标来培训解释器。

为了评估AID减少预测解释差距的有效性,我们使用RTS作为具体的案例研究。
在这里插入图片描述

第一行是加了噪声扰动的输入,第二行是使用RTS解释器产生的属性映射,第三行是用AID训练的RTS解释器。从图中可以看出,用AID训练后的解释器它对噪声的敏感度更强。
由鲁棒模型生成的表示倾向于更好地与显著的数据特性保持一致
在这里插入图片描述
这是良性和对抗性ADV2输入相对于RTS和RTSA在ResNet上的属性映射。
在RTS解释器上,对抗性输入和良性样本直接十分相似,而在RTSA上并非如此。
此外,RTSA在良性输入上的行为几乎与RTS相同,表明AID训练对良性病例的影响不大。

AID是用ADV2当驱动器来培训解释器的,AID的成功就证明了是有可能利用ADV2来减少训练解释器期间的预测-解释差距。

5、创新点

1、提出了攻击性能更强的ADV2攻击,证明了IDLS系统的安全性是有限的。
2、针对ADV2攻击,提出了AID来训练解释器。AID有效地减少了预测-解释差距,并有可能帮助提高解释器对ADV2的鲁棒性。
这项工作是对现有IDLS的安全漏洞的第一次系统研究。

6、看论文时的一些疑惑

(1)为什么不能直接用梯度下降优化RTS?

在这里插入图片描述
这个部分我的理解是,使用梯度下降去优化它是不实际的,因为RTS是实时更新的不断优化的,可能你用梯度下降去优化的只是它的一个中间工程

(2)关于公式3的最大最小化问题

在这里插入图片描述
在这里插入图片描述
对于最大化预测损失和最小化损失函数的理解:
∵为了迫使X被高置信度的错误分类,良性映射和对抗性属性映射的差异需要很大。
∴Δm↑
∵L_int(x
)=||Δm||_1
∴L_int(x*)↑
∵Δm=|m(x*)-m(x)|
∴m(x*)↑
∵公式13
∴x
∴x
-x0↑
∴l_prd(x*)↑

为了让x*被高置信度的错误分类,我们需要增大它的预测损失,但是这个预测损失只要增大到能被错误分类就行了,至于是0.99还是0.9无所谓,只要是错误分类。然后在这个基础上去最小化解释损失

but,3.1说x*和x0的差距是不可察觉的

(3)3%和30%噪声的含义

在这里插入图片描述
我一开始是理解成加了百分之多少的噪声,看论文发现它写的“测试集”——在测试集上导致了3%和30%的误分类,之后的理解是:
按照某个噪声添加标准给测试集里的所有图片添加噪声,然后3%的图片被误分类

7、演讲PPT及讲稿下载

Interpretable Deep Learning under Fire论文演讲PPT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值