《NoiseCAM: Explainable AI for the BoundaryBetween Noise and Adversarial Attacks》

最新推荐文章于 2023-08-14 10:08:22 发布

cheng_love_fuzzing

最新推荐文章于 2023-08-14 10:08:22 发布

阅读量91

点赞数

文章标签：人工智能安全

本文链接：https://blog.csdn.net/weixin_45035054/article/details/130655115

版权

类型：对DNN系统的防御机制

发表时间：2023

发表期刊：未知

Abstract

1.本文首先使用梯度类激活图（GradCAM）分析VGG-16网络输入被混合对抗扰动或高斯噪声时的行为偏差。特别地，我们的方法可以定位对抗扰动和高斯噪声敏感的脆弱层。我们还展示了脆弱层的行为偏差可以用于检测对抗性样本。

2.我们提出了一种新型的NoiseCAM算法，它将全局和像素级加权类激活图的信息集成在一起。我们的算法对对抗扰动非常敏感，并且不会对混入输入中的高斯随机噪声产生反应。

3.我们比较了使用行为偏差和NoiseCAM检测对抗性样本的效果，并展示了NoiseCAM在总体性能上优于行为偏差建模。我们的工作可以提供一种有用的工具来防御深度神经网络上特定类型的对抗性攻击。

I. INTRODUCTION

找对抗性样本并增量训练DNN类似于模糊测试。一些代表性的框架已经被提出，例如DLFuzz、DeepXplore、DeepHunter和TensorFuzz。特别地，在一篇前作中，DLFuzz，一个白盒模糊测试框架，我们通过同时误导神经分类器和最大化神经元覆盖率来推导对抗性扰动。这些方法旨在提高DNN的鲁棒性，进而增强其抵御对抗性攻击的能力。

本文的贡献：

1.我们提出了一种可解释的方法，通过建模行为偏差来检测神经网络中遭受对抗性攻击的受损层。我们的研究发现，VGG-16中的深层对于对抗性扰动和高斯随机噪声更为敏感。因此，我们的方法可以定位受损层，并提供有关哪些层需要进一步加强以提高模型的鲁棒性的洞察。

2.我们研究了在非对抗性场景下对脆弱卷积层进行行为偏差建模以获取检测对抗性样本的决策阈值，但发现其不可靠。这表明，行为偏差建模不能作为检测对抗性攻击的唯一方法，需要结合其他方法来提高检测的准确性和鲁棒性。

3.我们提出了NoiseCAM，一种新的算法，以可解释的方式检测DNN上的对抗性攻击。我们的实验表明，NoiseCAM对于对抗性扰动具有高度敏感性，而对于高斯随机噪声则是不受影响的，即使它们具有统计上相似的属性。这表明，NoiseCAM是一种有效的检测对抗性攻击的方法，可以提高模型的鲁棒性，并且在解释性方面具有优势。

II. RELATED WORK

XAI（Explainable AI）视觉解释方法：Grad-CAM[31]输出图片的热图，可视化了这张图片的每个区域对预测的贡献度。LIME[32]输出每个像素点是正向or负向的（高于阈值是正向，否则是负向。）

对抗性攻击方法：[37]是个综述。

Ⅲ.METHODOLOGY

A.定义问题：

利用XAI技术对VGG-16模型的神经网络逐层分析。

B.准备数据：

DLFuzz负责产生扰动，同时产生对抗噪声和最大化神经元覆盖。

ADV(·)是对抗扰动函数；S是种子图像； $\varepsilon$ 是扰动强度。

我们生成相同数量的高斯噪声N𝑔，定义为随机噪声，具有类似对抗扰动的统计特性。因此，我们利用N𝑎的期望值、标准差和形状，得到N𝑔。

其中𝜇𝑎=𝑵𝑎的均值；Σ𝑎=𝜎(𝑵𝑎)。根据这个分布，我们生成随机噪声N𝑔，用一个与N𝑎形状相同的矩阵表示。

DNN的增广输入I。

C.对抗性输入生成：

其中𝛿限制对抗性扰动的大小。剩余参数参考DLFuzz 。

通过DLFuzz在获得每个种子的有效对抗扰动后，我们将扰动进行5种不同比例的放大，定义为扰动强度。分别是25% 50% 100% 200%和400%。然后对原始图像进行加性摄动，形成对抗实例。与均匀分布在图像上的高斯随机噪声不同，对抗扰动通常以一定的模式进行聚类。这些对抗性扰动可能导致错误的卷积滤波器的失活，甚至可以在类激活图上显示出来。

D.网络行为偏差建模：

对于给定的卷积层𝑙，其对输入图像的响应可以通过grad-CAM heatmap来可视化，定义为:

J(S)为所选类别S的分类得分，𝜃l为𝑙层参数。函数𝑅(·)表示将导出的梯度进行整形和插值，使其与s具有相同的维数和尺寸。

此外，我们用余弦相似度计算行为偏差程度为:

H(S1)和H(S2)表示不同图像的Grad-CAM热图。

E.对抗实例检测的NoiseCAM：

随着行为偏差建模，我们提出了一种基于xai的算法，称为NoiseCAM，用于检测对抗例子，如图3所示。我们提出的工作流利用了DNN分类器内部层的梯度信息。为了提取必要的信息，我们将GradCAM++[28]和LayerCAM[29]结合如下:

1) Globally Weighted CAM: $y^{c}$ 是DNN分类器对类别为c的判定分数。对于一个选择的卷积层， $A_{k}$ 表示该层输出张量的第𝑘个输出特征图（output feature map）。The spatial gradient $g_{i\,j }^{k\, c}$ with respect to $A_{k}$ is as:

where $g_{i\,j }^{k\, c}$ is the partial derivative of the prediction score of category 𝑐 with respect to the pixels of the 𝑘-th feature map of the selected convolution layer.在NoiseCAM算法中，我们使用预测分数最高的类别来生成 $g_{i\,j }^{k\, c}$ 。我们使用类似于GradCAM++[28]的方法进一步处理这个空间梯度张量。具体来说，我们首先计算增强的空间梯度为:

其中(𝑎，𝑏)和(𝑖，𝑗)为特征图的空间位置。然后我们计算输出张量 $w_{k}^{c}$ 中每个通道的权值，如式(10)所示。

最终的类激活图捕获了对分类分数有积极贡献的激活 $Y^{C}$ 是由所有𝑘特征图的线性聚合得到的，如式(12)所示

实验表明，对抗扰动严重影响浅层特征映射。Grad-CAM++算法中使用的全局权值将把所有激活的像素视为相等的。在我们的实验中，当输入中有多个对象时，GradCAM++算法在派生 $w_{k}^{c}$ 方面通常优于GradCAM。

2)像素加权CAM:这个CAM使用了与LayerCAM[29]相同的数学过程。每个特征地图A𝑘𝑖𝑗首先是像素加权的:

cheng_love_fuzzing

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《NoiseCAM: Explainable AI for the BoundaryBetween Noise and Adversarial Attacks》

3.我们提出了NoiseCAM，一种新的算法，以可解释的方式检测DNN上的对抗性攻击。我们的实验表明，NoiseCAM对于对抗性扰动具有高度敏感性，而对于高斯随机噪声则是不受影响的，即使它们具有统计上相似的属性。这表明，NoiseCAM是一种有效的检测对抗性攻击的方法，可以提高模型的鲁棒性，并且在解释性方面具有优势。因此，我们的方法可以定位受损层，并提供有关哪些层需要进一步加强以提高模型的鲁棒性的洞察。随着行为偏差建模，我们提出了一种基于xai的算法，称为NoiseCAM，用于检测对抗例子，如图3所示。
复制链接

扫一扫