Adversarial Example Detection Using Latent Neighborhood Graph

最新推荐文章于 2022-10-21 16:26:30 发布

Daft shiner

最新推荐文章于 2022-10-21 16:26:30 发布

阅读量1.9k

点赞数 1

分类专栏：论文分享文章标签：深度学习机器学习计算机视觉

本文链接：https://blog.csdn.net/weixin_46782905/article/details/122213149

版权

论文分享专栏收录该内容

29 篇文章 5 订阅

订阅专栏

2021.12.30 第11篇(ICCV2021) 精读
本文已投稿于我爱计算机视觉公众号，原文链接：LNG：首个基于图的对抗样本检测方法
在这里插入图片描述
论文链接: Adversarial Example Detection Using Latent Neighborhood Graph
代码链接：无

Introduction

近年来，深度神经网络被广泛应用于计算机视觉、自然语言处理和语音识别等领域。然而研究表明，深度神经网络很容易受到来自输入的细微干扰的攻击，从而导致模型预测出不正确的输出，这也引起了研究人员对深度神经网络的安全隐患的关注。对抗样本检测作为抵御对抗攻击的手段之一，也得到了研究人员的广泛研究。
相比于对抗训练，对抗样本有无需重训练模型，且可以适配到已经部署的模型上的优势。
先前的对抗样本检测研究表明输入样本和它的邻居在特征空间中表现出显著的一致性，基于此，本文提出了Latent Neighborhood Graph来表征输入的邻居。
与先前的工作DkNN[1]相比，本文所提的LNG有以下三方面优势：

LNG 覆盖了多跳邻居，它表征了输入样本的局部流形，而 DkNN 仅描述了输入样本的流形
LNG基于在嵌入空间中学习到的连通性自适应地聚合邻域信息，这比 DkNN中单纯使用类标签获得了更丰富的信息
LNG在检测中包含了对抗邻居和良性邻居，而 DkNN 仅利用了良性邻居

Contributions

本文将对抗样本检测的问题转化为了一个图分类问题，作者通过使用参考样本有效地构建了一个Latent Neighborhood Graph，用于对抗样本检测
所提方法根据邻居样本的距离动态估计潜在邻域图的邻接矩阵，并自适应地聚合来自良性和对抗邻居的信息以进行对抗样本检测
使用已知和未知的对抗样本生成方法生成的对抗样本，在灰盒和白盒检测达到sota性能

在这里插入图片描述
上图为总体框架图

Methodology

下表根据检测所需的信息比较了对抗样本检测方法的主要差异：
在这里插入图片描述

Overview

首先为每个输入样本生成一个Latent Neighborhood Graph，然后使用图神经网络 (GNN) 来利用邻域图中节点之间的关系来区分良性和对抗样本。下图展示了所提方法的总览：
在这里插入图片描述
具体来说，将每张测试图片 $I$ ，提取在预训练模型中的嵌入向量 $z$ ，此外本文还设置了一个额外的参考数据集，同样的方法将参考数据转成嵌入向量，提取 $z$ 附近的 $n$ 个邻居。此时我们得到了两个嵌入矩阵（1） $\in R^{n \times m}$ 用于存储邻居样本的嵌入向量，其中每一行代表一个样本的嵌入向量（2） $\in R^{n \times n}$ 编码了邻域中所有样本对之间的流形关系。由于本文中 $A$ 未知，下文将介绍如何基于嵌入距离来估计 $A$ 。

Reference Dataset

这里reference dataset， $Z_{ref}$ 分为两类：一类从正常样本中随机采样一部分，一类先对正常样本的reference dataset数据进行对抗攻击得到对抗样本，因此对抗样本的reference dataset数据量是正常样本的reference dataset的两倍。

Node Retrieval

本文根据k-nearest-neighbor graph (k-NNG)来选择与输入样本 $z$ 相近的样本组成输入样本 $z$ 的 $n$ 个邻居。

Edge Estimation

首先将输入样本和每个邻居样本进行连边，并用下式重新估计邻居样本间的连接关系 $A_{i,j}=\frac{1}{1+exp(-t \cdot d(i,j)+ \theta)}$ 其中 $d (i, j)$ 是节点 $i, j$ 间的欧式距离， $\theta$ 是两个系数。由于根据sigmoid function得到的 $A$ 是0-1的值，这里作者将其用下式量化为0或1：
$A_{i,j}^{'}= \begin{cases} 0, \quad A_{i,j} < t_h\\ 1, \quad A_{i,j} \geq t_h \end{cases} \tag{1}$
在这里插入图片描述
上图显示了不同情况下的k-NNG和LNG构图。

Graph Discriminator

本文采用[2]中的图注意力网络结构聚合 $z$ 和它的邻居信息，同时学习 $\theta$ 。此时对抗样本检测问题变成了解决下列问题： $f^*=\underset{f}{arg\ min} \sum_{(z,y)}\mathcal{l}(f(A_z,X_Z),y)$ 其中 $\mathcal{l}$ 是交叉熵损失函数。

Experiments

本文使用FGSM ( $L_{\infty}$ ), PGD ( $L_{\infty}$ ), CW ( $L_{\infty}$ ),AutoAttack ( $L_{\infty}$ ), Square ( $L_{\infty}$ ), and boundary attack，六种攻击方法生成对抗样本。
在这里插入图片描述
上表反映了k-NNG 鉴别器对不同邻居数的检测性能 (AUC)

上图反映了良性样本和对抗样本在不同攻击方式下的t-SNE可视化结果。

上图展示了本文所提方法比传统方法在CIFAR-10上的性能优势。

上表展示了与不同检测方法的对比效果。
在这里插入图片描述
上图展示了FGSM和AutoAttack在STL-10数据集上的ROC-AUC曲线。

上表显示了本文所提方法在使用干净与对抗参考集上的 (AUC) 性能。

上表展示了使用不同连接方式的 (AUC) 性能比较。 NC：节点之间没有连接，AC：全连图，CC：只有中心节点连接到所有节点。