在阅读对抗攻击相关文献的时候,经常遇到一些专业术语,经过查找资料在这里整理下相关笔记。
1.对抗样本/图片(Adversarial Example/Image)
对抗样本/图片指的是在原始样本添加一些人眼无法察觉的噪声,这样的噪声不会影响人类的识别,但是却很容易愚弄模型,使其做出与正确答案完全不同的判定。
2.扰动/对抗扰动(Adversarial perturbation)
使得原始图片成为对抗样本所需要添加的噪声。
3.对抗训练(Adversarial Training)
除了原始图片样本之外还使用到对抗样本作为训练数据的一种训练方式。
4.对手(或者对抗方)(Adversary)
广泛地来说,对抗方指的是产生对抗样本的代理(agent)。然而,有的时候对抗样本 本身也被称作对抗方。
5. 模型鲁棒性
指模型的对抗鲁棒性,针对对抗攻击技术 ,自身防御效果良好的模型,则称该模型具有较好的鲁棒性。
6.通用对抗扰动(Universal Adversarial Perturbations)
7. 对抗扰动的迁移攻击性
针对目标模型 A ,在输入样本x 上生成对抗扰动 r 。当扰动 r 叠加在针对目标模型 B 的输 ,入样本上后能够使得模型 B 推理错误的现象称为对抗扰动 的迁移攻击性。如果对抗扰动能够在目标模型 B 的大 部分数据点上使模型推理错误,则称该对抗扰动具有很好的 迁移攻击能力。利用对抗样本的迁移攻击性进行攻击是一种 有效的对抗攻击方式。
8. 攻击成功率
利用对抗攻击技术生成对抗样本输入目标 模型后,模型推理错误样本数占所有输入样本数的百分比, 有时也用模型对对抗样本的分类准确率表示,模型对对抗样 本的分类准确率越低说明攻击者的攻击成功率越高。
9.探测器(Detector)
探测器用来判断一张图片是否是对抗样本
10.愚弄率(Fooling ratio/rate)
愚弄率指的是一个被训练过的模型在图片被干扰之后改变其原本预测的类别的比例。
11.单步方法(one-shot/one-step methods)
单步方法通过执行单步计算来产生对抗干扰,比如:计算一次模型的loss的梯度。与之对应的是迭代方法,这类方法为了得到一次扰动需要多次执行相同的计算。迭代方法毫无疑问在计算代价上是十分昂贵的。
12.外观不可感知的(Quasi-imperceptible)
对抗样本引入的干扰可以微小到不被人类感知。
13.修正器(Rectifier)
修正器会将对抗样本在特定模型上的预测结果修正成与原始样本的预测结果一致。
14.有目标攻击(Targeted attacks)
有目标攻击会让模型将对抗样本错误地分成某种特定的类别。与之相对的是无目标攻击。无目标攻击的目的相对简单,它只追求让模型分错,并不追求到分成何种类型。
15.威胁模型(Threat model)
威胁模型指的是被一种方法所考虑到的潜在的攻击。(比如:黑盒攻击)
16.迁移性(Transferability)
迁移性指的是对抗样本即便在攻击其他模型(指的是不是用来生成该对抗样本的模型)时仍能够保持其有效的一种品质。
17.通用干扰(Universal perturbation)
通用干扰能够在任意的图片上愚弄到模型。需要指出的是:通用性指的是干扰在对“图像没有任何知识”的情况下的性质,与之前提到的迁移性是不一样的。
18.黑盒攻击(Black-box attacks)
不知道被攻击模型的具体细节,称之为黑盒攻击。在一些情况下,也会假设对抗方对模型有十分有限的了解(比如:模型的训练过程和/或其结构),但是绝对不知道模型的参数。在另外的一些情况下,使用到任何与目标模型相关的信息都被认为是 半黑盒攻击(semi-black-box attack)。
19.白盒攻击(White-box attacks)
是指被攻击的模型是已知的,包括网络结构及权值参数信息。
20.无目标(Non-targeted)攻击
非定型攻击指被攻击的模型的输出只要是错误的,就可以了。如原图像是小猫,添加干扰形成对抗样本输入到模型中,模型输出错误,输出结果可以是小狗也可以是小羊或者是其他,只要求是错误的。
21.有目标(Targeted)攻击
定向攻击指被攻击模型的错误输出为特定类别。如原图像是小猫,生成的对抗样本使DNN模型错误分类为攻击者想要的小狗。