什么是FGSM
Fast Gradient Sign Attatck(FGSM) 是一种很直观的迷惑基于BP算法训练出的模型的攻击方法, 出自 Explaining and Harnessing Adversarial Examples。基于FGSM的攻击需要了解目标模型内部细节,其目的也只是降低目标模型的分类精度,并不能控制模型误分后的结果。
上图是一个FGSM的例子,左侧第一幅图x可以被目标模型正确识别成熊猫,置信度57.7%。中间的图是模型误差对图像x的梯度图像,这个图像和原图相加后,尽管人眼看上取差别不大(扰动幅度只有0.007),但是目标模型却误判成了gibbon(长臂猿),而且置信度达到99.3%。
这个例子展示了FGSM的思路:
- 计算模型error相对于输入数据的梯度
forward( d a t a o l d data_{old} dataold)
grad = backword( d a t a