研究背景
相比于广泛研究的神经网络对抗攻防方法,神经网络的鲁棒性很少有研究人员进行解释,因此需要一种手段对其进行解释并提供度量方法。
本文贡献
- 本文提出了一种可视化loss的方法对对抗攻击和防御及模型鲁棒性进行解释。
- 本文提出了一种度量神经网络鲁棒性的指标,并通过实验证明这种量化指标优于分类准确率这一评判指标。
主要方法
1、Loss可视化
loss是与输入x和神经网络参数 θ \theta θ相关的数据,但二者的维度过高,因此,需要将loss在2D空间可视化,由以下公式给出可视化规则:
其中,F为使用的Loss函数,如交叉熵等;o为原点,代表原始图片, α \alpha α、 β \beta β代表两个单位向量,即可视化空间的基向量;i、j为可视化空间中的某点。该方法为在input空间中寻找对应的loss。