论文题目:The Adversarial Attack and Detection under the Fisher Information Metric(AAAI2019)
论文地址:https://arxiv.org/pdf/1810.03806.pdf
作者:孙裕道
一
核心思想
本论文从信息几何的角度为深度模型的脆弱性提出了一种合理的解释。通过将数据空间视为具有从神经网络诱导的Fisher信息度量的非线性空间,并提出另一种攻击算法单步谱攻击(OSSA),该方法由Fisher信息矩阵的约束二次型形式描述,其中最优的对抗扰动由第一特征向量给出,并且脆弱性由特征值反映。特征值越大,模型越容易被相应的特征向量攻击。 利用该属性,我们还提出了一种特征值作为特征的对抗性检测方法。
二
论文的贡献
在深度模型脆弱性的解释中,引入Fisher信息矩阵(FIM)具有3个重大意义:
FIM是KL散度的Hssian矩阵,它是概率分布有意义的度量方式。
FIM是对称且半正定的,使得对矩阵的优化更加简单有效。
只要输出的概率可能性没有变化,FIM对于重新参数化也是不变的。
本文的贡献可以分为以下三个部分:
提出了一种基于信息几何的攻击深度神经网络的新算法。该算法可以表征邻域中的多个对抗子空间,并且可以在不同条件下对深度模型进行高成功率的攻击。
采用FIM的特征值作为检测对抗性攻击的特征。分析表明,特征值为其特征的分类器对各种最先进的攻击具有鲁棒性。
为深度学习漏洞提供了一种新颖的几何解释。理论结果证实了该攻击方法的优越性,并作为表征深度学习模型脆弱性的基础。
三
Fisher信息度量下的对抗攻击
3.1 对抗攻击的目标函数
对抗扰动会使得概率由正确的概率输出变为错误的概率输出,用KL散度度量概率的变化情况,则优化目标可以总结为如下形式:
假定对抗足够小,则可以对似然函数进行二阶泰勒展开,会有如下的FIM简单的二阶形式:
其中,样本的Fisher信息量为
证明:
其中,
计算如下:
计算如下:
又容易推导出:
从而根据式子(6),(7),(8)可知,所以有: