“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
论文题目:基于因果推断的可解释对抗防御
Towards Interpretable Defense Against Adversarial Attacks via Causal Inference
论文作者:任民(中国科学院大学,中科院自动化所),王云龙(中科院自动化所),何召锋(北京邮电大学)
收录期刊:Machine Intelligence Research (MIR)
论文DOI:10.1007/s11633-022-1330-7
01
研究动机
1.1 研究背景
深度学习开启了人工智能的新时代。在这个属于深度神经网络的“镀金年代”中,深度学习模型在众多任务中攻城略地,狂飙突进。然而猛然间人们却发现,只需要对输入样本进行微小扰动(对抗攻击),其输出结果就会发生灾难性的错误。这意料之外的脆弱性仿佛漂浮在晴朗天空一角的乌云,为这个时代投下了令人不安的阴影。
图一:对抗样本。在原图中添加很小的扰动即可操纵模型输出。
面对对抗攻击带来的威胁,一个简单粗暴的思路首先被想到:将对抗样本引入训练过程,通过训练提升神经网络的对抗鲁棒性。这可以说是深度学习时代的典型解法:不需要知道模型为什么出现问题,只需要将出现错误的样本引入训练,依靠模型强大的拟合能力“记住”这些错误。然而这个试图暴力破解的方法却仿佛一拳打在了棉花上:那些引入训练的对抗样本确实得以解决,然而更多的对抗样本种类却如幽灵般浮现。而对抗训练得到的模型在不同种类的对抗样本之间的泛化性却几乎没有。暴力破解、“一力降十会”在对抗样本面前变得苍白无力。
直到这时,也许我们才能真正体会对抗样本投下的阴影中所透出的寒意。它不是在现有方法论的基础上小修小补所能够解决的,它是对基于统计观察的“数据驱动”这一深度学习的底层逻辑的挑战。
1.2 方法动机
暴力破解的失败强迫我们静下心来,让我们的头脑冷却下来重新审视对抗样本,它已经