神经网络很容易受到攻击。根据威胁模型的不同,这些攻击可以有不同的目的,如模型窃取[1],成员推理[2]和输出操纵[3]。本文关注的是输出操纵攻击,这通常被称为对抗性攻击。对抗性攻击广泛地跨越了图像[3]、视频[4]、文本[5]和图形[6]等领域。我们的研究重点是图像域,因为它被广泛探索,并且有多个基线进行全面和公平的比较。根据攻击者所针对的学习管道部分,对抗性攻击可以进一步分为两大类:毒化攻击和逃避攻击。
在逃避攻击中,攻击者在推理过程中篡改输入以改变输出;在毒攻击中,攻击者会在模型中注入一个后门以供以后利用。
各种因素导致神经网络的脆弱性,包括数据稀缺、过度拟合和学习偏差等。了解这些弱点并进一步改进神经网络是必不可少的,但也是具有挑战性的任务。为了更有效地找出这个问题的瓶颈,可以将神经网络与经典的统计模型(如逻辑回归)进行比较。这两种模型都面临着类似的问题,如过度拟合和学习偏差。然而,由于其封闭的解析形式,我们可以优雅地推导出统计模型的样本复杂度以防止过拟合或使用核函数来满足其固有的线性分离要求。不幸的是,这些技术不适用于神经网络。
神经网络的分析因其非线性转换、真实数据分布和学习过程而变得复杂。这些复杂技术的结合似乎使模型难以进一步分析或利用。因此,对抗性攻击和防御的常见方法是将神经网络视为黑盒,只关注输入