（一）深度神经网络的安全性和可信度的调查----验证、测试、对抗性攻击和防御，以及可解释性

本文链接：https://blog.csdn.net/xhdll/article/details/138411086

在过去的几年中，深度神经网络（DNNs）在几个长期任务上实现人类水平的表现方面取得了重大进展。随着dnn在各种应用上的广泛应用，人们对其安全性和可信度的担忧被公开提出，特别是在广泛报道涉及自动驾驶汽车的致命事件之后。解决这些问题的研究尤其活跃，在过去的几年里发表了大量的论文。本文回顾了目前旨在使DNN安全、值得信赖的研究工作，重点关注四个方面：验证、测试、对抗性攻击和防御，以及可解释性。我们总共调查了202篇论文，其中大部分是在2017年之后发表的。

由于本文引用参考文献较多，考虑到篇幅原因，我们将对验证、测试、对抗性攻击和防御中的部分内容进行省略，介绍其中的核心内容。

在这里插入图片描述

一、引言

在过去的几年里，深度神经网络（DNN）的发展取得了重大进展，现在它在一些困难的任务上表现优于人类，例如图像分类 [Russakovsky et al., 2015]、自然语言处理 [Collobert et al., 2015]、自然语言处理 [Collobert et al., 2015] al., 2011] 和两人游戏 [Silver et al., 2017]。鉴于 DNN 在广泛应用中广泛部署的前景，人们对这种方法的安全性和可信度提出了担忧 [Tes, 2018, Ube, 2018]。过去几年出现了许多旨在解决这些问题的重要研究，并发表了许多出版物。

虽然很难涵盖所有相关的研究活动，但我们努力调查过去和现在的研究努力，使dnn的应用安全和值得信赖。图1显示了这一领域的快速增长：它给出了从2008年到2018年的每一个日历年被调查的论文数量。我们总共调查了202篇论文。
在这里插入图片描述
信任或可信度是一个通用术语，其定义在不同的上下文中有所不同。我们的定义基于汽车和航空电子设备等成熟行业中广泛采用的实践。具体来说，可信度主要通过两个过程来解决：认证过程和解释过程。认证过程在产品部署之前进行，以确保其正常（且安全）地运行。在认证过程中，制造商需要向相关认证机构（例如欧洲航空安全局或车辆认证机构）证明其产品符合一系列高级别要求。我们认为，在使用数据驱动的深度学习系统时应该进行类似的实践。也就是说，在本次调查中，我们基于以下概念来讨论可信度：

Trustworthiness = Certification + Explanation

换句话说，如果一个系统已经被认证机构认证，并且它的任何行为都可以被很好地解释，那么用户就能够信任该系统。
接下来将分别对certification和explanation进行介绍。

1.1 认证
对于认证而言，DNN 的一个重要的低级要求是它们对输入扰动具有鲁棒性。 DNN 已被证明缺乏鲁棒性，因为它们对对抗性示例很敏感 [Szegedy et al., 2014]，因此对输入的微小修改（有时人类无法察觉）可能会使网络不稳定。

DNN 验证技术确定某个属性（例如给定输入 x 的局部鲁棒性）是否适用于 DNN；如果成立，用数学证明来补充答案可能是可行的。否则，此类验证技术将返回反例。虽然 DNN 验证技术很有前景，但由于 DNN 的高计算复杂性和大尺寸，它们面临可扩展性问题。到现在，DNN 验证技术要么使用小规模 DNN，要么使用在边界上具有收敛保证的近似方法。

DNN 测试技术是作为 DNN 验证的补充而出现的技术。测试技术不是为系统上的属性的可满足性提供数学证明，而是旨在通过使用大量测试用例来测试系统来发现错误（即属性的反例）或提供保证案例 [Rushby，2015] 。这些测试技术的计算成本较低，因此能够与最先进的 DNN 配合使用。特别是，覆盖引导测试根据到预先指定的覆盖标准。直观上，高覆盖率表明 DNN 的更多行为已经过测试，因此 DNN 包含未检测到的错误的可能性较低。

1.2 可解释性
可解释AI的目标是克服AI的可解释性问题；也就是说，解释为什么人工智能会输出一个特定的决定，比如在决定是否给某人贷款时。欧盟通用数据保护条例（GDPR）要求有“解释权”，这意味着可以要求解释该模型是如何达成其决定的。虽然这种“可解释性”请求对终端消费者肯定是有益的，但从DNN获取此类信息对于DNN的开发人员来说是一项挑战。

二、安全问题和安全性能

尽管深度学习（DL）在许多领域都取得了成功，但在将dnn应用于现实世界的安全关键系统，如自动驾驶汽车、自动医疗诊断等方面，已经引起了严重的关注。在本节中，我们将讨论dnn的关键安全问题，并提出一组分析技术正在使用的安全特性。

2.1敌对的例子
错误的行为包括那些被模型错误分类并具有安全影响的训练和测试样本。敌对的例子代表了另一类错误行为，也引入了安全影响。在这里，由于历史原因，我们取“对抗的例子”。实际上，正如下面的定义所示，它代表了人类和神经网络所做决策的不匹配，并不一定涉及对手。

在这里插入图片描述

在这里插入图片描述
直观地说，x是DNN和一个人类用户具有相同分类的输入，基于此，一个对抗的例子是另一个输入ˆx与网络f分类不同的输入ˆx，即使它们在输入空间中在地理上很接近，而人类用户则认为他们应该是一样的，我们不考虑由人工操作符引入的标签错误，因为它是贝叶斯误差的一部分，对于一个给定的分类问题是不可约的。另一方面，我们在本文中回顾的方法是针对估计误差的，它测量了学习到的网络N与相同体系结构的最佳网络有多远。

图4显示了在安全关键应用场景中潜在使用dnn所带来的安全问题的三个具体例子，包括：医疗诊断系统、自动驾驶汽车和医疗记录的自动情绪分析。
在这里插入图片描述
图4：在深度学习模型上的错误行为的例子。
第一行：在医疗诊断系统中，“良性”肿瘤在添加了少量人类难以察觉的扰动后被误分类为“恶性”；
第二行：通过改变“绿灯”图像中的一个像素，最先进的DNN将其误分类为“红灯”；
第三行：在医疗记录情绪分析任务中，使用两个拼错的单词，一个训练有素的深度学习模型将“积极”医疗记录归类为“负面”。

例3如图4最上行所示，对于fMRI成像图像，一个人看不见的扰动将使dl支持的“恶性肿瘤”诊断决策转变为“良性肿瘤”。在这种情况下，人类神谕是医学专家。

例4，如图4的第二行所示，在分类任务中，通过添加少量的对抗性扰动(w.r.t.Lp-norm距离)，dnn将交通标志“红灯”图像错误分类为“绿灯”。在这种情况下，人类决策预测H的近似方法是说明在非常小的lp范数距离内的两个输入是相同的。

例5在自动驾驶汽车上部署的支持dl的端到端控制器中，通过添加一些自然转换，如“雨”，控制器将输出错误的决策“左转”，而不是正确的决策“右转”[Zhang et al.，2018b]。然而，很明显，从人类司机的角度来看，加上“雨”不应该改变汽车的驾驶决定。

例6如图4的下面一行所示，对于医疗记录，一些轻微的拼写错误——经常发生在医疗记录中——会导致诊断结果的严重错误分类，从“阳性”到“阴性”。

正如我们所看到的，这些作用于dnn的不安全或错误的现象本质上是由DL模型（从训练数据集学习到的）和人类神谕的决策边界不一致造成的。这不可避免地引起了关于DL模型是否可以安全地应用于安全关键领域的重大关注。下面，我们回顾文献中研究的一些安全特性。

2.2 局部鲁棒性
鲁棒性要求一个DNN的决策对小的扰动是不变的。
定义8（局部鲁棒性）给定一个DNN N及其相关函数f，以及一个输入区域η⊆[0,1]，f在η上的（非目标）局部鲁棒性定义为
在这里插入图片描述
对于标签j的目标局部鲁棒性，其定义为

直观地说，局部鲁棒性表明，区域η中的所有输入都具有相同的类标签。更具体地说，存在一个标签l，对于区域η中的所有输入x，以及其他标签j，DNN认为x比在任何类j中都更有可能出现在类l中。此外，目标局部鲁棒性意味着对于η中的所有输入都不能对特定的标签j进行扰动；具体来说，所有输入x在η中有一个类l≠j，DNN认为它比类j更有可能。通常，区域η是根据一个输入x和一个范数Lp来定义的，如定义5中所示。如果是这样，这意味着η中的所有输入都与输入x具有相同的类。为了实现目标局部鲁棒性，要求区域η中的任何输入都不被归类为给定的标签j。下面，我们为局部鲁棒性属性定义了一个测试oracle。请注意，所有被调查的现有测试方法都与局部鲁棒性相关，因此我们只提供了局部鲁棒性的测试预测器。

2.3 输出可达性属性
输出可达性计算关于给定输入集的输出集。在形式上，我们有以下定义。定义10（输出可达性）给定一个DNN N及其相关的函数f，以及一个输入区域η⊆[0,1]，f和η的输出可达集合是一个集合到达（f，η），例如
在这里插入图片描述
区域η包含大量的、可能是无限的输入，因此没有任何实用的算法可以详尽地检查它们的分类。由于这个原因，输出可达性问题是非常不平凡的，而f是高度非线性的（或黑盒）。在此基础上，我们可以定义以下验证问题。

定义11（输出可达性的验证）给定一个DNN N及其相关的函数f、一个输入区域η⊆[0,1]1和一个输出区域Y，对f、η和Y上的输出可达性的验证将确定是否
在这里插入图片描述
因此，可达性的验证决定了η中的所有输入是否都映射到给定的输出集合Y上，以及Y中的所有输出在η中是否都有相应的x。作为一个更简单的问题，我们可能对计算集合Reach（f，η）的特定维度感兴趣，它的最大或最小值；例如，特定标签的最大分类置信度。我们把这样的问题称为可达性问题。

2.4 区间属性
区间特性计算输出可达集的凸过逼近。我们遵循基于间隔的方法的命名约定，这是计算该属性的一类典型方法。在形式上，我们有以下定义。

定义12（区间属性）给定一个DNN N及其相关的函数f，以及一个输入区域η⊆[0,1]s1，f和η的区间属性是一个凸集区间（f，η），例如
在这里插入图片描述
理想情况下，我们期望这个集合是{f (x) | x∈η}中的点的凸包。一组点的凸包是包含这些点的最小凸集。

虽然这样一个集合的计算可能是简单的，因为[0,1]1⊇{f (x) | x∈η}，但期望区间（f，η）尽可能接近{f (x) | x∈η}，即理想情况下，它是一个凸包。直观地说，区间是输出可达性的过逼近。在此基础上，我们可以定义以下验证问题。

定义13（区间属性的验证）给定一个DNN N及其相关的函数f，一个输入区域η⊆[0,1]，和一个输出区域Y表示为一个凸集，对f、η和Y上的区间属性的验证将确定是否
在这里插入图片描述
换句话说，它是为了确定给定的Y是否是一个满足表达式（14）的区间。直观地说，区间属性的验证确定是否所有输入η映射到y.类似于可达性属性，我们也可能对更简单的问题，例如，确定一个给定的实数d是一个有效的上界的特定维度{f (x) | x∈η}。

3.5 利普希茨性质

利普希茨特性，受到利普希茨连续性的启发（见教科书，如[OSearcoid，2006]），根据输入的微小变化来监测输出的变化。定义14（利普希茨性质）给定一个DNN N及其相关函数f，一个输入区域η⊆[0,1]1和lp范数，
在这里插入图片描述
是f、η和Lp的利普希兹度量。

直观地说，这个度量的值是最好的利普希茨常数。因此，我们有以下验证问题。
定义15（验证∈性质）给定一个∈度量唇（f，η，Lp）和一个实值d∈R，必须确定是否
在这里插入图片描述

3.6属性之间的关系
图5给出了上述四个属性之间的关系。从值A到另一个值B的箭头表示存在一个简单的计算，使基于a计算B。例如，给定一个利氏度量嘴唇（f，η，Lp）和η = η（x，Lp，d），我们可以计算一个区间
在这里插入图片描述

在这里插入图片描述
图5：属性之间的关系。从一个值A到另一个值B的箭头表示存在一个简单的计算，以便基于a计算B。Lips（f，η，Lp）和Reach（f，η）之间的虚线箭头意味着计算更复杂。

可以验证，区间（f，η）⊇{f (x) | x∈η}。给定一个区间间隔（f，η）或一个可达集Reach（f，η），我们可以通过确定以下表达式来检查它们各自的鲁棒性：
在这里插入图片描述
其中，yl是输出向量y的l-条目。Reach（f，η）和区间（f，η）之间的关系是一种暗示关系，可以从它们的定义中看出。实际上，如果我们能精确地计算集合Reach（f，η），就可以很容易地计算出另一个凸集区间（f，η）。
此外，我们在Lips（f，η，Lp）和Reach（f，η）之间使用虚线箭头，因为计算更涉及到算法。

3.7即时性的可解释性

首先，我们需要对给定输入的解释有一个排名。
定义16（人类解释排序）设N是一个具有相关函数f的网络，而E⊆Rt是一组可能的解释。我们定义了一个评估函数evalH：
Rs1×E→[0,1]，它为每个输入∈Rs1和每个解释分配[0,1]中的概率值evalH（∈，e），这样越高的值表明对e超过x的解释越好。

直观地说，evalH（x，e）是人类用户对解释e的排名。例如，给定一个图像和一个突出显示部分图像的解释算法，人类用户能够对所有突出显示的图像进行排序。虽然这种排名可以被视为实例级可解释性的基本事实，类似于使用距离度量来衡量人类的感知，但它很难近似。基于此，我们有了以下定义。

定义17（解释的有效性）设f是一个DNN N，x是一个输入，而>0是一个实数的关联函数，expl（f，x）∈E⊆Rt是一个有效的实例级解释，如果
在这里插入图片描述
直观地说，如果一种解释应该是人类用户排名足够高的解释之一，那么该解释是有效的。