【全文翻译】ML-Leaks: Model and Data Independent Membership Inference Attacks and Defenses on Machine.....

最新推荐文章于 2022-05-04 22:58:18 发布

白菜苗

最新推荐文章于 2022-05-04 22:58:18 发布

阅读量1.1k

点赞数 11

分类专栏：机器学习文献翻译文章文章标签：神经网络机器学习成员推理攻击

本文链接：https://blog.csdn.net/weixin_43682519/article/details/110678752

版权

机器学习文献翻译文章专栏收录该内容

14 篇文章 10 订阅

订阅专栏

ML泄漏：基于机器学习模型的模型和数据无关的成员推理攻击与防御

摘要–机器学习（ML）已成为许多实际应用的核心组成部分，而训练数据是推动当前进展的关键因素。这一巨大的成功促使互联网公司部署机器学习即服务（MLaaS）。最近，第一次成员推理攻击表明，在这种MLaaS设置中提取训练集上的信息是可能的，这具有严重的安全性和隐私性。

然而，这种攻击的可行性的早期证明对对手有许多假设，例如使用多个所谓的影子模型、了解目标模型结构、拥有与目标模型训练数据相同分布的数据集。我们放宽了所有这些关键假设，从而表明此类攻击以较低的成本非常广泛地适用，因此构成了比先前认为的更严重的风险。我们使用八个不同的数据集展示了迄今为止对这一新兴和发展中的威胁的最全面的研究，这些数据集显示了所提议的跨域攻击的可行性。

此外，我们提出了第一个有效的防御机制，以防止这类更广泛的成员推理攻击，保持ML模型的高水平实用性。

I. INTRODUCTION

机器学习（ML）已经成为许多实际应用的核心组成部分，从图像分类到语音识别。ML的成功最近推动了领先的互联网公司，如Google和Amazon，部署了机器学习即服务（MLaaS）。在这种服务下，用户将自己的数据集上传到服务器，服务器将一个经过训练的ML模型返回给用户，通常是一个黑盒API。

尽管ML模型很流行，但它容易受到各种安全和隐私攻击，例如模型反转[12]、对抗性示例[15]和模型提取[43]、[30]、[45]。在本文中，我们集中讨论了一种这样的攻击，即成员推理攻击。在这种情况下，对手的目标是确定是否使用数据项（也称为数据点）来训练ML模型。成功的成员推理攻击会造成严重后果。例如，如果一个机器学习模型是根据从患有某种疾病的人身上收集的数据进行训练的，那么攻击者可以通过知道受害者的数据属于该模型的训练数据，立即了解受害者的健康状况。以前，成员推理已经成功地应用于许多其他领域，如生物医学数据[2]和流动性数据[35]。

Shokri等人[38]首次提出了针对机器学习模型的成员推理攻击。这种攻击的一般思想是使用多个机器学习模型（每个预测类一个），称为攻击模型，对目标模型的输出（即后验概率）进行成员推理。鉴于目标模型是一个黑匣子API，Shokri等人提出构建多个影子模型来模拟目标模型的行为，并导出训练攻击模型所需的数据，即后验和正确打标记的数据（ground truth）成员。

Shokri等人提出了两个主要假设[38]。首先，攻击者需要建立多个阴影模型，每个模型与目标模型共享相同的结构。这是通过使用训练目标模型来构建阴影模型的相同MLaaS来实现的。其次，用于训练阴影模型的数据集来自与目标模型训练数据相同的分布，这种假设适用于大多数攻击评估[38]。作者进一步提出合成数据生成来放宽这一假设。然而，出于效率考虑，这种方法只能应用于包含二进制特征的数据集。

这两个假设是相当强的，这在很大程度上减少了针对ML模型的成员推理攻击的范围。在本文中，我们逐渐放宽这些假设，以证明更广泛适用的攻击场景是可能的。我们的研究表明，事实上，在ML中进行成员推理可以用比先前考虑的更少的假设更容易地执行。为了弥补这种情况，我们进一步提出了两种有效的防御机制。

成员推理攻击。基于阴影模型的设计和训练数据，我们研究了三种不同类型的对手。如表1所示，我们在此逐步放宽先前工作的假设，直到我们达到模型和数据独立的对手。
在这里插入图片描述
对手1。对于第一个对手，我们假设她有一个与目标模型训练数据来自同一分布的数据集。在这里，我们集中在放松阴影模型上的假设。

我们首先使用一个而不是多个阴影模型来模拟目标模型的行为。由于影子模型是通过MLaaS建立的，MLaaS实现了按查询付费的业务模型，因此使用一个影子模型可以显著降低执行成员推理攻击的成本。

广泛的实验评估（我们在多种机器学习模型下使用从图像到文本的八个不同的数据集）表明，使用一个阴影模型和一个攻击模型，对手可以获得与Shokri等人[38]报告的非常相似的性能。例如，当目标模型是在CIFAR-100数据集上训练的卷积神经网络（CNN）时，我们的简化攻击达到了0.95的准确率和0.95的召回率，而使用10个阴影模型和100个攻击模型的攻击（如前面的工作[38]）具有0.95的精确度和0.94的召回率。

然后，我们放松了阴影模型与目标模型构造方法相同的假设，特别是，我们证明了使用不同的结构和参数训练阴影模型仍然可以获得相当的攻击性能。此外，我们提出了一种新的阴影模型训练方法，使对手不必知道目标模型所使用的ML模型的类型。

对手2。对于这个对手，我们假设她没有来自与目标模型训练数据相同分布的数据。而且，对手不知道目标模型的结构。与前一个相比，这是一个更现实的攻击场景。

在这种情况下，我们提出了一种针对成员推理的数据传输攻击。具体来说，我们使用不同的数据集训练我们的单个阴影模型。这意味着这里的阴影模型不是用来模拟目标模型的行为，而是用来捕捉机器学习训练集中数据点的成员身份。

我们的数据传输攻击的主要优点是对手不需要查询目标模型来生成同步数据。相比之下，前面的方法[38]平均需要156个查询来生成单个数据点。这意味着我们的数据传输攻击效率更高，成本更低，更难被MLaaS提供商检测到。

实验结果表明，成员推理攻击仍然取得了很好的性能，与第一个对手相比只下降了几个百分点。更重要的是，我们发现我们的数据传输攻击甚至可以在属于完全不同域的数据集之间工作。例如，通过使用20个新闻组文本数据集训练阴影模型，我们能够获得攻击在CIFAR-100图像数据集上训练的目标模型的0.94精确度和0.93召回率。

对手3。这种攻击不需要任何阴影模型，也就是说，当使用目标数据点进行查询时，攻击只依赖于从目标模型获得的后验（结果）。根本不需要训练程序。结果表明，基于目标模型后验点的最大值和熵等统计指标可以很好地区分成员数据点和非成员数据点。为了进行具体的成员，我们提出了一种阈值选取方法。实验表明，这种简单的攻击仍然可以对多个数据集进行有效的推理。

所有这些实验结果表明，成员推理可以更简单、更有效地进行，这进一步证明了ML模型的严重风险。

防守。为了降低成员风险，我们提出了两种防御机制，即随机失活（dropout）和模型叠加。

随机失活（dropout）。成员推理攻击有效性背后的一个原因是机器学习模型固有的过度拟合特性。当ML模型面对一个训练它的数据点时，它返回一个类相对于其他类的高后验值。因此，为了防止成员推理，我们采用了一种在深度学习中采用的经典方法，即随机失活（dropout），旨在防止过度拟合。在一个完全连通的神经网络模型中，在每一次训练迭代中随机删除一个固定比例的边。

在多个数据集上的实验表明，随机失活是一种非常有效的抗成员推理的方法。在CIFAR-100数据集上，随机失活（随机失活率为0.5）使我们的第一个对手的性能分别从0.95预测值和0.95召回率降低到0.61和0.60。此外，它几乎保留了与初始目标模型相同的效用：目标模型的预测精度仅从0.22降到0.21（CIFAR-100）。由于dropout是一个正则化器，我们观察到，对于一些学习问题，例如Purchase100数据集[38]，应用dropout后目标模型的精度甚至提高了。因此，这些模型提高了成员推理攻击的性能和弹性。

模型堆叠。虽然随机失活机制是有效的，它是特定于深层神经网络。对于使用其他机器学习分类器的目标模型，我们提出了第二种防御机制，即模型堆叠。模型堆叠是集成学习中的一个重要课程。在模型堆叠中，多个ML模型以分层方式组织以防止过度拟合。在我们的例子中，我们用三种不同的机器学习模型来构造目标模型。将两个模型直接放入第一层，以原始训练数据为输入，第三个模型用前两个模型的后验点进行训练。

通过大量的实验，我们发现模型叠加可以显著降低成员推理的性能。例如，在使用模型叠加训练的CIFAR100数据集上，攻击的精确度和召回率（对手1）都下降了30%以上。同时，目标模型的预测性能基本保持不变。

总之，我们作出以下贡献：

我们通过大幅放宽对抗性假设来扩大成员推理攻击的类别。
我们在八个不同的数据集上，在三种不同的对抗设置下评估成员隐私威胁，最终得出一个模型和数据独立的对手。大量实验证明了机器学习模型的严重成员隐私威胁。
我们提出了两种防御机制，即随机失活和模型堆叠，并通过实验证明了它们的有效性。

组织。论文的其余部分安排如下。第二节介绍了本文所使用的ML模型和数据集的成员推理的定义。第三节、第四节和第五节分别介绍了我们三种不同类型对手的威胁模型、攻击方法和评估。第六节介绍了两种防御机制。第七节讨论相关工作，第八节总结全文。

II. PRELIMINARIES（准备工作）

在这一节中，我们首先在机器学习设置中定义成员推理攻击。然后，我们介绍了用于评估的数据集。

A. Membership Inference Against Machine Learning Models（基于机器学习模型的成员推理）

本文主要研究机器学习分类，因为它是最常见的机器学习应用。ML分类器本质上是一个函数 $M$ ，它将数据点 $X$ （多维特征向量）映射到输出向量 $M （ X ） = Y$ 。 $Y$ 的长度等于考虑的类的数量。对于大多数分类模型，输出向量 $Y$ 可以解释为所有类别的后验概率集合， $Y$ 中所有值之和为1。ML模型的参数是在一个训练数据集（用 $D_{Train}$ 表示）上学习的，该数据集包含一个预定义的学习对象之后的多个数据点。

当对手试图找出目标数据点是否用于训练某个ML模型时，ML设置中的成员推理攻击就会出现。更正式地说，给定一个目标数据点 $x_{Target}$ ，一个经过训练的机器学习模型M，以及一个对手的外部知识，用 $K$ 表示，成员推理攻击（攻击模型）可以定义为以下函数。

在这里插入图片描述
这里，0表示 $x_{Target}$ 不是 $M$ 的训练数据集 $D_{Train}$ 的成员，否则为1。敌方目标的机器学习模型 $M$ 也称为目标模型。在Shokri等人[38]的工作中，我们假设敌方对目标模型只有黑盒访问权，例如MLaaS API，即敌方可以向 $M$ 提交一个数据点，然后获得概率输出，即 $M$ （ $x_{Target}$ ）。

分类器 $A$ 本质上是一种二元攻击模型。根据假设，可以用不同的方式构建，这将在后面的章节中介绍。

B. Datasets Description（数据集描述）

本文利用8个不同的数据集进行实验。其中，有6个数据集与Shokri等人[38]使用的数据集3相同，即MNIST、 CIFAR-10、CIFAR100、Location[47]、Purchase、和Adult。我们按照相同的程序对所有这些数据集进行预处理。

特别是，采购数据集不包含任何预测类。在Shokri等人[38]之后，我们采用了一种聚类算法，即K-均值，来手动定义类。类的数量包括2、10、20、50和100，因此，我们将采购数据集扩展为5个数据集。例如，Purchase-100表示包含100个不同类的Purchase数据集。

此外，我们在评估中使用了另外两个数据集，即新闻和人脸。我们将在下面简要介绍它们。

新闻。新闻数据集（20个新闻组）是用于文本分类和聚类的最常见的数据集之一。数据集由20000个新闻组文档组成，这些文档分为20个类。属于每个类的数据点数量非常相似，即数据集具有均衡的类分布。我们通过首先从文档中删除页眉、页脚和引号来预处理新闻数据集。然后，我们根据原始文档构建TF-IDF矩阵。

人脸。人脸数据集（在Wild7中标记为Faces）由大约13000张从网上抓取的人脸图像组成。它是从1680个参与者中收集的，每个参与者在数据集中至少有两个不同的图像。在我们的评估中，我们只考虑拥有40多张图片的人，这就给我们留下了19个人的数据，即19个类。人脸数据集对于人脸识别来说是一个挑战，因为图像是从web上获取的，而不是在实验室等受控环境下进行的，值得注意的是，该数据集是不平衡的。

III. TOWARDS MODEL INDEPENDENT MEMBERSHIP INFERENCE ATTACKS (ADVERSARY 1) （模型无关成员推理攻击（对手1））

在这一节中，我们描述了我们考虑的第一个针对成员推理攻击的对手。对于这个对手，我们主要放松对她的影子模型设计的假设。因此，成员推理攻击可以以一种更有效、成本更低的方式执行。

我们从定义威胁模型开始。然后，我们描述了我们的第一个简化，即使用一个阴影模型而不是多个阴影模型。最后，我们提出了第二种简化方法，使对手不必知道目标模型的结构。

A. Threat Model（威胁模型）

我们将攻击模型 $A$ 定义为一个带有二进制类（成员或非成员）的监督ML分类器。为了训练 $A$ ，敌方需要得到标记的训练数据。正确打标记的数据(ground truth)成员。如第二节所述，敌方对目标模型只有黑盒访问权，即无法从目标模型中提取成员身份。因此，对手训练一个影子模型[38]来模仿目标模型的行为，并依靠影子模型获得正确打标记的数据成员来训练 $A$ 。

为了训练阴影模型，我们假设对手有一个数据集，用 $D_{Shadow}$ 表示，它来自与目标模型训练数据相同的底层分布。请注意，Shokri等人[38]的大多数实验都做出了相同的假设。

我们进一步假设阴影模型使用相同的ML算法，并且具有与目标模型相同的超参数。为了在实践中实现这一点，对手可以依赖于构建目标模型的同一MLaaS提供商，或者执行模型提取来近似目标模型[43]、[30]、[45]。在本节后面，我们将展示这种假设也可以放宽。

B. One Shadow Model（一个阴影模型）

方法论。对手的方法可以分为三个阶段，即阴影模型训练、攻击模型训练和成员推理。

阴影模型训练。对手首先将她的数据集（即 $D_{Shadow}$ ）分成两个不相交的集合，即 $D_{Shadow}^{Train}$ 和 $D_{Shadow}^{Out}$ 。然后，她使用 $D_{Shadow}^{Train}$ 训练她唯一的阴影模型，用 $S$ 表示。

攻击模型训练。对手利用训练好的阴影模型 $S$ 对 $D_{Shadow}$ 中的所有数据点（包括 $D_{Shadow}^{Train}$ 和 $D_{Shadow}^{Out}$ ）进行预测，并得到相应的后验概率。对于 $D_{Shadow}$ 中的每一个数据点，她都以其三个最大的后验点（从高到低排序）或两个（对于二进制类数据集）作为其特征向量。如果一个特征向量对应的数据点在 $D_{Shadow}^{Train}$ 中，则将其标记为1（成员），否则标记为0（非成员）。所有生成的特征向量和标签被用来训练攻击模型 $A$ 。

成员推理。为了对 $x_{Target}$ 是否在 $D_{Train}$ 中进行攻击，对手用 $x_{Target}$ 查询 $M$ 以获得相应的后验位。然后，她选择3个最大的后验点，再次从高到低排序，并将它们输入 $A$ 以获得成员预测。

需要注意的是，我们的对手在攻击中只使用了一个影子模型和一个攻击模型，而Shokri等人[38]的方法采用了多个影子模型和多个攻击模型（每个类一个）。特别是，由于每个影子模型都是通过MLaaS[38]建立的，这种策略将大大降低她的成员推理攻击的成本。

实验装置。我们对所有数据集进行攻击评估。对于每个数据集，我们首先将其分为 $D_{Shadow}$ 和 $D_{Target}$ 。按照攻击策略，我们将 $D_{Shadow}$ 分成 $D_{Shadow}^{Train}$ 和 $D_{Shadow}^{Out}$ 。另一方面， $D_{Target}$ 用于攻击评估，它也被一分为二：一个用于训练目标模型，即 $D_{Train}$ ，作为目标模型训练数据的成员，另一个用作非成员数据点。

对于图像数据集，如MNIST、CIFAR-10、CIFAR-100和人脸，我们使用卷积神经网络（CNN）建立目标模型。我们的CNN由两个卷积层和两个池层组成，最后一个隐藏层包含128个单元。对于其他数据集，我们使用一个隐藏层（128个单元）的多层感知器（神经网络）作为目标模型。每个阴影模型的结构与其对应的目标模型相同，假设对手知道目标模型的结构。利用另一个多层感知器（64单元隐藏层和 $s o f t m a x$ 输出层）建立攻击模型。我们所有的实验都是用Python和Lasagne.8实现的，为了重现性，我们的代码可以在https://github.com/AhmedSalem2/ML-Leaks。

我们将我们的攻击与Shokri等人的攻击进行比较[38]。按照作者代码的原始配置，我们训练了10个影子模型和多个攻击模型（每个类一个）。

由于成员推理是一种二元分类，因此我们采用精确性和召回率作为评价指标。此外，我们使用精度来衡量目标模型的预测性能。

结果。图1描述了第一个对手的表现。总的来说，我们观察到我们的攻击与先前的工作[38]有非常相似的成员推理。例如，我们对CIFAR-100数据集的攻击在精确度和召回率上都达到了0.95，而Shokri等人的攻击的精确度和召回率都达到了0.94。有趣的是，我们的攻击同时适用于平衡数据集（如CIFAR-10）和非平衡数据集（如Face）。

在这里插入图片描述

我们还观察了不同数据集上攻击性能的变化。我们将这与ML模型在不同数据集上的过度拟合水平联系起来，类似于先前的工作[38]，[48]。我们将目标模型的过拟合程度量化为其在训练集和测试集上的预测精度之间的差异。通过调查，我们发现，如果一个ML模型更过拟合，那么它更容易受到成员推理攻击（见图2）。例如，我们对成人数据集的攻击取得了相对较弱的性能（精确度和召回率约为0.5），目标模型的训练和测试准确率只有2%的差异。另一方面，成员推理攻击在CIFAR-100数据集上达到了0.95的精确度和召回率。同时，相应的目标模型在训练集上的预测性能比在测试集上的预测性能要好得多，相差78%。

在这里插入图片描述
为了进一步证明过度拟合与成员推理之间的关系，我们对位置和购买100个数据集进行了另一个更具控制性的实验。具体地说，我们关注的是训练中使用的epoch数，数量越大，过度拟合的程度越高。我们将使用的epoch数从10变为100，并在图3中报告结果。正如我们所看到的，攻击性能确实随着epoch的增加而增加。

在这里插入图片描述
另一个影响攻击性能的因素是数据集中类的数量。CIFAR-10和CIFAR-100都是具有不同类数（10对100）的图像数据集，结果表明，我们对后一个数据集的成员推理攻击的性能比前者提高了10%。从所有的采购数据集中可以观察到类似的结果。

对于我们的攻击，我们只使用三个最高的后验概率（按降序排列）作为攻击的特征。我们测试了在CIFAR-100、位置、MNIST和新闻数据集上使用更多后验点的效果。图4中的结果表明，对于大多数数据集，这个因素对攻击的性能没有显著影响。一般来说，三个后验点的性能最好，尤其是在MNIST数据集上。

在这里插入图片描述

我们的攻击与前一次攻击的主要区别在于使用的阴影模型的数量。我们进一步研究了这一因素对攻击性能的影响。图5显示了Purchase100、Purchase50、成人和位置数据集的相应结果。通过改变阴影模型的数量从1到10，我们没有观察到在精确度和召回率方面的显著差异。这意味着增加阴影模型的数量并不能提高我们的攻击性能。

在这里插入图片描述

MLaaS评估。以上实验都是在局部环境下进行的。我们用一个真实的MLaaS来进一步评估我们的攻击。特别是我们使用了Google的MLaaS，即Google云预测API。在这个服务下，用户可以上传自己的数据，并得到Google训练的黑匣子ML API。用户既不能选择使用哪个分类器，也不能选择相应的模型结构和参数。我们的攻击方法与第三节B中的方法相同。我们使用Google的MLaaS构建目标模型和阴影模型，并在本地构建攻击模型。

我们使用Purchase-100和位置数据集进行评估，并观察到该攻击的性能甚至比我们以前的本地评估更强大。对于Purchase-100数据集，我们对谷歌MLaaS的攻击准确率为0.90，召回率为0.89，而我们的本地评估的精确度为0.89，召回率为0.86。对于位置数据集，准确度为0.89，召回率为0.86，这与我们的局部评价（精确度为0.88和召回率为0.86）基本相同。

C. Target Model Structure（目标模型结构）

上述攻击的一个假设是，对手知道目标模型的算法和超参数，并以同样的方式实现其阴影模型。接下来，我们将展示如何放宽这一假设。我们首先关注目标模型的超参数，然后讨论它使用的分类器类型。

超参数。我们假设对手知道目标模型是一个神经网络，但不知道模型的细节。我们首先用目标模型一半的训练参数训练阴影模型。更准确地说，我们将批处理大小、隐藏单元和正则化参数减少一半。在Purchase-100数据集上，我们的攻击达到了0.86的精确度和0.83的召回率，这与图1中报告的几乎相同。我们还恢复设置当阴影模型的参数数比目标模型多出一倍时，测试该情况。性能下降了一点到0.82精确度和0.80召回率，但它仍然相当接近我们最初的攻击。我们还对其他数据集进行评估，并观察到类似的结果。这个评估显示了成员推理攻击的灵活性：不知道模型超参数的对手仍然可以获得良好的性能。

目标模型的算法。我们进一步假设，对手不知道目标模型采用了什么分类算法。在这种情况下，我们的第一个尝试是使用任何分类器，例如随机森林作为阴影模型，并攻击（很可能）与阴影模型（例如CNN）不同的目标模型。然而，实验结果并不乐观。

为了在不知道目标模型的情况下提高攻击性能，我们构造了一组ML模型，每个模型都有不同的分类算法，并将它们组合成一个阴影模型。每个单独的ML模型都被称为亚阴影模型。这是可以实现的，因为分类器的类型是有限的。这种攻击，也称为组合攻击，它可以学习不同分类器的行为，从而在假设存在与目标模型相同分类器训练的子阴影模型的基础上攻击未知目标模型。

具体地说，我们使用与第III-B节相同的方法来训练多个子阴影模型，如图6所示，每个子阴影模型都是一个不同的分类器。每个子阴影模型训练的数据是相同的。所有子阴影模型生成的特征被叠加在一起，即攻击模型A被训练成一个更大的数据集。在这个新的数据集中， $D_{Shadow}$ 中的每个数据点根据不同的子阴影模型的输出进行多次表示。

在这里插入图片描述

我们在Purchase-100数据集上运行了一个本地实验来评估这种攻击。子阴影模型采用三种常用的ML分类器：多层感知器、随机森林（1000棵树）和logistic回归。Purchase-100数据集的目标模型是一个多层感知器。为了更全面的比较，我们进一步构建了另外两个基于随机森林和分别采用logistic回归，并使用与第III-B节相同的算法建立单阴影模型。表II给出了结果。可见，当目标模型为多层感知器和logistic回归模型时，我们的组合攻击具有相似的性能。同时，当目标模型为随机森林时，攻击性能相对较差。

在这里插入图片描述
综上所述，我们的组合攻击可以使攻击者不必知道目标模型，从而进一步扩大了成员推理攻击的范围。

IV. TOWARDS DATA INDEPENDENT MEMBERSHIP INFERENCE ATTACKS (ADVERSARY 2)（面向数据无关的成员推理攻击（对手2））

在本节中，我们放宽了对手拥有与目标模型的数据集来自同一分布的数据集的假设。

我们首先解释威胁模型，然后描述对手的攻击方法。最后，我们给出了一个综合的实验评价。

A. Threat Model（威胁模型）

与第三节中的威胁模型不同，我们取消了假设对手有一个数据集 $D_{Shadow}$ ，该数据集来自与目标模型训练数据相同的分布。这大大降低了对手的攻击能力。对于这种情况，Shokri等人[38]建议对目标模型进行多次查询，生成合成数据来训练影子模型。然而，这种方法只能在数据集具有二进制特征的情况下应用。相反，我们的方法可以用于攻击任何类型数据的ML模型。

B. Methodology（方法论）

第二个对手的策略与第一个对手的策略非常相似。唯一的区别是，第二个对手利用一个来自不同于目标模型训练数据分布的现有数据集来训练她的影子模型。我们将此攻击称为数据传输攻击。

这里的影子模型并不是模仿目标模型的行为，而是总结机器学习模型训练集中数据点的成员状态。由于攻击模型只使用了三个或两个二进制数据集的最大后验点，因此也可以忽略不同类数的数据集所带来的影响。

C. Evaluation（评估）

实验装置。我们使用与第三节中介绍的相同的攻击模型和阴影模型设置，例如数据分割策略和使用的ML模型类型。我们对所有的数据集进行数据传输攻击。对于评价指标，我们再次使用精确性和召回率。

结果。图7描述了数据传输攻击的性能。x轴表示被攻击的数据集，即训练目标模型的数据集，y轴表示用于训练阴影模型的数据集。与第一个对手相比，其攻击结果如图7的对角线所示，第二个对手在多个情况下获得了相似的性能。例如，使用人脸数据集攻击CIFAR-100数据集的精确度和召回率均为0.95，而第一个对手的相应结果在这两个指标上也都为0.95。在某些情况下，我们甚至观察到第一个对手的性能改进。例如，使用Purchase-10dataset攻击新闻数据集可以获得0.93的精确度和0.92的召回率，而第一个对手拥有0.88的精确度和0.86的召回率。更有趣的是，在许多情况下，来自不同域的数据集可以有效地相互攻击，例如新闻数据集和CIFAR-100数据集。

在这里插入图片描述
对于第一个对手，我们放宽了阴影模型设计的假设。这种放松也适用于第二个对手，因为阴影模型和目标模型是用不同的数据集训练的。例如，Purchase-20数据集使用多层感知器进行训练，而CIFAR-100数据集使用CNN进行训练。

我们的数据传输攻击的一个主要优点在于它的适用性。Shokri等人[38]提出的合成数据生成策略不能应用于任何类型的数据集，而是应用于具有二进制特征的数据集。即使对于二进制特征的数据集，单个合成数据点也需要对目标模型进行156次查询[38]。考虑到ML模型和MLaaS的按查询付费业务模型所需的大量数据集，这是非常昂贵的。此外，向MLaaS API发送大量查询将警告服务器，这甚至可能不允许对手完成其合成数据生成过程。同时，我们的数据传输攻击没有上述任何限制。

推理。在演示了我们的数据传输攻击的强大性能之后，我们现在试图了解其背后的原因。为此，我们选取成员和非成员数据点相对于所有数据集的目标ML模型的最高三个后验点（与我们的攻击相似），并使用t分布随机邻域嵌入（t-SNE）将这些后验点嵌入到二维空间中。我们在图8a中显示了两个数据集（不同类型）的结果，在这两个数据集之间我们的转移攻击是有效的。我们可以看到，这些数据集中的成员点和非成员点紧密地聚集在一起，遵循一个共同的决策边界，因此，在一个数据集上训练的攻击模型可以有效地推断出另一个数据集中点的成员状态。同时，图8b显示了两个数据集的结果，在这两个数据集之间我们的传输攻击是无效的。如图所示，成员和非成员数据点没有明确的集群。

在这里插入图片描述

D. Evaluation On MLaaS（MLaaS的评价）

我们还评估了我们对谷歌MLaaS的数据传输攻击。具体来说，我们使用一个训练在位置数据集上的影子模型来攻击训练在Purchase-100数据集上的目标模型。这两个模型都经过谷歌MLaaS的训练。实验结果表明，该算法的精确度为0.8，召回率为0.78。通过进一步翻转阴影和目标模型，即Purchase-100数据集攻击位置数据集，成员推理结果仍然很强，精度为0.87，召回率为0.82。这说明我们的数据传输攻击不仅在本地环境下有效，而且在现实世界的MLaaS设置中也是有效的。

V. MODEL AND DATA INDEPENDENT MEMBERSHIP INFERENCE ATTACK WITHOUT TRAINING (ADVERSARY 3)（模型和数据无关的无训练成员推理攻击（对手3）

在本节中，我们将介绍我们的第三个对手，他不需要训练任何影子模型，也不需要假设模型或数据分布的知识。我们从威胁模型描述开始。然后，我们列出了攻击方法。最后给出了评价结果。

A. Threat Model（威胁模型）

我们放宽了这样的假设，即对手需要训练任何影子模型来执行攻击。她所能依赖的是目标模型在查询其目标数据点 $x_{Target}$ 后的输出后验 $M（x_{Target}）$ 。注意，Yeom等人[48]提出了类似的攻击，但是他们的成员推理攻击要求对手知道目标数据点的类标签，这在某些情况下很难获得，例如在生物医学环境中[4]。因此，我们的威胁模型涵盖了更广泛的场景。

B. Methodology（方法论）

第三个对手的攻击模型被实现为一个无监督的二进制分类。具体来说，对手首先获得 $M（x_{Target}）$ 。然后，她提取最高后验值，并比较该最大值是否高于某个阈值。如果答案是肯定的，那么她预测数据点在目标模型的训练集中，反之亦然。我们选择最大值作为特征的原因是，ML模型更自信，也就是说，当面对训练它的数据点时，一个后验点比其他模型高得多。换言之，成员数据点的最大后验概率远高于非成员数据点的最大后验概率。

阈值选择。攻击者可以根据自己的要求选择成员推理的阈值，就像在许多机器学习应用程序[50]，[3]中一样。例如，如果她更专注于推理精度（召回率），那么她可以选择一个相对较高（较低）的阈值。

然而，我们提供了一个选择阈值的一般方法。具体来说，我们在目标数据点的特征空间中生成一个随机点样本。对于包括CIFAR-10、CIFAR-100、MNIST和Face在内的图像数据集，我们生成随机图像，其中每个像素的值从均匀分布中提取。对于具有二进制特征的数据集，包括位置和购买数据集，我们根据无偏硬币掷法为每个特征生成0和1。对于成人和新闻，由于特征的界限不明确，我们的方法不适用。解决这一问题的一种方法是从互联网上收集新闻文章或人们的记录（与成人数据集中的特征相同）作为“随机”点。我们把这个留给以后的工作。接下来，我们将这些随机点查询到目标模型，得到相应的最大后验点。我们假设这些点作为非成员点。因此，这些随机点最大后验点的前 $t$ 百分位可以作为一个好的阈值。下面，我们从经验上证明，存在一个 $t$ 百分位的选择，它工作良好，可以在所有数据集上进行推广，因此可以用来自动确定检测阈值。

C. Evaluation（评估）

实验装置。我们在除新闻和成人之外的所有数据集中评估第三个对手。注意，我们不需要分割数据集，因为这个对手不训练任何影子模型。相反，我们将每个数据集分成两半，并使用一部分来训练目标模型，而另一部分则作为非成员被忽略。

结果。我们首先在不设置阈值的情况下评估最大后验在区分成员和非成员点上的有效性。为此，我们采用AUC（ROC曲线下的面积）值作为评估指标[13]，[3]，[35]，[ 32]，[49]。除了最大后验概率，我们进一步测试了使用其他统计指标（包括标准差和熵）的效果。特别地，后验的熵定义为 $-\sum_{p_i\epsilon y}p_i\log p_i$ ，其中 $p_i$ 表示第 $i$ 类的后验。图9显示了最大后验概率达到了非常高的性能：在多个数据集中，我们获得了高于0.8的AUC值。同时，三种方法的AUC评分几乎相同。这表明标准差和熵也可以作为攻击的特征。

在这里插入图片描述

接下来，我们根据我们的阈值选择方法评估我们的具体预测。我们为每个数据集生成1000个随机数据点，并针对最高 $t$ 百分位数试验多个阈值。图10显示了结果。如我们所见，将 $t$ 设置为10对于大多数数据集（如CIFAR-100）都可以获得良好的性能（精确度和召回率）。

在这里插入图片描述
图11a 进一步显示了CIFAR-100的成员、非成员和随机点的最大后验分布。如图所示，我们的随机点的最大后验点的行为类似于非成员点的分布，这导致了强成员推理。另一方面，我们的攻击在某些数据集上表现不好，比如Purchase-10，其对应的最大后验点如图11b 所示。
在这里插入图片描述
我们还尝试选择一个固定的阈值进行成员推理，例如最大后验高于50％。但是，评估表明没有单个数字可以为所有数据集实现良好的性能。从而，我们得出结论，我们的阈值选择方法是合适的。

D. Comparison of the Three Attacks（三次攻击的比较）

图12比较了三种攻击的性能，即精确度和召回率。特别是，我们展示了针对数据传输攻击的最佳性能（攻击者2）。如我们所见，我们的前两个对手在大多数数据集上的表现非常相似。另一方面，我们的第三个对手在假设最少的情况下的表现仅稍差一些（尤其是在精度方面）。这些结果清楚地证明了成员推理攻击的适用范围非常广泛，因此相应的风险比以前显示的要严重得多。

在这里插入图片描述

VI. DEFENSE（防御）

在本节中，我们提出了两种旨在降低成员隐私风险的防御技术。我们的成员推理攻击的有效性主要是由于ML模型的过度拟合特性。因此，我们的防御技术旨在提高ML模型的泛化能力，即防止它们被过度拟合。

我们的第一种技术是dropout，它是为基于神经网络的分类器设计的。我们的第二种技术是模型堆叠。这种机制适用于所有ML模型，与构建它们的分类器无关。

由于第一个和第二个对手采用相同的方法建立阴影模型（在数据集上有不同的假设），我们只显示我们对第一个对手和第三个对手的防御有效性，以节省空间。对于第一个对手，为了全面评估我们防御下的攻击性能，我们进一步假设攻击者知道正在实施的防御技术，并按照相同的防御技术建立她的影子模型。

A. Dropout（随机失活）

方法论。一个完全连通的神经网络含有大量的参数，容易产生过拟合。基于经验证据，Dropout是减少过度拟合的一种非常有效的方法。它是通过在一个完全连接的神经网络模型中，在每次训练迭代中随机删除一个固定比例（随机失活率）的边缘来执行的。我们对目标模型的输入层和隐藏层（见第三节）都应用了dropout。我们将默认的随机失活率设置为0.5。

评价。我们针对第一个对手和第三个对手所有数据集的测试随机失活（除了新闻和成人数据集）。图13a和图13b比较了第一个对手在随机失活防御前后的表现。我们可以看到，几乎所有情况下攻击性能都会降低。例如，对Purchase-100数据集的攻击精度从0.89下降到0.64，而召回率从0.86下降到0.63。在另一个例子中，CIFAR-100数据集的精确度和召回率下降了30%以上。只有一种情况下随机失活没有多大帮助，即在新闻数据集上训练的目标模型。

在这里插入图片描述

同样，我们的第三个对手的表现也会因为随机失活而降低（见图14）。例如，对CIFAR-100数据集的攻击的精确度和召回率分别下降了25%和40%以上。然而，在一些数据集上，例如MNIST，攻击的召回率甚至有所提高。这表明我们的第三个对手比第一个对手对随机失活的抵抗力更强。

在这里插入图片描述

图15进一步显示了应用了dropout后原始目标模型的性能（预测精度）。我们观察到，在超过一半的数据集中，随机失活机制甚至提高了目标模型的预测性能。例如，在Purchase-50数据集上，目标模型的精度从0.72提高到0.83。
在这里插入图片描述

图16描绘了过拟合水平（见第三节）降低与第一个对手在应用随机失活后的性能降低之间的关系。过度拟合水平的降低计算为原始目标模型的过度拟合水平减去随机失活防御目标模型的过度拟合水平。正如我们所看到的，更有效的随机失活，导致更大程度的降低过度拟合水平导致更好的防御成员推理攻击。这些结果支持Shokri等人[38]的论点，即过度拟合是成员隐私风险和目标模型性能的共同敌人。
在这里插入图片描述
到目前为止，我们使用0.5作为随机失活率。我们进一步测试了改变我们的防守随机失活率的效果。我们在输入层和完全连接层上尝试不同的随机失活率，同时监控第一个对手的性能和目标模型的准确性。图17显示了Purchase-100数据集的结果。我们首先观察到较高的随机失活率会导致攻击性能下降。例如，两层的随机失活率均为0.75，攻击的精确度和召回率都降低到0.53。另一方面，无论是大的还是小的随机失活率都会导致目标模型的性能低下。这意味着在中等随机失活率的情况下，目标模型的精度最高。综上所述，0.5的随机失活率是一个合适的选择。

在这里插入图片描述

B. Model Stacking（模型堆叠）

方法论。该随机失活技术是有效的，但只有当目标模型为神经网络时，才能应用。为了绕过这个限制，我们提出了第二种防御技术，即模型堆叠，它独立于所使用的ML分类器工作。

这种防御背后的直觉是，如果目标模型的不同部分使用不同的数据子集进行训练，那么完整的模型就不太容易过度拟合。这可以通过使用集成学习来实现。

集成学习是一种ML范式，它不使用单一的ML模型，而是组合多个ML模型来构造最终的模型。有不同的方法来组合这些ML模型，例如装袋或增压。为了我们的防御，我们把重点放在以分层的方式堆叠模型上。图18显示了模型堆叠的一个示例架构。

在这里插入图片描述

具体地说，我们将目标模型分为两层，并覆盖三个ML模型。第一层由两个ML模型（第一个和第二个模型）组成。第二层由一个ML模型（第三个模型）组成。如图18所示，为了获得模型在某些数据点x上的输出，我们首先将x应用于前两个模型中的每一个，使它们的后验点 $Y^1$ 和 $Y^2$ 。然后我们将两个输出（即 $Y^1 | | Y^2$ ）串联起来，并将结果应用于第三个预测最终输出 $Y$ 的模型。

为了最大限度地防止过度拟合，我们在不相交的数据集上训练三个不同的模型。背后的直觉是，在训练过程中，没有一个以上的模型看到数据点。

评价。对于我们的评估，我们使用多层感知器或CNN作为第一个模型，随机森林作为第二个模型，logistic回归作为第三个模型。我们选择这个架构来测试在不同层使用不同机器学习模型的效果。然而，不同的模型选择也足够了。

如前所述，我们为第一个对手建立目标和影子模型，即每个模型由3个不同的ML模型组成。为了训练目标和阴影模型，我们将数据分成12个不相交的集合。我们使用前6组来训练和测试我们的目标模型，剩下的6组用于训练和测试阴影模型。

我们在除Face数据集之外的所有数据集上评估此技术，因为它没有足够的数据来提供有意义的结果。图13显示了第一个对手的结果。如我们所见，模型堆叠在所有情况下都会大大降低攻击的性能。例如，在CIFAR-10数据集上，模型叠加使攻击的精确度和召回率降低了30%以上。此外，与随机失活防御相比，模型叠加在某些情况下更有效。随机失活不会改变攻击在新闻数据集上的性能，而模型叠加会使相应的精确度和召回率降低28%。在位置数据集上也可以观察到相同的结果。然而，在多个情况下，如采购数据集，模型叠加对目标模型精度的影响大于随机失活。模型叠加技术的过度拟合水平降低和攻击性能降低之间的关系与随机失活技术非常相似，结果如图19所示。
在这里插入图片描述
类似地，应用模型堆叠后，我们的第三个对手的性能下降（见图14）。例如，模型叠加使得攻击在定位数据集上的准确率降低了20%以上，召回率降低了30%。但与随机失活防御类似，类似MNIST的例外情况也存在。

综上所述，如果目标模型不是基于神经网络的，模型叠加是一种有效的防御技术。否则，随机失活足以减轻会员隐私风险，因为它的高实用性维护。

VII. RELATED WORK（相关工作）

成员推理。成员推理攻击已经成功地在许多不同的数据域中执行，从生物医学数据[18]，[2]到移动轨迹[35]。

Homer等人[18]提出了对基因组数据的第一次成员推理攻击。这种攻击依赖于等位基因频率和受害者基因组数据之间的L1距离。Backes等人[2]将这种攻击推广到其他类型的生物医学数据。最近，Pyrgelis等人[35]已经表明，人们的总体流动轨迹也容易受到成员推理攻击。他们首先将成员推理形式化为一个可区分的博弈。然后，利用机器学习分类器实现攻击。对两个真实数据集的大规模评估证明了他们的攻击是有效的。此外，作者还表明，他们的框架可以很容易地结合不同的防御机制，如差分隐私，以允许一个全面的评估成员推断风险。

针对机器学习的成员推理。Shokri等人[38]首次提出了针对机器学习模型的成员推理攻击。本文的主要贡献是提出了影子模型训练，其目的是模拟目标模型的行为，为攻击模型生成训练数据。

本论文中的第一个对手采用了非常相似的背景。我们已经证明，与Shokri等人提出的多阴影模型和攻击模型相比，一个影子模型和一个攻击模型足以实现有效的攻击。此外，我们还证明了数据传输攻击可以绕过昂贵的合成数据生成方案，并获得非常相似的性能。本文的另一个主要贡献是提出了两种有效的防御机制，如随机失活和模型叠加。许多最近的研究工作也从不同的角度研究了针对机器学习的成员推理[25]、[17]、[48]、[26]。

针对机器学习的攻击。除了成员推理之外，还存在多种针对ML模型的其他类型的攻击。Fredrikson等人[13]提出了生物医学数据设置中的模型反转攻击。在这个场景中，攻击者的目标是根据训练好的ML模型的输出来推断受害者丢失的属性。后来，模型反转攻击被推广到更广泛的场景[12]。例如，作者证明，攻击者可以通过模型反转来重建受害者的可识别人脸。

Tramer等人提出了另一种针对ML模型的攻击，即模型提取攻击。该攻击的目的是通过MLaaS API本身的输出窃取ML模型，即模型的学习参数。他们首先提出了一种方程求解攻击，攻击者多次查询MLaaS API并使用输出后验构造一组方程。通过求解这些方程，攻击者可以得到ML模型的权重。Tramer等人[43]进一步提出了一种路径发现算法，这是第一种实用的窃取决策树的方法。最后，Tramer等人指出，即使是不提供预测后验而只提供预测类标签的ML模型，也可以通过诸如主动学习等再训练策略来窃取。值得注意的是，由于模型提取攻击的有效性，本文没有考虑隐藏后验作为一种有效的防御机制。

另一个主要的针对机器学习的攻击是对抗性的例子[33]，[44]，[8]，[23]，[42]，[34]，[46]。在这种情况下，攻击者向数据点添加可控数量的噪声，目的是欺骗经过训练的ML模型对数据点进行错误分类。对抗性的例子会在多个领域造成严重的风险，比如自动驾驶和语音识别。另一方面，研究人员最近表明，对抗性的例子也可以帮助保护在线社交网络中用户的隐私[31]，[22]，[49]。

隐私保护机器学习。另一个相关的工作是隐私保护机器学习[24]、[19]、[11]、[10]、[14]、[28]、[5]、[6]、[1]。Mohassel和Zhang[28]提出了以隐私保护方式训练线性回归、逻辑回归和神经网络的有效协议。他们的协议属于双服务器模式，数据分布在两个非共谋的服务器上。作者使用双方计算来实现这些协议。Bonawitz等人[5]提出了一种高维数据的安全聚合协议，这是分布式机器学习的关键组成部分。该协议也是基于多方计算的，并且在诚实、好奇和主动的对手环境下证明了协议的安全性。大规模评估表明了该协议的有效性。

除了隐私保护模型训练外，其他著作也研究隐私保护分类。Bost等人[6]设计了三种基于同态加密的协议。它们集中在三个ML分类器上，包括超平面决策、朴素贝叶斯和决策树，并表明它们的协议可以有效地执行。Backes等人[1]在Bost等人提出的方案的基础上，建立了一个隐私保护的随机森林分类器。除此之外，许多最近的研究从不同的角度研究了机器学习中的安全和隐私问题[39]、[16]、[9]、[37]、[7]、[27]、[20]、[45]、[36]、[21]、[40]、[29]、[41]、[20]。

VIII. CONCLUSION(结论)

训练数据是促使机器学习模型在实际应用中广泛采用的关键因素。然而，ML模型却存在成员隐私风险。现有的成员推理攻击已显示出有效的性能，但由于对威胁模型的强假设，其适用性受到限制。在本文中，我们逐渐放宽这些假设，使之适用于更广泛的攻击场景。

我们的第一个对手只使用一个影子模型。大量的实验表明，该攻击与前一种利用多个阴影模型的攻击具有非常相似的性能。由于影子模型是通过MLaaS建立的，我们的提议显著地降低了执行攻击的成本。我们进一步进行组合攻击，不需要知道目标模型中使用的分类器类型。

对于第二个对手，攻击假设进一步放宽，后者无法访问与目标模型训练数据相同分布的数据集。这是一种更现实的攻击场景，但之前提出的合成数据生成解决方案只能应用于特定情况。相比之下，我们提出了数据传输攻击，对手利用另一个数据集建立一个阴影模型，并生成相应的数据来攻击目标模型。通过实验，我们发现数据传输攻击在更通用、更现实、更广泛应用的同时，也实现了很强的成员推理。

第三个对手有一组最小的假设，即她不需要构造任何影子模型，并且她的攻击是在无人监督的情况下进行的。我们证明，即使在这样一个简单的设置中，成员推理仍然是有效的。

我们的评估是全面的，充分证明了在8个不同的数据集上的一般条件下，ML模型中成员隐私的严重威胁。

为了弥补这种情况，我们提出了两种防御机制。当我们展示过拟合与对成员推理攻击的敏感性之间的联系时，我们研究了旨在减少过拟合的技术。第一种方法随机失活，是在完全连通的神经网络中，在每次训练迭代中随机删除一定比例的边缘；第二种方法，即模型叠加，以分层的方式组织多个ML模型。大量的评估表明，我们的防御技术确实能够在保持较高的实用性（即高目标模型的预测精度）的同时，大大降低成员推理攻击的性能。

$\color{maroon}{好啦！到此结束，希望能帮助到你}$

白菜苗

关注

11
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
【全文翻译】ML-Leaks: Model and Data Independent Membership Inference Attacks and Defenses on Machine.....

摘要--机器学习（ML）已成为许多实际应用的核心组成部分，而训练数据是推动当前进展的关键因素。这一巨大的成功促使互联网公司部署机器学习即服务（MLaaS）。最近，第一次成员推理攻击表明，在这种MLaaS设置中提取训练集上的信息是可能的，这具有严重的安全性和隐私性。然而，这种攻击的可行性的早期证明对对手有许多假设，例如使用多个所谓的影子模型、了解目标模型结构、拥有与目标模型训练数据相同分布的数据集。我们放宽了所有这些关键假设，从而表明此类攻击以较低的成本非常广泛地适用，因此构成了比先前认为的更严重的风险。
复制链接

扫一扫