【全文翻译】Membership Inference Attacks Against Machine Learning Models

最新推荐文章于 2025-02-14 01:45:41 发布

置顶白菜苗

最新推荐文章于 2025-02-14 01:45:41 发布

阅读量5.8k

点赞数 20

分类专栏：机器学习文献翻译文章文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_43682519/article/details/110385734

版权

机器学习文献翻译文章专栏收录该内容

14 篇文章

订阅专栏

本文定量研究机器学习模型对训练数据记录信息的泄漏问题，聚焦成员推理攻击。通过开发阴影训练技术构建攻击模型，对谷歌和亚马逊等平台训练的模型进行评估，证明模型易受攻击。还探讨了影响泄漏的因素，并评估了缓解策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

针对机器学习模型的成员推理攻击

摘要—我们定量研究了机器学习模型如何泄漏有关对其进行训练的单个数据记录的信息。我们专注于基本的成员推理攻击：给定数据记录和对模型的黑匣子访问，确定记录是否在模型的训练数据集中。为了针对目标模型执行成员推理，我们在对抗中使用了机器学习，并训练了自己的推理模型，以识别目标模型在训练后的输入与未训练在输入上的预测之间的差异。

我们对由商业“机器学习即服务”提供商（例如Google和Amazon）训练的分类模型进行经验评估，以评估我们的推理技术。使用现实的数据集和分类任务，包括其出入会受到隐私角度影响的医院出院数据集，我们证明了这些模型可能容易受到会成员推理攻击的影响。然后，我们调查影响此泄漏的因素并评估缓解策略。

I. INTRODUCTION

机器学习是流行的Internet服务的基础，例如图像和语音识别以及自然语言翻译。许多公司还在内部使用机器学习来改善营销和广告投放，向用户推荐产品和服务，或者更好地了解其运营所产生的数据。在所有这些情况下，个人用户的活动（他们的购买和偏好，健康数据，在线和离线交易，他们拍摄的照片，他们在手机中说出的命令，旅行的地点）都用作训练数据。

谷歌和亚马逊等互联网巨头已经在提供“机器学习即服务”。拥有数据集和数据分类任务的任何客户都可以将此数据集上传到服务并支付费用以构建模型。然后，该服务通常以黑盒API的形式将模型提供给客户。例如，移动应用程序制造商可以使用此类服务来分析用户的活动并查询应用程序内的结果模型，以在用户最有可能做出响应时向用户推广应用程序内购买。一些机器学习服务还允许数据所有者向外部用户公开其模型以进行查询甚至出售。

我们的贡献。我们关注被称为成员推理的基本问题：给定一个机器学习模型和一个记录，确定该记录是否被用作模型训练数据集的一部分。我们在最困难的情况下调查此问题，在这种情况下，对手对模型的访问仅限于黑匣子查询，这些查询会根据给定的输入返回模型的输出。总之，我们通过机器学习模型的预测输出来量化成员信息泄漏。

为了回答成员推理问题，我们将机器学习与自身相反，并训练了一个攻击模型，其目的是将目标模型在训练输入上的行为与在训练期间未遇到的输入上的行为区分开。换句话说，我们将成员推理问题转变为分类问题。

攻击诸如商业“机器学习即服务”提供商所构建的黑盒模型比攻击其竞争对手知道其结构和参数的白盒模型需要更多的技巧。为了构建攻击模型，我们发明了阴影训练技术。首先，我们创建了多个模仿目标模型行为的“阴影模型”，但是对于这些模型，我们知道训练数据集，因此也了解这些数据集中的成员关系。然后，我们在阴影模型的标记输入和输出上训练攻击模型。

我们开发了几种有效的方法来生成阴影模型的训练数据。第一种方法使用对目标模型的黑盒访问来合成此数据。第二种方法使用有关从中得出目标训练数据集的人口的统计信息。第三种方法假设对手可以访问目标训练数据集的潜在噪音版本。第一种方法没有假定任何有关目标模型训练数据分布的先验知识，而第二种和第三种方法则允许攻击者在推理给定记录是否在其训练数据集中之前仅查询一次目标模型。

我们的推理技术是通用的，并不基于任何特定的数据集或模型类型。我们根据神经网络以及使用Amazon ML和Google Prediction API训练的黑盒模型对它们进行评估。我们在Amazon和Google平台上进行的所有实验都是在不知道这些服务使用的学习算法或结果模型的架构的情况下进行的，因为Amazon和Google不会向客户透露此信息。为了进行评估，我们对图像，零售购买，位置跟踪和住院病人住院的具体数据集使用了现实的分类任务和标准的模型训练程序。除了证明成员推理成功之外，我们还量化了其成功与分类任务和过度拟合的标准度量之间的关系。

不应将与模型的训练数据集有关的信息与诸如版本中的模型之类的技术混淆，该技术在隐藏输入上使用模型的输出来推断有关此输入的信息[17]或提取表征模型的类之一的特征[16]。如[27]和第IX节所述，模型反转不会产生模型训练数据集的实际成员，也不会给定一条记录来推断该记录是否在训练数据集中。相比之下，本文所研究的成员推理问题本质上与已知的混合池中个体数据的存在性问题相同[3]、[15]、[21]、[29]。但是，在我们的案例中，目标是在给定黑匣子API的情况下，将成员推理为结构未知的模型，这与显式统计相反。

我们的实验结果表明，使用机器学习即服务平台创建的模型可能会泄漏很多有关其训练数据集的信息。对于在默认配置下使用Google和Amazon的服务在10,000条记录的零售交易数据集上训练的多分类分类模型，我们的成员推理分别实现了94％和74％的中值准确性。即使我们事先没有对目标模型的训练数据的分布进行任何假设，并为我们的影子模型使用了完全综合的数据，但与Google训练的模型相比，成员理的准确性仍为90％。我们对德克萨斯州医院出院数据集（准确率超过70%）的结果表明，如果将这些数据集用于训练机器学习模型，并且结果模型对公众开放，则成员推理可能会给医疗数据集带来风险。这些数据集中的成员是高度敏感的。

我们讨论了使这些攻击成为可能的根本原因，并定量地比较了缓解策略，例如将模型的预测限制在前k类，降低预测向量的精度，增加其熵，或者在训练模型时使用正则化。

综上所述，本文论证并量化了机器学习模型在训练数据集中泄漏信息的问题。为了创建我们的攻击模型，我们开发了一种新的阴影学习技术，该技术只需对目标模型及其训练数据集有最少的了解。最后，我们量化了成员信息泄漏与模型过拟合的关系。

II. MACHINE LEARNING BACKGROUND （机器学习背景）

机器学习算法可帮助我们更好地理解和分析复杂数据。使用无监督训练创建模型时，目标是从未标记的数据中提取有用的特征，并构建一个解释其隐藏结构的模型。当使用有监督的训练来创建模型时（这是本文的重点），训练记录（作为模型的输入）被分配了标签或分数（作为模型的输出）。我们的目标是学习数据和标签之间的关系，并构建一个模型，该模型可以推广到训练集之外的数据记录[19]。模型训练算法的目的是最小化模型在训练数据集上的预测误差，因此可能会对该数据集过度拟合，从而产生在训练输入上比从同一总体中提取但在训练过程中没有使用的输入表现更好的模型。许多正则化技术已经被提出，以防止模型变得过于适合其训练数据集，同时最小化其预测误差[19]。

监督训练通常用于分类和其他预测任务。例如，零售商可以训练一个预测顾客购物风格的模型，以便为她提供适当的激励，而医学研究人员可以训练一个模型，以预测根据患者的临床症状或基因组成，哪种治疗最有可能成功。

机器学习即服务。大型互联网公司现在在其云平台上提供机器学习即服务。示例包括Google Prediction API， Amazon Machine Learning（Amazon ML），Microsoft Azure Machine Learning（Azure ML）和BigML.4。

这些平台提供了用于上传数据以及训练和查询模型的简单API，从而使机器学习技术可用于任何客户。例如，开发人员可以创建一个应用程序，该应用程序从用户那里收集数据，将其上传到云平台以训练模型（或使用新数据更新现有模型），然后在应用程序内部使用模型的预测来改善其功能或更好地与用户互动。某些平台甚至设想数据持有者会训练模型，然后通过平台的API与他人共享以获取利润。

数据所有者不知道模型的细节和训练算法。服务的类型取决于数据以及验证子集的准确性，可以自适应地选择模型的类型。服务提供商不会警告客户过度安装的后果，并且对正则化的控制很少甚至没有。例如，Google Prediction API隐藏所有详细信息，而Amazon ML仅提供非常有限的一组预定义选项（L1或L2规范化正则化）。无法下载模型，只能通过服务的API进行访问。服务提供商主要通过向客户收取此API的查询费用来获取收入。因此，我们将“机器学习即服务”视为黑匣子。我们在本文中演示的所有推理攻击都完全通过服务的标准API执行。

III. PRIVACY IN MACHINE LEARNING（机器学习的隐私）

在处理推理攻击之前，我们需要定义在机器学习上下文中隐私的含义，或者，机器学习模型破坏隐私意味着什么。

A. Inference about members of the population（关于人口成员的推论）

在统计披露控制中被称为“ Dalenius desideratum”的一种合理的隐私概念指出，与不应用该模型而已知道的有关该输入的信息相比，该模型所揭示的内容不应更多。这不能通过任何有用的模型来实现[14]。

在先前关于模型反转的工作中出现了一个相关的隐私概念[17]：如果攻击者可以使用模型的输出来推断用作模型输入的意外（敏感）属性的值，则会发生隐私泄露。正如在[27]中观察到的，如果该模型基于有关人口的统计事实，则可能无法防止这种“破坏”。例如，假设训练模型发现了一个人的外部可观察表型特征与其对某种疾病的遗传易感性之间的高度相关性。这种相关性现在已成为众所周知的科学事实，它使任何人在观察该人后即可推断出该人的基因组信息。

关键的是，这种相关性适用于给定总体的所有成员。因此，模型不仅侵犯了数据用于创建模型的人的“隐私”，而且也侵犯了来自同一人群的其他人的“隐私”，甚至那些数据未被使用、其身份甚至可能不为模型创建者所知的人（即，这是“远处的诡异行为”）。有效的模型一般化，也就是说，它们对不属于其训练数据集的输入做出准确的预测。这意味着一般化模型的创建者不能做任何事情来保护上面定义的“隐私”，因为模型所基于的相关性以及这些相关性使整个群体都能保持的推论，而不管训练样本是如何选择的，或者模型是如何从这个样本中创建的。

B. Inference about members of the training dataset（关于训练数据集成员的推理）

为了避免定义和保护整个人群的隐私所固有的困难，我们将重点放在保护个人的隐私上，这些个人的数据被用来训练模型。这种动机与差异隐私的最初目标密切相关[13]。

当然，训练数据集的成员也是人口的一员。我们研究的是模型揭示的关于他们的情况，而不是它所揭示的人口中任意一个成员的情况。我们的最终目标是衡量一个人如果允许他们的数据被用来训练一个模型，他们所承担的成员风险。

此设置中的基本攻击是成员推理，即确定给定的数据记录是否属于模型的训练数据集。当对手完全了解记录时，得知该记录已用于训练特定模型，则表明该模型存在信息泄漏。在某些情况下，它可能直接导致隐私泄露。例如，知道某位患者的临床记录已用于训练与某种疾病相关的模型（例如，确定适当的药物剂量或发现该疾病的遗传基础），就可以表明该患者患有该疾病。

研究了在黑盒情形下，敌方只能向模型提供输入并接收模型输出的情况下的成员推理问题。在某些情况下，该模型对对手是间接可用的。例如，应用程序开发人员可以使用机器学习服务从应用程序收集的数据构建模型，并让应用程序对生成的模型进行API调用。在这种情况下，对手将向应用程序提供输入（而不是直接向模型提供输入），并接收应用程序的输出（基于模型的输出）。不同应用的内部模型使用细节差异很大。为了简单和通用，我们假设对手直接向黑盒模型提供输入并从黑盒模型接收输出。

IV. PROBLEM STATEMENT （问题陈述）

考虑一组从某些总体中采样并划分为几类的带标签的数据记录。我们假设机器学习算法用于训练一个分类模型，该模型捕获数据记录的内容与其标签之间的关系。

对于任何输入数据记录，模型输出记录属于某个类的概率的预测矢量（每类一个）。我们还将这些概率称为置信度值。选择具有最高置信度值的类别作为数据记录的预测标签。通过测量模型如何在训练集外进行泛化并预测来自同一总体的其他数据记录的标签，来评估模型的准确性。

我们假设攻击者具有对模型的查询访问权限，并且可以在任何数据记录上获取模型的预测向量。攻击者知道模型输入和输出的格式，包括它们的数量和可以取值的范围。我们还假设攻击者要么（1）知道机器学习模型的类型和体系结构以及训练算法，要么（2）拥有对机器学习Oracle的黑匣子访问（例如，“机器学习即服务”平台）来训练模型。在后一种情况下，攻击者无法事先知道模型的结构或元参数。

攻击者可能对从中提取目标模型的训练数据集的人群有一些背景知识。例如，他可能从总体中独立抽取了样本，而与目标模型的训练数据集不相交。或者，攻击者可能知道一些有关总体的统计信息，例如特征值的边际分布。

我们的推理攻击的设置如下。给予攻击者数据记录和对目标模型的黑匣子查询访问权限。如果攻击者可以正确确定此数据记录是否属于模型的训练数据集，则攻击成功。攻击准确度的标准度量是精确性（推断为成员的记录中有多少部分确实是训练数据集的成员）和召回率（攻击者正确地推断出训练数据集的成员中有多少部分是成员）。

V. MEMBERSHIP INFERENCE（成员推理）

A. Overview of the attack（攻击概述）

我们的成员推理攻击利用了这样的观察结果：机器学习模型在训练的数据上的行为与它们第一次“看到”的数据的行为不同。过度拟合是一个常见的原因，但不是唯一的原因（见第七节）。攻击者的目标是构造一个能够识别目标模型行为差异的攻击模型，并根据目标模型的输出来区分目标模型训练数据集中的成员和非成员。

我们的攻击模型是一组模型，每个输出类对应一个目标模型。由于目标模型根据输入的真实类别在其输出类别上产生不同的分布，因此可以提高攻击的准确性。

为了训练我们的攻击模型，我们构建了多个“影子”模型，这些模型的行为与目标模型类似。与目标模型相反，我们知道每个阴影模型的基本事实，即给定记录是否在其训练数据集中。因此，我们可以对影子模型的输入和相应的输出（分别标记为“ in”或“ out”）使用监督训练来指导攻击模型如何区分阴影模型对其训练数据集成员的输出与对非成员的输出。

形式上，让 $f_{target}$ （）作为目标模型， $D_{target}^{train}$ 作为它的私有训练数据集，其中包含标记的数据记录 $(X^{\left\{i\right\}}，y^{\left\{i\right\}})_{target}$ 。数据记录 $X^{\left\{i\right\}}_{target}$ 是模型的输入， $y^{\left\{i\right\}}_{target}$ 目标是真正的标签，它可以从一组大小为 $c_{target}$ 的类中获取值。目标模型的输出是一个 $c_{target}$ 大小的概率向量。这个向量的元素在[0，1]中，加起来等于1。

让 $f_{attack}$ （）作为攻击模型。它的输入 $x_{attack}$ 由一个正确标记的记录和一个大小为 $c_{target}$ 的预测向量组成。由于攻击的目标是决策成员推理，因此攻击模型是一个具有两个输出类“in”和“out”的二进制分类器。

在这里插入图片描述

图1展示了我们的端到端攻击过程。对于一个标记的记录（x， $y$ ），我们使用目标模型来计算预测向量y= $f_{target}$ （x）。y（分类置信值）的分布很大程度上依赖于x的真实类别，这就是为什么除了模型的预测向量y之外，我们还将x的真实标签 $y$ 传递给攻击模型。考虑到y中的概率如何分布在 $y$ 的周围，攻击模型计算成员概率Pr{（x， $y$ ）∈ $D_{target}^{train}$ }，即（（x， $y$ ），y）属于“in”类的概率，或者相当于x在 $f_{target}$ （）的训练数据集中的概率。

主要的挑战是，当攻击者没有目标模型的内部参数信息，并且只能通过公共API对其进行有限的查询访问时，如何训练攻击模型以区分目标模型训练数据集的成员和非成员。为了解决这个难题，我们开发了一种阴影训练技术，让我们在已知训练数据集的代理目标上训练攻击模型，从而可以执行监督训练。

B. Shadow models（阴影模型）

攻击者创建k个影子模型 $f_{shadow}^i$ （）。每个影子模型 $i$ 都训练在一个数据集 $D_{shadow^i}^{train}$ 上，该数据集的格式与目标模型的训练数据集格式相同，分布方式也类似。这些阴影训练数据集可以使用V-C节中描述的方法之一生成。我们假设用于训练阴影模型的数据集与用于训练目标模型的私有数据集不相交（ $i，D_{shadow^i}^{train}∩D_{target}^{train}=∅$ ）。对于攻击者来说，这是最糟糕的情况；如果训练数据集恰好重叠，则攻击的性能会更好。

阴影模型必须以与目标模型类似的方式进行训练。如果目标的训练算法（例如，神经网络、支持向量机、logistic回归）和模型结构（例如，神经网络的接线）是已知的，这就很容易实现。机器学习即服务更具挑战性。在这里，目标模型的类型和结构是未知的，但是攻击者可以使用与训练目标模型完全相同的服务（例如，Google预测API）来训练阴影模型，见图2。

在这里插入图片描述

阴影模型越多，攻击模型越准确。如第V-D节所述，训练攻击模型以识别阴影模型的行为差异（当这些模型根据其自身训练数据集的输入与它们在训练期间未遇到的输入进行运算时）。因此，更多的阴影模型为攻击模型提供了更多的训练素材。

C. Generating training data for shadow models（为阴影模型生成训练数据）

为了训练阴影模型，攻击者需要类似于目标模型训练数据分布的训练数据。我们开发了几种生成此类数据的方法。

基于模型的综合。如果攻击者没有实际的训练数据，也没有任何有关其分布的统计信息，则可以使用目标模型本身为阴影模型生成综合训练数据。直观是，目标模型具有高置信度分类的记录应在统计上与目标的训练数据集相似，从而为阴影模型提供良好的素材。

合成过程分为两个阶段：（1）使用爬山算法搜索可能的数据记录空间，以找到具有高置信度的目标模型分类的输入；（2）从这些记录中采样合成数据。在此过程综合了一条记录之后，攻击者可以重复该记录，直到阴影模型的训练数据集已满为止。

在这里插入图片描述

有关合成过程的伪代码，请参见算法1。首先，修复攻击者想要为其生成综合数据的类 $c$ 。第一阶段是一个迭代过程。首先随机初始化数据记录x。假设攻击者仅了解数据记录的语法格式，请从该功能的所有可能值中随机地均匀采样每个功能的值。在每次迭代中，提出一个新记录。提议的记录只有在提高爬坡目标时才被接受：目标模型将其分类为 $c$ 类的可能性。

每次迭代都涉及通过更改最新接受记录 $x^ ∗$ 的 $k$ 个随机选择的特征来提议新的候选记录。这可以通过翻转二进制特征或为其他类型的特征重新填充新值来完成。我们将 $k$ 初始化为 $k_{max}$ ，然后在 $rej_{max}$ 后续提议被拒绝时将其除以2。这样可以控制围绕接受记录的搜索范围，以便提出新记录。我们将 $k$ 的最小值设置为 $k_{min}$ 。这控制了搜索具有潜在更高分类概率 $y_c$ 的新记录的速度。

第二步，当目标模型的概率 $y_c$ （将所提出的数据记录归类为c类）大于所有其他类的概率且大于阈值 $conf_{min}$ 时，开始采样阶段。这确保了记录的预测标签是 $c$ ，并且目标模型对其标签预测有足够的信心。我们为概率为 $y_c^*$ 的合成数据集选择这样的记录，如果选择失败，则重复该记录，直到选择了一个记录。

仅当对手可以有效地探索可能的输入空间并以高置信度发现由目标模型分类的输入时，此合成过程才有效。例如，如果输入是高分辨率图像并且目标模型执行复杂的图像分类任务，则可能不起作用。

基于统计的综合。攻击者可能具有一些有关人口的统计信息，这些人口是从中提取目标模型的训练数据的。例如，攻击者可能具有不同特征的边际分布的先验知识。我们从阴影模型的边缘分布中独立地抽取每个特征的值，从而生成阴影模型的综合训练记录。由此产生的攻击模型非常有效。

嘈杂的真实数据。攻击者可以访问一些与目标模型的训练数据相似的数据，并且可以将其视为“噪声”版本。在我们对位置数据集的实验中，我们通过翻转10%或20%随机选择特征的（二进制）值来模拟这一点，然后在产生的噪声数据集上训练阴影模型。这种情况下，目标和阴影模型的训练数据不是从完全相同的总体中采样，或者以非均匀的方式采样的情况。

D. Training the attack model（训练攻击模型）

我们的阴影训练技术背后的主要思想是，使用相同服务在相对相似的数据记录上训练的相似模型的行为类似。在本文的其余部分中，我们的实验凭经验证明了这一观察结果。我们的结果表明，学习如何推理阴影模型的训练数据集中的成员（我们知道这个事实，并且可以在有监督的训练期间轻松计算成本函数）会产生一个攻击模型，该攻击模型也可以成功地推理目标模型的训练数据集中的成员。

我们使用自己的训练数据集和相同大小的不相交测试集来查询每个阴影模型。训练数据集上的输出标记为“in”，其余标记为“out”。现在，攻击者有了一个记录数据集，阴影模型的相应输出以及in/out标签。攻击模型的目的是从记录和相应的输出中推理出标签。

在这里插入图片描述

图3显示了如何训练攻击模型。对于所有（x， $y$ ）∈ $D_{shadow^i}^{train}$ ，计算预测向量y = $f_{shadow}^i$ （x）并将记录（ $y$ ，y，in）添加到攻击训练集 $D_{attack}^{train}$ 中。令 $D_{shadow^i}^{test}$ 是与 $i$ th阴影模型的训练集不相交的一组记录。然后， $\forall$ （x， $y$ ）∈ $D_{shadow^i}^{test}$ 计算预测向量y = $f_{shadow}^i$ （x）并将记录（ $y$ ，y，out）添加到攻击训练集 $D_{attack}^{train}$ 中。最后，将 $D_{attack}^{train}$ 分为 $c_{target}$ 个分区，每个分区都与一个不同的类标签关联。对于每个标签 $y$ ，训练一个单独的模型，给定y的情况下，该模型可以预测x的in或out成员状态。

如果我们使用第V-C节中基于模型的综合，则攻击模型的所有原始训练数据都是从由目标模型分类的记录中以高置信度得出的。但是，对于阴影模型的训练数据集中使用的记录以及这些数据集中遗漏的测试记录，都是如此。因此，攻击模型不是简单地学会识别具有高置信度分类的输入的情况。相反，它学会了执行更微妙的任务：如何区分以高置信度分类的训练输入和也以高置信度分类的其他非训练输入。

实际上，我们将识别训练数据集成员与模型输出之间的复杂关系的问题转换为二进制分类问题。二进制分类是一项标准的机器学习任务，因此我们可以使用任何最新的机器学习框架或服务来构建攻击模型。我们的方法独立于用于攻击模型训练的特定方法。例如，在第六节中，我们使用神经网络以及攻击中使用的黑盒Google Prediction API构造了攻击模型，在这种情况下，我们无法控制模型结构，模型参数或训练元参数 -但仍可获得有效的攻击模型。

VI. EVALUATION（评价）

我们首先描述用于评估的数据集，然后描述目标模型和实验设置。然后，我们在几种情况下展示成员推理攻击的结果，并详细研究攻击如何以及为什么针对不同的数据集和机器学习平台进行攻击。

A. Data

CIFAR。 CIFAR-10和CIFAR-100是用于评估图像识别算法的基准数据集[24]。 CIFAR-10由10个类别的32×32彩色图像组成，每个类别有6,000个图像。总共有50,000个训练图像和10,000个测试图像。 CIFAR-100具有与CIFAR-10相同的格式，但是它具有100个类，每个类包含600张图像。每个类有500张训练图像和100张测试图像。我们在攻击实验中使用了该数据集的不同部分，以显示训练数据集大小对攻击准确性的影响。

购买。我们的购买数据集基于Kaggle的“获得有价值的购物者”挑战数据集，其中包含数千个人的购物记录。挑战的目的是设计准确的优惠券促销策略。每个用户记录都包含其一年内的交易。交易包括许多字段，例如产品名称，连锁店，数量和购买日期。

对于我们的实验，我们导出了一个简化的购买数据集（包含197、324条记录），其中每个记录包含600个二进制特征。每个功能对应一个产品，并表示用户是否购买了它。为了设计分类任务，我们首先将记录分为多个类别，每个类别代表不同的购买方式。在我们的实验中，我们使用5种不同的分类任务，分别使用不同数量的类{2，10，20，50，100}。分类任务是在给定600个特征向量的情况下预测用户的购买风格。我们使用从购买数据集中随机选择的10000条记录来训练目标模型。数据集的其余部分有助于阴影模型的测试集和（如有必要）训练集。

位置。我们从Foursquare社交网络中公开使用的移动用户位置“签到”集中创建了一个位置数据集，仅限于曼谷地区，并于2012年4月至2013年9月收集[36] 。 11592位用户和119744个位置，共计1136481个签到位置。我们筛选出签入少于25个的用户，而访问量少于100个的场所被筛选出来，这给我们留下了5010个用户个人资料。对于每个位置地点，我们都有地理位置及其位置类型（例如，印度餐厅，快餐等）。位置类型总数为128。我们将曼谷地图划分为 $0.5 k m \times 0.5 k m$ 的区域，从而产生318个区域，至少需要一个用户签到。

所得数据集中的每条记录都有446个二进制特征，分别表示用户是否访问了某个区域或位置类型，即用户的语义和地理位置。分类任务类似于采购数据集。我们将位置数据集分为30个类别，每个类别代表不同的地理社会类型。分类任务是根据用户的记录预测用户的地域社会类型。我们使用1,600条随机选择的记录来训练目标模型。数据集的其余部分用于测试集和（如有必要）阴影模型的训练集。

德州医院住院。该数据集基于德克萨斯州卫生服务部于2006年至2009年发布的医院出院数据公共用途文件，其中包含有关住院患者在多个医疗机构中的住院信息。每个记录包含四大类属性：伤害的外部原因（如自杀、药物滥用）、诊断（如精神分裂症、非法堕胎）、患者所经历的程序（如手术）以及一些一般信息，如性别、年龄、种族、医院id和住院时间。

我们的分类任务是根据次要程序以外的属性来预测患者的主要过程。我们关注100个最常见的程序。得到的数据集有67330条记录和6170个二进制特征。我们使用10000个随机选择的记录来训练目标模型。

请注意，我们的实验不涉及重新识别已知的个人，并且完全符合原始公用数据文件的数据使用协议。

MNIST。这是一个由70000个手写数字组成的数据集，格式化为32×32的图像并进行标准化，使数字位于图像的中心。

UCI Adult（人口普查收入）。这个数据集包括48842条记录，包含14个属性，如年龄、性别、教育程度、婚姻状况、职业、工作时间和国籍。（二进制）分类任务是根据人口普查属性预测一个人的年收入是否超过5万美元。我们使用随机选择的10000条记录来训练目标模型。

B. Target models

我们评估了我们对三种目标模型的推理攻击：两种是由基于云的“机器学习即服务”平台构建的，另一种是我们在本地实现的。在所有情况下，我们的攻击都将模型视为黑匣子。对于云服务，我们不知道它们创建的模型的类型或结构，也不知道训练过程中使用的超参数的值。

机器学习即服务。我们研究的第一个基于云的机器学习服务是Google Prediction API。通过这个服务，用户上传一个数据集并获得一个用于查询结果模型的API。没有用户可以更改的配置参数。

另一个云服务是amazonml，用户不能选择模型的类型，但可以控制一些元参数。在我们的实验中，我们改变了训练数据的最大通过次数和L2正则化量。前者决定训练周期的个数，控制模型训练的收敛性，默认值为10。后者调整模型参数的正则化程度，以避免过度拟合。我们在两种配置中使用了该平台：默认设置（10， $1 e - 6$ ）和（100， $1 e - 4$ ）。

神经网络。神经网络已经成为一种非常流行的大规模机器学习方法。我们使用Torch7及其nn包，这是一个深度学习库，已经被Facebook等主要互联网公司使用和扩展。

在CIFAR数据集上，我们训练一个标准的卷积神经网络（CNN），它有两个卷积和最大池层，外加一个128大小的完全连接层和一个 $S o f t M a x$ 层。我们用 $T a n h$ 作为激活函数。我们将学习率设置为0.001，学习率衰减为 $1 e - 07$ ，最大训练时间为100。

用一个128大小的隐藏层和一个 $S o f t M a x$ 层连接神经网络。我们用 $T a n h$ 作为激活函数。我们将学习率设置为0.001，学习率衰减为 $1 e - 07$ ，最大训练时间为200。

C. Experimental setup（C、实验装置）

每个目标和阴影模型的训练集和测试集是从各自的数据集中随机选取的，大小相同，且不相交。目标模型和阴影模型的数据集之间没有重叠，但是用于不同阴影模型的数据集可以相互重叠。

我们将purchase数据集、Texas hospital stay数据集、成人数据集和MNIST数据集的训练集大小设置为10000。对于位置数据集，我们将其设置为1200。我们为CIFAR数据集改变训练集的大小，以测量攻击准确度的差异。对于CIFAR-10数据集，我们选择2500、5000、10000和15000。对于CIFAR-100数据集，我们选择4600、10520、19920和29540。

在CIFAR数据集上的实验是在本地运行的，针对我们自己的模型，因此我们可以改变模型的配置并测量对攻击准确性的影响。其他数据集的实验（购买{2，10，20，50，100}类，德克萨斯州住院时间，位置，成人和MNIST）是针对使用Google或Amazon服务培训的模型进行的，在这些模型中，我们无法了解他们对模型类型和结构的选择，而且对培训过程几乎没有控制（见第VI-B节）。

对于购买数据集，我们使用相同的训练数据集在所有平台（Google、Amazon、local neural networks）上构建目标模型，从而使我们能够比较不同模型的泄漏。我们对不同平台上的攻击模型使用了相似的训练架构：要么是一个完全连接的神经网络，有一个64大小的隐藏层，带有ReLU（整流线性单元）激活函数和一个SoftMax层，要么是一个Google训练的黑盒模型。

我们将CIFAR数据集的阴影模型数设置为100，购买数据集为20，德州医院住院数据集为10，位置数据集为60，MNIST数据集为50，成人数据集为20。增加阴影模型的数量会增加攻击的准确性，但也会增加其成本。

D. Accuracy of the attack （攻击的准确性）

攻击者的目标是确定给定的记录是否是目标模型训练数据集的一部分。我们通过从目标的训练和测试数据集中随机重组的记录来评估这种攻击。在攻击评估中，我们使用相同大小的集合（即成员和非成员数目相等）来最大化推断的不确定性，因此基线精度为0.5。

我们使用标准的精确度和召回率指标来评估攻击。精度是作为训练数据集的成员推断出的记录的一部分，而这些记录确实是成员。召回率衡量攻击的覆盖范围，即攻击者可以正确推断为成员的训练记录的分数。大多数度量是按类报告的，因为攻击的准确度对于不同的类可以有很大的不同。这是由于每个类的训练数据在大小和组成上存在差异，并且高度依赖于数据集。

在这里插入图片描述

对于CIFAR-10和CIFAR-100，我们使用最大训练数据集（分别为15000和29540个记录）的目标神经网络模型的测试精度分别为0.6和0.2。准确度较低，这表明模型在训练集上严重过度拟合。图4显示了针对CIFAR模型的成员推理攻击的结果。对于CIFAR-10和CIFAR-100，该攻击的性能比基线要好得多，CIFAR-100尤其容易受到攻击。

在这里插入图片描述

表一显示了使用不同的机器学习平台为100个类的购买数据集构建的模型的训练和测试精度。训练和测试准确度之间的巨大差距表明过度拟合。测试精度越高，泛化能力越好，预测能力越强。

在这里插入图片描述

图5显示了针对谷歌和亚马逊机器学习平台训练的黑匣子模型的成员推理攻击的结果。图7比较了针对这些模型的攻击与针对基于相同数据训练的神经网络模型的攻击的精确度。使用Google Prediction API训练的模型显示出最大的泄漏。
在这里插入图片描述

对于德州医院住院数据集，我们评估了我们针对谷歌训练模型的攻击。目标模型的训练精度为0.66，测试精度为0.51。图6显示了成员推理的精确性。精度大多在0.6以上，有一半的类别在0.7以上。超过20个类别的精度在0.85以上。
在这里插入图片描述
对于位置数据集，我们用Google训练的模型评估了我们的攻击。目标模型的训练精度为1，测试精度为0.66。图8显示了成员关系推断的准确性。精确度在0.6到0.8之间，几乎恒定的召回率为1。

E. Effect of the shadow training data（阴影训练数据的效果）

图8报告了训练在阴影模型上的攻击的精度，阴影模型的训练数据集是真实数据的噪声版本（与目标模型的训练数据集不相交，但从同一总体中采样）。精度随着噪声量的增加而下降，但攻击仍然优于基线，即使阴影训练数据中10%的特征被随机值取代，仍然与原始攻击匹配。这表明即使攻击者对目标模型训练数据分布的假设不是很准确，我们的攻击仍然是鲁棒的。

在这里插入图片描述

图9报告了当攻击者没有真实的数据（甚至没有噪音）来训练他的影子模型时的攻击精度。相反，我们使用单个特征的边际分布生成187300个合成购买记录，然后在这些记录上训练了20个影子模型。

我们还使用算法1中提出的基于模型的方法生成了30000条合成记录。在我们使用购买数据集的经验中，记录有600个二进制特征，我们将k初始化为 $k_{max}=128$ ，并在 $rej_{max}=10$ 的后续建议被拒绝时将其除以2。我们将其最小值 $k_{min}=4$ 。在采样阶段，我们将最小置信阈值 $conf_{min}$ 设置为0.2。

对于最后一组采样记录，目标模型对记录分类的置信度平均为0.24（略高于阈值 $conf_{min}=0.2$ ）。在我们的爬山两阶段过程中，平均每个合成记录需要156个查询（建议的记录）（见第V-C节）。我们根据这些数据训练了8个阴影模型。

图9比较了在真实数据上训练阴影模型和在合成数据上训练阴影模型时攻击的精确度。实际数据的总体精度为0.935，而基于边缘的合成物的总精度为0.795，基于模型的合成物的总精度为0.895。与真实数据相比，使用基于边缘的合成数据的攻击的准确性明显降低，但对于大多数类来说，它仍然非常高。使用基于模型的合成数据的攻击表现出双重行为。对于大多数类，它的精度很高，接近使用真实数据进行阴影训练的攻击，但对于少数类，精度非常低（小于0.1）。

攻击在某些类上的精度较低的原因是目标分类器由于没有看到足够的示例而无法自信地建模属于这些类的数据记录的分布。这些类在目标模型的训练数据集中没有得到充分的表示。例如，攻击精度低于0.1的每个类在目标模型训练数据集中的贡献率低于0.6%。其中一些类的训练记录少于30次（10000次）。这使得我们的算法在搜索可能记录的高维空间时很难综合这些类的代表。

对于目标模型的大多数类，我们的攻击达到了很高的精度。这表明，如果攻击者能够高效地生成由目标模型分类的高置信度输入，那么成员推理攻击可以在没有任何关于目标模型训练数据分布的先验知识的情况下进行训练。

F. Effect of the number of classes and training data per class(类别和每个类别训练数据数量的影响)

目标模型的输出类的数量决定了模型泄漏的程度。类越多，攻击者就可以获得更多有关模型内部状态的信号。这就是为什么图4中的结果对于CIFAR-100比CIFAR-10更好的原因之一。CIFAR100模型也更适合其训练数据集。对于相同数量的训练记录，针对CIFAR-100的攻击比针对CIFAR-10的攻击性能更好。例如，将训练数据集大小为2000时的CIFAR-10与训练数据集大小为20000时的CIFAR-100进行比较。在这两种情况下，每个类的平均数据记录数都是200，但CIFAR-100的攻击准确率要高得多（接近1）。

在这里插入图片描述

为了量化类的数量对攻击准确性的影响，我们使用Google预测API在购买数据集上使用{2,10,20,50,100}类训练目标模型。图10显示了每个模型的攻击精度分布。类较少的模型泄漏的关于其训练输入的信息较少。随着类数的增加，模型需要从数据中提取出更具特色的特征，以便能够高精度地对输入进行分类。非正式地说，具有更多输出类的模型需要记住更多关于其训练数据的信息，因此它们会泄漏更多的信息。

在这里插入图片描述

图11显示了每个类的训练数据量和成员推理的准确性之间的关系。这种关系更复杂，但一般来说，训练数据集中与给定类关联的数据越多，该类的攻击精度就越低。

在这里插入图片描述

表二显示了根据Google训练的模型进行成员推理的精度。对于MNIST数据集，目标模型的训练精度为0.984，测试精度为0.928。成员推理攻击的总体精度为0.517，略高于随机猜测。每个类的训练数据缺乏随机性，类数较少是攻击失败的原因。

对于Adult数据集，目标模型的训练精度为0.848，测试精度为0.842。攻击的整体精度为0.503，相当于随机猜测。对于这种模型，成员推理失败可能有两个原因。首先，模型没有过度拟合（其测试精度和训练精度几乎相同）。其次，该模型是一个二元分类器，这意味着攻击者必须通过观察模型在本质上是1个信号的行为来区分成员和非成员，因为这两个输出是互补的。这不足以让我们的攻击从模型中提取有用的成员信息。

G. Effect of overfitting(过度拟合的影响)

模型越是过度拟合，泄漏的就越多，但只适用于同一类型的模型。例如，根据表一，亚马逊训练的（100， $1 e - 4$ ）模型比亚马逊训练的（10， $1 e - 6$ ）模型泄漏的更多。然而，它们的泄漏量都比谷歌训练的模型要少，尽管谷歌模型比亚马逊的一个模型不太适合，而且比这两个亚马逊模型具有更好的预测能力（因而具有普遍性）。因此，过度拟合并不是导致模型容易受到成员推理的唯一因素。模型的结构和类型也有助于解决这个问题。

在图11中，我们深入研究了影响每个类攻击准确度的因素，包括模型的过度拟合程度以及每个类的训练数据的比例。（训练-测试）精度差距是目标模型在训练和测试数据上的精度差。文献中也使用了类似的指标来衡量模型的过度拟合程度[18]。我们为每个类计算这个度量。较大的差距表明该模型对该类的训练数据拟合过度。结果表明，与预期的一样，较大的（训练测试）精度差距与较高的成员推理精度相关。

VII. WHY OUR ATTACKS WORK（为什么我们的攻击有效）

表二显示了我们的成员推理攻击的准确性与目标模型的（训练测试）差距之间的关系。图12还说明了目标模型的输出如何区分训练数据集的成员和非成员。这就是我们的攻击所利用的信息。

在这里插入图片描述
具体地说，我们研究模型预测正确标签的准确程度以及预测的不确定性具体地说，我们研究模型预测正确标签的准确程度以及预测的不确定性。 $i$ 类的准确度是模型将标签为 $i$ 的输入分类为 $i$ 的概率。预测不确定性是模型预测向量的归一化熵： $\frac{-1}{\log(n)} \sum_ip_i\log(p_i)$ ，其中 $P_i$ 是输入属于i类的概率， $n$ 是类的数量。图中显示，在攻击成功的情况下，成员输入与非成员输入的模型输出（准确度和不确定性）之间存在显著差异。

成员推理的成功与否直接关系到目标模型的泛化性和训练数据的多样性。如果模型过度拟合并且不能很好地将其推广到训练数据之外的输入，或者如果训练数据不具有代表性，则模型会泄漏有关其训练输入的信息。我们在图11中量化了这种关系。从机器学习的角度来看，过度拟合是有害的，因为它产生的模型缺乏预测能力。在本文中，我们指出了过度拟合的另一个危害：训练数据的敏感信息泄露。

正如我们在第六节中所解释的，过度拟合并不是我们推理攻击有效的唯一原因。不同的机器学习模型，由于其结构的不同，“记住”了关于其训练数据集的不同数量的信息。这会导致不同数量的信息泄漏，即使模型过度拟合到相同程度（见表一）。

VIII. MITIGATION（缓解）

如第七节所述，过度拟合是机器学习模型泄漏其训练数据集信息的一个重要（但不是唯一）原因。当然，过度拟合是机器学习中的一个典型问题，因为它限制了模型的预测能力和泛化能力。这意味着，在这种情况下，机器学习研究和隐私研究的目标是相似的，而不是通常在实用性和隐私性之间进行权衡。正则化技术，如dropout[31]（随机失活）可以帮助克服过度拟合，并加强神经网络的隐私保障[23]。正则化也用于微分私有机器学习中的目标扰动[9]。

（理想情况下）良好正则化的模型不应泄漏太多关于其训练数据的信息，我们的攻击可以作为量化这一数据的指标。此外，具有简单结构的模型（例如，某些输入特性的异或）可以推广到整个宇宙，并且不会泄漏信息。

如果训练过程是差异私有的[12]，那么从包含特定记录的训练数据集生成给定模型的概率接近于不包括该记录时生成相同模型的概率。由于我们的攻击只对模型的输出进行操作，没有任何辅助信息，因此通过构造，差分私有模型可以抵抗本文所开发的那种成员推理攻击。一个障碍是，差异私有模型可能会显著降低模型对小 $\epsilon$ 值的预测精度。在第九节中，我们调查了这方面的一些相关工作。

就机器学习作为一项服务而言，谷歌和亚马逊等平台运营商对其服务的用户负有重大责任。在它们当前的形式中，这些服务只是接受数据，生成一个未知类型和结构的模型，并向这个模型返回一个不透明的API，供数据所有者在他们认为合适的情况下使用，而不知道这样做可能会泄露数据。机器学习服务不会告知客户过度拟合的风险，也不会告知他们在不充分的数据集上训练的模型可能造成的危害（例如，记录不具代表性或某些类别的代表太少）。

相反，当为客户提供的数据集自适应地选择模型时，Google预测API和Amazon-ML等服务不仅要考虑模型的准确性，还要考虑到它将泄露有关其训练数据的信息的风险。此外，他们需要明确地警告客户这一风险，并提供更多的模型可见性和可用于减少这种泄漏的方法。我们的推理攻击可以作为度量来量化特定模型的泄漏，也可以用来衡量机器学习服务部署的未来隐私保护技术的有效性。

A. Mitigation strategies（缓解策略）

我们定量地评估了几种针对成员推理的防御措施。

将预测向量限制为前 $k$ 个类。当类的数量很大时，许多类在模型的预测向量中的概率很小。如果模型只输出最有可能的 $k$ 类的概率，它仍然有用。为了实现这一点，我们在模型的最后一层添加了一个过滤器。 $k$ 越小，模型泄漏的信息就越少。在极端情况下，模型只返回最有可能类的标签，而不报告其概率。

粗化预测向量的精度。为了实现这一点，我们将预测向量中的分类概率舍入为 $d$ 个浮点数字。 $d$ 越小，模型泄漏的信息就越少。

增加预测向量的熵。成员推理利用的一个信号是目标模型在其训练输入上的预测熵与其他输入之间的差异。作为一种神经网络模型的缓和技术，我们可以修改（或添加） $s o f t m a x$ 层并提高其归一化温度 $t > 0$ 。 $s o f t m a x$ 层将为每个类计算的逻辑转换为概率。对于logits向量z，带温度 $t$ 的 $s o f t m a x$ 函数的第 $i$ 个输出为 $\frac{e^{z_i/t}}{\sum_j e^{z_j/t}}$ 。这种技术，也用于知识提取和模型之间的信息传递[20]，会增加预测向量的熵。注意，对于一个非常大的温度，输出变得几乎均匀并且与输入无关，因此不会泄漏任何信息。

使用正则化。正则化技术用于克服机器学习中的过拟合问题。我们使用L2范数标准正则化，通过在模型的损失函数中添加 $λ\sum _iθ^2_i$ 来惩罚大参数，其中 $θ_is$ 是模型的参数。我们利用正则化因子 $λ$ 的不同值来实现该技术。 $λ$ 越大，训练过程中的正则化效果越强。

B. Evaluation of mitigation strategies（评估缓解策略）

为了评估不同缓解策略的有效性，我们在完全控制的本地培训模型中实施了所有这些策略。然而，推理攻击仍然假设只有黑盒访问结果模型。这些实验的基线模型是一个有一个隐藏层的神经网络，有256个单元（对于购买数据集）和1000个单元（对于德州医院住院数据集）。我们用 $T a n h$ 作为激活函数。

在这里插入图片描述

表三显示了我们的评估结果。它比较了不同的缓解策略，基于它们如何降低攻击的准确性相对于一个不使用任何缓解的模型的攻击。我们所实施的缓解策略没有对目标模型的预测精度造成任何代价，并且在正则化的情况下，目标模型的预测精度如预期般提高。注意，更多的正则化（通过进一步增加 $λ$ ）可能会导致目标模型的测试精度显著降低，即使这会阻碍成员推断。这在购买数据集的 $λ = 1 e - 2$ 和德克萨斯州医院住院数据集的 $λ = 5 e - 3$ 的表格中显示。

总的来说，我们的攻击是针对这些缓解策略的。从预测向量中过滤出低概率类，并将向量限制在前1或3个最有可能的类中，这并不会挫败攻击。即使将预测向量限制为一个标签（最有可能的类），这是模型必须输出的绝对最小值，也不足以完全防止成员推理。我们的攻击仍然可以利用目标模型的错误标记行为，因为训练数据集的成员和非成员的错误标记不同（分配到不同的错误类）。如果预测向量除了标签外还包含概率，那么模型会泄漏更多可用于成员推理的信息。

有些缓解方法不适合作为一般应用程序和服务使用的机器学习即服务API。然而，正规化似乎是必要和有用的。如前所述，它（1）对模型进行了推广，提高了模型的预测能力；（2）减少了模型对训练数据集的信息泄漏。然而，正则化需要小心部署，以避免破坏模型在测试数据集上的性能。

IX. RELATED WORK(相关工作)

对统计和机器学习模型的攻击。文献[2]利用支持向量机和隐马尔可夫模型的参数知识来推断训练数据集的一般统计信息，例如训练过程中是否使用了特定种族的记录。相比之下，我们的推理攻击在一个黑盒设置中工作，而不知道模型的参数，并且推断训练数据集中特定记录的信息，而不是一般统计。

Homer等人[21]开发了一种技术，在[3]，[15]中进一步研究了这一技术，该技术基于对该数据集的已发表统计数据（尤其是次要等位基因频率）与这些统计数据在一般人群中的分布相比较，推断数据集中是否存在特定基因组。相比之下，我们的推理攻击目标是经过训练的机器学习模型，而不是显式统计。

对机器学习的其他攻击包括[7]，其中对手利用协作推荐系统输出的变化来推断导致这些变化的输入。这些攻击利用特定于基于协同过滤的推荐系统的时间行为。

模型反演。模型反演[16]，[17]使用应用于隐藏输入的模型的输出来推断该输入的某些特征。关于这种攻击的详细分析，以及为什么它不一定会导致侵犯隐私的解释，见[27]。例如，在[17]中分析的药物遗传学的具体案例中，模型捕捉了患者基因型与某种药物剂量之间的相关性。这种相关性是一个有效的科学事实，适用于所有患者，无论他们是否包含在模型的训练数据集中。由于人口统计数据，不可能阻止披露[14]。

一般来说，模型反演无法判断特定记录是否被用作模型训练数据集的一部分。给定一个记录和一个模型，当使用记录来训练模型和不使用记录时，模型反演的工作方式完全相同。在药物遗传学[17]中，模型反转对成员和非成员产生几乎相同的结果。由于模型的过度拟合，对于成员来说，结果要精确一点（4%），但只有在对手已经知道基本事实（即，哪些记录确实是模型训练数据集的成员）的情况下，才能在回顾时测量这种准确性。相比之下，我们的目标是构建一个区分成员和非成员的决策过程。

模型反演也应用于人脸识别模型[16]。在这个场景中，对于类 $i$ ，模型的输出被设置为1，其余的被设置为0，并且模型反转被用来构造一个产生这些输出的输入。这个输入不是训练数据集的实际成员，而是“特征化”类的特征的平均值。

在人脸识别场景中，并且只有在这个特定场景中，模型的每个输出类都与一个人相关联。这门课的所有训练图像都是该人的不同照片，因此模型反演构造了一个人工图像，它是这些照片的平均值。因为他们描绘的都是同一个人，所以这个平均值（被人类）识别为那个人。关键的是，模型反演不会从训练数据集中产生任何特定的图像，这就是成员推理的定义。

如果一个类中的图像是多样的（例如，如果该类包含多个个体或多个不同的对象），则[16]中使用的模型反演结果在语义上是没有意义的，并且不能从训练数据集中识别出任何特定的图像。为了说明这一点，我们对训练在CIFAR-10数据集上的卷积神经网络进行了模型反演，CIFAR-10数据集是目标识别模型的标准基准。每一类都包含一种物体（例如飞机）的不同图像。图13显示了通过模型反演“重建”的图像。正如预期的那样，它们没有描述任何可识别的对象，更不用说训练数据集中的图像了。我们期望其他模型也能得到类似的结果。对于上面提到的药物遗传学模型，这种模式反转产生了不同患者的平均基因组。对于将位置跟踪分类为地理社会概况的模型（见第VI-A节），它产生了不同人的位置轨迹的平均值。在这两种情况下，模型反演的结果都与任何特定的个人或特定的训练输入无关。

在这里插入图片描述
总之，模型反演产生的平均特征，充其量可以描述整个输出类。它不会（1）构造训练数据集的特定成员，也不会（2）给定一个输入和一个模型，来确定这个特定的输入是否用于训练模型。

模型提取。模型提取攻击[32]的目的是提取基于私有数据的模型的参数。攻击者的目标是构造一个模型，其对验证数据的预测性能与目标模型相似。

模型提取可以作为推断模型训练数据集信息的垫脚石。在[32]中，这是一种称为核逻辑回归（KLR）[38]的特定模型的说明。在KLR模型中，核心函数直接将一小部分训练数据（所谓的“导入点”）包含到模型中。由于导入点是模型的参数，因此提取它们会导致特定部分的数据泄漏。这一结果对KLR非常特殊，并且没有扩展到其他类型的模型，因为它们没有在参数中显式地存储训练数据。

即使对于KLR模型，除了通过几个选择的输入点的视觉相似性和手写数字的MNIST数据集上的“最近的（在L1范数中）提取的代表点”来量化泄漏。在MNIST中，一个类的所有成员都非常相似（例如，第一个类的所有成员都是以不同的方式书写数字“1”）。因此，任何提取的数字必须与它的类中的所有图像相似，无论这个数字是否在训练集中。

隐私保护机器学习。现有的关于机器学习中隐私保护的文献主要集中在如何在不直接访问训练数据的情况下进行学习。安全多方计算（SMC）已用于学习决策树[26]、线性回归函数[11]、朴素贝叶斯分类器[33]和k-均值聚类[22]。其目的是限制训练期间的信息泄漏。训练算法与非隐私保护情况下相同，因此得到的模型与任何常规训练模型一样容易受到推理攻击。这也适用于通过计算加密数据训练的模型[4]、[6]、[35]。

差分隐私[12]已应用于线性和逻辑回归[8]、[37]、支持向量机[28]、风险最小化[5]、[9]、[34]、深度学习[1]、[30]、从随机样本中学习离散总体上的未知概率分布[10]，并释放超参数和分类器精度[25]。根据定义，差分隐私模型限制了仅基于该模型的成员推断攻击的成功概率，其中包括本文描述的攻击。

X. CONCLUSIONS（结论）

我们设计、实现并评估了针对机器学习模型的第一次成员推断攻击，特别是使用Google Prediction API和Amazon ML在云中训练的黑匣子模型。我们的攻击是一种通用的、定量的方法来理解机器学习模型如何泄漏其训练数据集的信息。在选择要训练的模型类型或使用的机器学习服务类型时，我们的攻击可以作为选择指标之一。

我们的关键技术创新是阴影训练技术，它训练攻击模型，以区分目标模型对训练数据集成员和非成员的输出。我们证明在这种攻击中使用的阴影模型可以有效地使用合成或噪声数据创建。在由目标模型本身生成的合成数据的情况下，攻击不需要任何关于目标模型训练数据分布的先验知识。

从隐私角度来看，住院和其他医疗数据集的成员资格是敏感的。因此，我们的结果具有实质性的实际隐私含义。

【文章思路、算法分析】Membership Inference Attacks Against Machine Learning Models
$\color{maroon}{到此结束，希望能帮助到你 }$