Practical Blind Membership Inference Attack viaDifferential Comparisons

第一篇NDSS和大家分享

首先是摘要部分。

Membership inference (MI) attacks affect user privacy by inferring whether given data samples have been used to train a target learning model, e.g., a deep neural network. There are two types of MI attacks in the literature, i.e., these with and without shadow models. The success of the former heavily depends on the quality of the shadow model, i.e., the transferability between the shadow and the target; the latter, given only black box probing access to the target model, cannot make an effective inference of unknowns, compared with MI attacks using shadow models, due to the insufficient number of qualified samples labeled with ground truth membership information. In this paper, we propose an MI attack, called BLINDMI, which probes the target model and extracts membership semantics via a novel approach, called differential comparison. The high-level idea is that BLINDMI first generates a dataset with nonmembers via transforming existing samples into new samples, and then differentially moves samples from a target dataset to the generated, non-member set in an iterative manner. If the differential move of a sample increases the set distance, BLINDMI considers the sample as non-member and vice versa. BLINDMI was evaluated by comparing it with state-of-theart MI attack algorithms. Our evaluation shows that BLINDMI improves F1-score by nearly 20% when compared to state-ofthe-art on some datasets, such as Purchase-50 and Birds-200, in the blind setting where the adversary does not know the target model’s architecture and the target dataset’s ground truth labels. We also show that BLINDMI can defeat state-of-the-art defenses.

提到Membership inference (MI) attacks的定义,简单对这个概念做一个表述。

成员推理攻击这个概念首先由Shokri等人于2017年在一篇发布于四大安全顶会IEEE Symposium on Security and Privacy上的文章Membership Inference Attacks Against Machine Learning Models中提出。关于成员推理攻击的目的,或者是说他的定义,就是为了分辨出某些数据样本是否被用于某一机器学习模型的训练过程

为了解决过程中存在的很多问题,Shokri等人十分巧妙的提出了一个核心思想——shadow model。通俗的来说就是不使用目标模型的训练数据以及具体的参数模型,我们反而使用自己的数据样本(但是格式上必须与目标模型的训练样本相同)训练与目标模型架构相同的模型,然后将输出与目标模型的输出来做对比。如果表现近似,那么模型也可以近似的等价。

本文提出了一种新的成员推理(MI)攻击方法,称为BLINDMI。这种方法通过差异比较技术,不需要影子模型,也能有效地探测目标模型并提取成员资格信息。BLINDMI通过生成非成员数据集,并迭代地将样本从目标数据集移动到非成员集合中,根据集合距离的变化来判断样本是否为成员。实验结果表明,BLINDMI在某些数据集上的表现优于现有的最先进的MI攻击算法,并且能够克服现有的防御措施。

Introduction

首先写出机器学习特别是深度学习已经在多个关键领域取得了显著的成就,但是同时也指出了面对攻击的脆弱性,尤其是对于成员推理攻击。MI攻击允许对手推断特定样本是否属于某个学习模型的训练集,这可能会侵犯隐私,例如医疗图像的泄露和个人位置信息的推断。尽管成员资格推断的概念直观,但实施这种攻击存在挑战,尤其是在只有黑盒访问权限的情况下,对手需要收集足够多的标记样本来进行分类。现有的MI攻击通常依赖于影子模型来提供成员资格的真相信息,但影子模型与目标模型的差异可能导致攻击性能下降。

接下来,介绍了一种新型的成员推理(MI)攻击方法-BLINDMI。它不需要影子模型即可直接从目标模型的探测结果推断成员资格。BLINDMI基于两个主要的观点:首先,即使攻击者没有目标模型的成员和非成员标签,也可以通过生成可能被视为非成员的新样本来轻松获取非成员标签;其次,这些非成员的一类语义可以被现有的机器学习分类器学习,例如单类SVM,从而形成BLINDMI-1CLASS攻击,它作为BLINDMI方法的一个基线,利用了第一个观点。这种方法解决了传统无影子模型攻击依赖于简单的二元比较并且无法有效模拟复杂决策边界的问题。

提出的BLINDMI攻击方法包含两种技术:BLINDMI-DIFF和BLINDMI-1CLASS。BLINDMI-DIFF基于差异比较原理,通过比较两个数据集之间的距离变化来推断样本是否为成员。该方法不需要大量的数据,只需要两个小规模的数据集,就能实现较高的推理性能。BLINDMI-1CLASS则是基于单类支持向量机的基线方法。实验评估显示,BLINDMI在多种设置下,包括在攻击者知晓目标模型具体架构和超参数的情况下,都能取得优于现有技术的F1分数。此外,即使在非成员与成员比例高达39:1的情况下,BLINDMI依然能够保持超过50%的F1分数,而现有技术则低于30%。BLINDMI还能够在面对现有防御措施时实现合理的F1分数,突破了包括对抗性正则化、MemGuard、Mixup + MMD和差分隐私在内的防御手段。

Overview

本节先介绍威胁模型,然后描述整个论文使用的基本原则和假设。

Threat Model

本文提出的威胁模型考虑了不同类型的对手,他们试图推断目标数据集中的样本是否属于深度学习模型的训练集。这些对手的能力分为四个不同的变体:黑盒-盲(完全缺乏目标模型和数据集的信息)、黑盒(知道目标数据集的真实标签但不了解模型细节)、灰盒(知道模型的所有细节除了训练数据)和灰盒-盲(不了解目标数据集的真实标签但知道模型细节)。这种分类允许评估成员资格推断攻击在不同信息获取能力下的效能,而默认设置为盲,因为它为攻击提供了最严格的条件,更贴近实际攻击场景。

描述的BLINDMI攻击旨在确定目标数据集中的样本是否属于某个深度学习模型Fm的训练集。攻击者通过将目标数据集Starget输入模型Fm来获取样本的输出概率分布Sprob_target。接着,通过应用一个投影函数Gprojection,k,将这些多维的概率分布转换为更低维的空间k维,以便于分析和推断,形成新的数据集Sprob_k_target。

此外,攻击者创建了一个非成员数据集Snonmem,该数据集包含了大量或全部非成员样本,用于与目标数据集Starget进行比较。通过比较Sprob_k_target与Sprob_k_nonmem之间的距离,BLINDMI可以推断出目标数据集中样本的成员身份。如果将一个样本从Sprob_k_target移动到Sprob_k_nonmem导致两集合间距离增加,则该样本很可能是非成员;如果距离减少,则很可能是成员。这个过程是迭代进行的,直到没有更多的样本可以移动,即达到收敛状态。最终,剩下的样本被认为是成员。这个过程展示了BLINDMI如何通过差异比较来实现成员资格推断攻击。

Differential Comparison Intuition

本文提出的差异比较是一种用于成员推理攻击的方法,它通过在输出概率分布的空间中移动样本来推断其成员身份。该方法涉及两个数据集:S_prob_k_target和S_prob_k_nonmem,分别代表目标模型的成员和非成员样本集。差异比较的核心步骤是将样本从目标数据集移动到非成员数据集,并观察这种移动对两数据集间距离的影响。如果移动样本导致距离增加,该样本很可能是非成员;如果距离减少,则很可能是成员。这个过程是迭代进行的,直到达到收敛状态,即连续迭代中距离不再变化。上图介绍了这种情况。

此外,差异比较方法特别注重移动而非移除样本,这样做可以最大化距离的变化,提高算法的灵敏度。值得注意的是,即使经过多次迭代,也可能有一些非成员样本遗留在目标数据集中,这是因为成员和非成员之间存在固有的不确定性。BLINDMI攻击有不同变体,包括BLINDMI-DIFF(差异比较版本)、BLINDMI-DIFF-w/(带有生成的非成员集的BLINDMI-DIFF,默认设置)和BLINDMI-DIFF-w/o(不带生成的非成员集的BLINDMI-DIFF),以及BLINDMI-1CLASS(使用生成的非成员作为训练集的单类SVM版本)。

Design

Overall attack procedure

BLINDMI攻击的总体流程包括接收目标样本、生成非成员数据集、查询DNN模型获得输出概率、应用投影函数选择特征,以及根据不同的BLINDMI变体进行分类。BLINDMI-DIFF通过差异比较进行分类,而BLINDMI-1CLASS则是基于单类SVM模型进行分类。存在两种模式:批处理模式适用于同时处理多个样本,增量模式适用于逐个处理样本。无论哪种模式,BLINDMI都能为每个样本提供成员身份的推断结果。此外,文中还提到了生成非成员数据集的不同方法,包括样本转换、随机持续、随机生成和跨域样本,以及BLINDMI的不同变体,旨在评估和区分差异比较和非成员集生成的效果。

Dataset Preparation for Differential Comparison

这一部分描述了如何为目标机器学习模型生成非成员样本,这些样本在模型的训练集中不存在。

详细讨论了四种具体的非成员样本生成方法:样本转换、随机延续、随机生成和跨域样本,每种方法都有其优缺点。

四种方法:

  • 样本转换(Sample Transformation):这种方法涉及将图像处理操作符应用于现有样本,以生成具有不同特征的新样本。例如,使用索贝尔算子可以强调图像的边缘,从而产生一个新的图像,它在视觉上与原始图像不同,但可能保留了一些原始图像的语义信息。这种方法的优点在于它通常能够保留原始样本的一些语义内容,使得生成的样本在视觉上仍然具有一定的可识别性。同时,由于这些操作符在图像处理中非常常见,因此生成的样本具有较高的隐蔽性。
  • 随机延续(Random Perpetuation):在这种方法中,通过向现有样本添加不同类型的随机噪声来生成新样本。例如,高斯噪声可以被添加到图像中,从而改变像素值并创建一个全新的样本。尽管这种方法在一定程度上保留了原始样本的语义信息,但由于添加的噪声可能会在频域中被检测到,因此隐蔽性较低。
  • 随机生成(Random Generation):这种方法涉及完全随机地生成样本,这些样本具有随机的特征和属性。例如,可以生成一个随机像素值的图像,它不基于任何现有的数据或模式。这种方法生成的样本可能没有任何实际的语义内容,因此它们在视觉上可能看起来像是随机噪声。这使得它们容易被识别为非成员样本,因此隐蔽性较差。
  • 跨域样本(Cross-domain Samples):这种方法涉及从与目标模型训练数据不同的领域中获取样本。例如,如果模型是用CIFAR-100数据集训练的,那么可以从名人面部数据集中选取样本作为非成员样本。由于这些样本来自不同的领域,它们在视觉上与训练集中的样本明显不同,因此可以有效地作为非成员样本。然而,由于它们的来源明显不同,这种方法的隐蔽性也较低。

同时强调了这些生成的非成员样本可以用于特定的机器学习任务,如BLINDMI-1CLASS和BLINDMI-DIFF,尤其是在训练和比较过程中。

接下来是B部分,主要讲了在对手没有自由探测目标模型的能力,只能获得有限数据集的输出概率分布时,如何进行粗略样本分离的两种方法。

  • 使用聚类算法,如k-means或层次聚类,对目标数据集进行粗略的分割,将其分为两个部分,一部分作为成员,另一部分作为非成员。
  • 基于最高概率分数进行分离。根据目标模型对样本的输出概率进行排序,选择具有最高概率分数的样本作为成员,而将具有较低概率分数的样本视为非成员。

Probability Score Projection

这段文字介绍了一种概率分数投影函数 ,它用于将目标模型的输出概率分布转换为 𝑘个不同的元素,以支持成员推断攻击(MI attack)。

在成员推断攻击中,类别的具体类型(例如,区分鸟和树)不是关键特征,而类别间值的排名则决定了成员身份。

介绍了三种不同的投影函数:

所有概率分数排序:这种投影函数将所有概率分数从大到小进行排序,从而移除类别信息,仅保留相对值。通过排序,可以突出显示概率最高的类别,但同时会忽略类别的具体信息。

前𝑘个最高概率分数:选择概率最高的𝑘个分数,以进一步移除一些具有较小值的噪声。这种方法可以减少噪声的影响,专注于最有可能的类别。

前𝑘个最高概率分数+真实类别:在黑盒设置中使用的这种投影函数,除了前𝑘个最高概率分数外,还包括真实类别对应的值。这种方法结合了概率排名和真实类别信息,可以提供更全面的视角,有助于更准确地推断成员身份。

总而言之,概率分数投影是一种工具,用于提取和转换模型输出的概率分布,以支持成员推断攻击。

Differential Comparison

文章提出了一种关键技术,即差分比较,用于区分机器学习模型输出中的成员和非成员。通过将概率映射到再生核希尔伯特空间(RKHS),利用最大均值差异(MMD)计算两个集合之间的距离。

介绍了两种差异比较方法:单向和双向,分别定义了样本在两个集合之间移动的方向。

单向差异比较迭代地移动样本,并根据移动前后的距离变化判断样本的成员身份。

双向差异比较在两个数据集之间双向移动样本,并迭代整个过程直到收敛。

最终,BLINDMI-DIFF通过比较平均预测置信度分数来决定哪个集合包含非成员。

关于单向差异比较和双向差异比较的通俗化理解:

单向差异比较:想象一下,我们有两个盒子,一个装着模型学习过的数据(成员),另一个装着模型没见过的数据(非成员)。单向差异比较就是从成员的盒子里拿出一个数据点,放到非成员的盒子里,然后看看这样做会不会让两个盒子之间的差异变大。如果差异变大了,那么这个数据点可能就是非成员。

双向差异比较:这个更复杂一些,我们有两个盒子,并且在两个盒子之间来回移动数据点,看看这样做对两个盒子的差异有什么影响。如果把一个数据点从一个盒子移动到另一个盒子后,两个盒子之间的差异没有变大,那么我们可能需要再考虑一下这个数据点到底属于哪个盒子。

Batch Division and Size Optimization

在这部分,讨论了BLINDMI是如何将目标数据集划分成小批次的,特别是当非成员数据集的大小很小时。确定批次大小的主要思想是BLINDMI需要在差异比较时,移动一个样本时最大化距离的变化。具体来说,BLINDMI从与非成员数据集大小一致的批次开始。这样的算法既保持了BLINDMI对变化的敏感性,同时也维持了非成员数据集的小规模。

DATASETS, PRIOR ATTACKS AND IMPLEMENTATION

这一部分描述数据集、阴影模型,我们自己创造的BLINDMI模型的实验。

Datasets

使用表Ⅴ中显示的八个数据集来评估不同应用场景下的性能。

UCI Adult

用于预测个人年收入是否超过50,000美元的分类任务,包含年龄、性别、教育等人口普查属性

EyePACS

用于糖尿病视网膜病变检测,包含不同成像条件下的高分辨率视网膜图像及其严重程度标签

CH-MNIST

一个包含5,000张人类结直肠癌组织学图像的数据集,用于组织类型的分类

Location

基于Foursquare社交网络用户签到数据,用于预测用户的地理社交类型

Purchase-50

来自购物者购买历史的商业数据集,用于分析不同的购买习惯

Texas hospital stays

包含德克萨斯州多家医疗机构的住院记录,用于医疗数据分析和分类任务

CIFAR-100

一个包含60,000张图像的图像识别基准数据集,图像均匀分布在100个类别中

Caltech-UCSD Birds 200

包含北美鸟类物种照片的图像数据集,用于鸟类种类的分类和识别

Target and shadow models

文章介绍了评估过程中使用的两种模型:目标模型和影子模型的架构和超参数设置。

目标模型和影子模型采用了七种不同的深度神经网络(DNN)架构,这些架构都是流行的,并且大多数使用了ImageNet上的预训练参数。

影子模型在黑盒和盲目设置中随机选择架构和超参数,而在灰盒和灰盒盲目设置中则与目标模型使用相同的架构和超参数。

多层感知器(MLP)模型具有最多七层的密集层和一个Softmax层,用于分类任务。

目标模型的选择和训练是基于数据集和指定的超参数进行的,而影子模型的训练则是基于目标模型和数据集来决定的。

state of the art attacks

这一部分讨论了不同设置下的成员推断攻击(Membership Inference, MI)技术,分为两类:有无真实标签的攻击。

没有真实标签的攻击包括基于神经网络(NN)、基于前三个特征的神经网络(Top3-NN)和基于顶部一个特征阈值(Top1-Thre)的攻击,这些攻击在有无真实标签信息的情况下表现相同。

其中:

神经网络攻击(NN):这种攻击方式是利用一个模仿的模型(影子模型)的输出结果来训练另一个神经网络,以此来猜测哪些数据是模型训练时使用过的。

基于前三个特征的神经网络(Top3-NN):这种攻击只关注影子模型输出中最重要的三个特征,用它们来训练神经网络进行猜测。

基于顶部一个特征的阈值(Top1-Thre):这种攻击方式是看影子模型输出中最重要的那个特征是否超过了某个标准值,如果超过了,就认为这个数据是模型训练时使用过的。

需要真实标签的攻击包括基于损失函数的阈值(Loss-Thre)、预测与真实类别差异(Label-Only)和基于前两个特征加上真实标签特征的神经网络(Top2+True)的攻击,这些攻击只在真实标签可用的黑盒和灰盒设置下工作。

基于损失函数的阈值(Loss-Thre):这种攻击方式需要知道真实的情况(标签),通过比较模型预测错误程度(损失)的大小,如果损失小于训练数据的平均损失,就认为这个数据是模型训练时使用过的。

预测类别与真实类别之间的差异(Label-Only):这种攻击方式简单直接,只需要比较模型预测的结果和真实结果是否一致,如果一致,就认为这个数据是模型训练时使用过的。

基于前两个特征加上真实标签特征的神经网络(Top2+True):这种攻击方式在考虑模型输出的两个最重要特征的同时,还会考虑真实标签信息,用来更准确地猜测哪些数据是模型训练时使用过的。

这些攻击方法被用来与BLINDMI进行比较,以展示BLINDMI在不同攻击场景下的效果和性能。

Implementation

这一部分介绍了BLINDMI系统的实现细节,它是基于TensorFlow 2.1.0开发的,总共811行代码。

除了BLINDMI,作者还复现了344行代码的先前攻击,用于与BLINDMI进行比较和评估。

作者强调了BLINDMI和这些先前攻击的代码都是开源的,并且可以通过提供的GitHub链接访问。

Evaluation

Evaluation Metrics, Experimental Setting and Research Questions

文章主要使用F1分数作为评估指标,它综合考虑了精确度和召回率,以衡量成员推断攻击(MI)的性能。

实验中,BLINDMI采用的是批量模式,并且在不同的设置中选择不同数量的特征值进行评估。

文章提出了六个研究问题(RQs),全面评估BLINDMI在不同设置、不同防御措施、不同数据集质量和大小、不同的初始分类器和核函数,以及在不同收敛时间和迭代次数下的性能表现。

这些研究问题覆盖了BLINDMI在不同现实世界条件下的性能,包括非成员与成员的比例和目标模型的类别数量等,以评估其在实际应用中的有效性和鲁棒性。接下来是对这六个问题的分别描述。

RQ1: Attack Performance With Different Settings

这一部分对BLINDMI及其不同变体在不同设置下的性能进行了评估,并与现有攻击进行了比较。

实验设置包括不同的非成员数据集大小,并且每次攻击都使用不同的目标和影子模型重复执行多次,以获得F1分数的平均值和标准误差。下面是五个RQ1的概述

RQ1-1:BLINDMI在所有设置下都显著优于现有攻击,尤其是在F1分数方面,有时性能提升超过20%。

RQ1-2:真实标签的引入对BLINDMI的性能提升有限,但对一些先前攻击的性能提升有显著影响。

RQ1-3:影子模型的质量对现有攻击的性能有很大影响,而BLINDMI不需要影子模型。

RQ1-4:在F1分数方面,BLINDMI-DIFF-w/表现最佳,但需要额外探测;如果访问受限,BLINDMI-DIFF-w/o是一个好的替代品。

RQ1-5:BLINDMI-1CLASS在某些情况下可能优于BLINDMI-DIFF,特别是当训练数据中许多样本位于决策边界附近时。

实验结果显示BLINDMI在各种设置下的性能都很出色,并且对不同数据集和攻击设置具有鲁棒性。

RQ2:defense

这一部分评估了BLINDMI在不同防御策略下的抗MI攻击性能,包括MemGuard、DP-Adam、MMD+Mixup和对抗性正则化。

RQ2-1:使用真实标签的攻击在攻击MemGuard时通常比不使用真实标签的攻击具有更高的F1分数。MemGuard虽然改变了输出概率,但未改变预测类别,因此利用真实标签信息的攻击方法表现更佳。

RQ2-2:即使输出概率经过对抗性改变,BLINDMI仍然在所有现有攻击中表现最佳。BLINDMI能够有效区分成员和非成员,即使在MemGuard改变输出概率的情况下。

RQ2-3:依赖于二元比较的攻击在对抗DP-Adam时往往有较低的F1分数。差分隐私技术使得成员和非成员之间的边界变得模糊,导致基于单一阈值的攻击方法性能下降。

RQ2-4:BLINDMI在隐私实用性预算小或大时,性能都高于Label-only攻击,而Label-only攻击在中等大小预算下性能下降较慢。Label-only攻击依赖于模型在训练和测试数据集上的性能差距,这种差距在中等隐私预算下存在但在大预算下迅速缩小。

RQ2-5:在选择更多概率分数时,攻击MMD+Mix-up的F1分数通常比选择较少分数的攻击高。:MMD+Mix-up改变了模型在训练数据上的表现,导致依赖于特定概率分数的攻击(如Label-Only和Top1-Threshold)受到较大影响。

RQ2-6:真实标签在击败对抗性正则化中起着重要作用,且结果依赖于攻击中如何使用这些标签。采用真实标签的攻击(Label-Only、Top2+True和BLINDMI)在对抗性正则化下表现最佳,尤其是当这些标签被有效利用时。

RQ2-7:除了BLINDMI之外,简单的MI攻击往往有更好的表现。尽管对抗性正则化通过正则化加固了模型,但输出概率尤其是预测类别的概率分数仍包含丰富信息,使得简单攻击方法表现良好。

总体而言,BLINDMI在所有评估的防御设置中均展现出优越的抗攻击性能。

RQ3:Nonmember Set Quality and Size

RQ3-1: 非成员数据集大小对BLINDMI-DIFF性能影响较小,而对BLINDMI-1CLASS性能影响较大,后者随着非成员数据集的增大,F1分数有显著提升。

RQ3-2: 不同的非成员生成方法对BLINDMI性能有显著影响。样本转换生成的非成员在两种BLINDMI变体中表现最佳,而随机生成的非成员表现最差,这通过统计测试得到了证实。

样本转换方法由于保持了与现实世界非成员的接近性,因此在提取成员资格语义时更有效。而随机生成的样本由于其均匀分布的特性,与成员和非成员的边界较远,因此在攻击中效果不佳。

这些发现表明,非成员数据集的质量和大小对BLINDMI攻击的有效性有重要影响,选择合适的生成方法对于提高攻击性能至关重要。

RQ4: BLINDMI-DIFF with different classifiers and kernel functions

在本部分中,研究者们深入探讨了BLINDMI-DIFF算法在不同参数配置下的性能表现,并对非成员数据集的生成方法和大小如何影响BLINDMI-DIFF和BLINDMI-1CLASS的有效性进行了评估。

RQ4-1: 在不同的核函数中,高斯核在大多数情况下表现最佳。这可能是因为高斯核在处理数据时具有较好的灵活性。

RQ4-2: 对于BLINDMI-DIFF-w/o,阈值分类器作为初始样本分离分类器在迭代后表现最佳。尽管初始F1分数较低,但高质量的非成员数据集有助于最终性能的提升。

RQ5: Number of Moves, Iterations, and Execution Time of BLINDMI-DIFF

文章评估了BLINDMI-DIFF算法在完成目标数据集推断时的时间效率和迭代效率,包括移动次数和迭代次数。

RQ5-1: 执行时间以及移动和迭代次数依赖于目标数据集的大小。目标数据集越大,BLINDMI-DIFF完成推断所需的时间越长,移动和迭代次数也越多。这是因为数据集的规模增加导致每次迭代的移动次数增多,进而增加了BLINDMI-DIFF所需的时间和迭代次数。

RQ5-2: BLINDMI-DIFF-w/o(双向差异比较)比BLINDMI-DIFF-w/(单向差异比较)需要更长的时间和更多的移动次数。这是因为BLINDMI-DIFF-w/o采用双向差异比较,其移动是双向的,导致所需的移动次数更多。

RQ5-3: 总迭代次数取决于批量大小。较小的批量大小意味着需要更多的批次来处理整个数据集,从而导致总迭代次数增多。例如,批量大小为20的BLINDMI-DIFF-w/比批量大小为1,000的BLINDMI-DIFF-w/o需要更多的迭代次数。

RQ5-4: 两个集合之间的距离随着每次批量移动次数的增加而增加。有效的移动是指那些能够增加两个集合之间距离的移动;如果移动没有增加距离,则样本应保留在原始集合中。

这些观察结果为理解和优化BLINDMI-DIFF算法提供了重要见解,特别是在调整算法参数以适应不同大小的数据集时。

RQ6: BLINDMI with Different Configurations

文章评估了BLINDMI在不同配置下的性能,特别是非成员与成员比例以及目标模型中类别数量对性能的影响。

RQ6-1: 检验当目标数据集中非成员与成员的比例变化时,BLINDMI和其他现有成员推断攻击的性能如何变化。这有助于理解在现实世界条件下,当成员数据较少而非成员数据较多时,各种攻击方法的有效性。

RQ6-2: 评估当目标模型需要处理的类别数量变化时,BLINDMI和其他攻击的F1分数如何受影响。这可以揭示模型复杂性(由类别数量表示)对成员推断攻击成功率的潜在影响。

这些研究问题的作用是帮助研究者和实践者理解BLINDMI算法在不同实际应用场景下的表现,以及如何根据不同的数据集特性调整攻击策略。通过这些评估,可以更好地了解BLINDMI的鲁棒性、实用性以及在面对不同数据分布和模型复杂性时的表现。

A DISCUSSION ON POTENTIAL DEFENSES

文章探讨了针对成员推断攻击(包括BLINDMI)的潜在防御策略,分为两大类:限制对手对目标模型的访问和提高目标模型的鲁棒性。

限制访问的方法包括限制探测数量和样本选择,以及仅向对手提供预测类别信息,这可以降低BLINDMI攻击的效果,甚至将其简化为更简单的Label-only攻击。

提高模型鲁棒性的方法涉及采用差分隐私等技术,这可能是目前最有效的防御BLINDMI的方法。

文章提出,未来可能需要研究结合现有攻击方法的新型防御策略,以进一步增强模型的安全性。

Related Work

Existing Membership Inference (MI) Attacks

成员推断攻击(MI)的历史可以追溯到2008年,由Homer等人首次提出,随后在2017年Shokri等人提出了针对深度学习模型的现代MI攻击。

先前的MI攻击方法包括Salem等人提出的Top3-NN、Top1-Threshold攻击,以及Yeom等人提出的labelonly和loss-threshold攻击,这些都需要或不需要真实标签信息。

BLINDMI是一种新型的MI攻击,它不需要影子模型,通过探测直接从目标模型提取成员资格信息,并在多种对抗性设置下表现优于现有攻击。

研究人员还探索了MI攻击的理论基础,如Sablayrolles等人提出的最优攻击策略,强调了损失函数在攻击中的重要性,并指出黑盒攻击可以与白盒攻击相媲美,这与BLINDMI的设计理念相符。

除了分类模型,MI攻击也被扩展到生成模型和联邦学习场景,但BLINDMI主要关注单一的分类模型。

Existing Defense

文章讨论了现有的成员推断(MI)攻击的防御策略,特别是那些针对分类模型的策略,并指出这些防御策略虽然有效,但BLINDMI仍能以较高准确度进行成员推断。

正则化:通过正则化技术如dropout、模型堆叠、L2范数正则化和最小最大游戏机制来提高模型鲁棒性,减少模型对成员信息的泄露。

对抗性示例:借鉴对抗性学习,通过添加特定噪声生成对抗性示例,如MemGuard,以误导MI攻击中的二元分类器。

隐私增强:采用差分隐私技术在模型学习过程中添加噪声,保护数据隐私,如Shokri等人提出的协作学习中的差分隐私方法,以及Cao等人提出的通过“忘却”某些数据样本来增强隐私的方法。

Conclusion

文章介绍了一种创新的成员推断攻击方法BLINDMI,它通过在两个数据集之间移动样本并进行差异比较来做出成员资格的推断。

BLINDMI的核心思想是样本的移动会影响两个数据集在特征空间中的距离,从而可以用来推断样本是否属于模型的训练集。

作者实现了BLINDMI的三个变种:BLINDMI-1CLASS、BLINDMI-DIFF-w/和BLINDMI-DIFF-w/o,每个变种都基于不同的方法来处理样本和推断成员资格。

评估结果显示,BLINDMI在多个方面都优于现有的成员推断攻击,包括对抗多种DNN架构以及对抗已经部署了先进防御措施的DNN。

BLINDMI的工作流程(这个是自己的理解,可能有实际有偏差)

相比于之前的MI攻击,它取消了阴影模型的要求。

收集反馈:BLINDMI首先向目标模型发送一些特别挑选的数据(就像问问题一样),然后收集模型对这些数据的“回答”(比如,模型认为这些数据属于哪个类别)。

寻找线索:通过观察模型对这些数据的“回答”,BLINDMI寻找规律和线索,比如模型对某些数据的判断特别自信,或者对另一些数据犹豫不决。

学习模式:BLINDMI尝试从这些“回答”中学习到能帮助区分哪些数据是模型学习过的(成员),哪些是没有学习过的(非成员)的模式。

建立规则:根据找到的规律和线索,BLINDMI建立一套规则,用这些规则来判断新数据是否属于模型学习过的数据。

不断测试:BLINDMI不断用新数据测试这套规则,看看是否能够准确判断出数据是否为模型的成员。

调整和改进:如果有时候判断不准,BLINDMI会根据结果调整策略,比如改变提问的方式或者重新分析模型的“回答”,以提高判断的准确性。

最终目标:最终,BLINDMI的目标是能够准确地判断出,当它给出一些数据时,这些数据是否属于模型曾经学习过的那些。

  • 55
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值