Programming Differential Privacy第四章

Charliefive

已于 2022-10-27 15:16:20 修改

阅读量260

点赞数 1

分类专栏：差分隐私文章标签： python 机器学习人工智能

于 2022-10-10 15:52:33 首次发布

本文链接：https://blog.csdn.net/weixin_43886282/article/details/127243825

版权

差分隐私专栏收录该内容

14 篇文章 12 订阅

订阅专栏

差分隐私的属性

1.定义差分隐私
2.解释差分隐私参数𝜖 的重要性
3.使用拉普拉斯算法强制实施不同的隐私查询
差分隐私是一个算法的属性，并非一个数据集的属性。
我们可以证明一个算法满足差异隐私；为了证明数据集满足不同的隐私，我们必须证明生成它的算法满足差异隐私。
定义满足不同隐私的功能通常称为mechanism
我们说一种机制𝐹 满足所有相邻数据集的差异隐私𝑥 和𝑥′ , 和所有可能的输出𝑆 在以下条件 aaa 。
如果两个数据集在单个个体之间存在差异，则它们被视为邻居。请注意𝐹 通常是随机的函数，以便描述其输出的概率分布不仅仅是点分布。
Imagine that my data is present in 𝑥 but not in 𝑥′ . If an adversary can’t determine which of 𝑥 or 𝑥′ was the input to 𝐹 , then the adversary can’t tell whether or not my data was present in the input - let alone the contents of that data.
此时我们不知道是x还是x`是输入，就达到预防的效果。
𝜖 参数被称作隐私参数或者隐私预算，𝜖 提供一个旋钮来调节定义提供的“隐私量”。
给定相似输入时，小值𝜖 要求𝐹提供非常相似的输出，从而提供更高级别的隐私；大值𝜖 在输出中允许较少的相似性，因此提供较少的隐私。
我们应该如何设置𝜖 在实践中防止不良结果？没有人知道。普遍共识是𝜖 应约为1或更小，且值为𝜖 超过10可能对保护隐私没有多大作用，但这条经验法则可能非常保守。

4.1The Laplace Mechanism

差异隐私通常用于回答特定的查询。让我们考虑一下对人口普查数据的查询，而不考虑差分隐私。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('seaborn-whitegrid')
adult = pd.read_csv("adult_with_pii.csv")

adult[adult['Age'] >= 40].shape[0]
14237

实现此查询的差异隐私的最简单方法是在其答案中添加随机噪声。关键的挑战是添加足够的噪音来满足不同隐私的定义，但不要太多，否则答案会变得太吵而不实用。为了简化这一过程，在差异隐私领域已经开发了一些基本机制，这些机制准确描述了要使用的噪声种类和数量。其中一个被称为拉普拉斯机制。
根据拉普拉斯机制定义，对于函数𝑓(𝑥) 它返回一个数字，定义如下𝐹(𝑥) 满足𝜖 -差异隐私：𝐹(𝑥)=𝑓(𝑥)+𝖫𝖺𝗉(𝑠/𝜖)
𝑠 是𝑓的灵敏度 , 和𝖫𝖺𝗉(𝑆) 表示拉普拉斯分布的采样，中心为0，刻度为𝑆 .

当ϵ越小时，数据效用越低，隐私保护程度越高；当ϵ 越大时，数据效用越高，隐私保护程度越低。

函数的灵敏度𝑓 是金额𝑓 '当输入变化1时，输出也会发生变化。现在，我们只需指出计数查询的灵敏度始终为1：如果一个查询计算数据集中具有特定属性的行数，然后我们只修改数据集中的一行，那么查询的输出最多可以更改1。因此，我们可以通过使用灵敏度为1的拉普拉斯机制和𝜖 我们的选择。现在，让我们选择𝜖=0.1.我们可以使用Numpy的random.Laplace从Laplace分布中取样。

sensitivity = 1
epsilon = 0.1
adult[adult['Age'] >= 40].shape[0] + np.random.laplace(loc=0, scale=sensitivity/epsilon)
14236.704369996492

adult[adult['Age'] >= 40].shape[0] + np.random.laplace(loc=0, scale=sensitivity/epsilon)
14243.42338442985

每次输出都会发生变化，但大多数情况下，答案都非常接近真实答案（14235），因此非常有用。

4.2多少噪音才够

我们如何知道拉普拉斯机制添加了足够的噪声来阻止数据集中个体的重新识别？首先，我们可以尝试打破它！让我们写下一个恶意计数查询，它专门用于确定Karrie Trusslove的收入是否超过5万美元。

karries_row = adult[adult['Name'] == 'Karrie Trusslove']
karries_row[karries_row['Target'] == '<=50K'].shape[0]
1

这个结果肯定侵犯了Karrie的隐私，因为它揭示了Karree的行的收入列的价值。由于我们知道如何确保使用拉普拉斯机制计算查询时的差异隐私，因此我们可以对该查询执行以下操作：

sensitivity = 1
epsilon = 0.1

karries_row = adult[adult['Name'] == 'Karrie Trusslove']
karries_row[karries_row['Target'] == '<=50K'].shape[0] + np.random.laplace(loc=0, scale=sensitivity/epsilon)

7.400192316344078