差分隐私

最新推荐文章于 2024-07-19 14:20:27 发布

xff1994

最新推荐文章于 2024-07-19 14:20:27 发布

阅读量8.9k

点赞数 6

分类专栏：笔记文章标签：差分隐私数据脱敏隐私保护

本文链接：https://blog.csdn.net/xff1994/article/details/86777137

版权

笔记专栏收录该内容

15 篇文章 2 订阅

订阅专栏

上一篇介绍了数据脱敏的三种基本方法，这里介绍另一种方法——差分隐私。差分隐私的优点在于其不需要特殊的攻击假设，不关心攻击者拥有的背景知识，量化分析隐私泄露风险。
核心研究问题：在满足差分隐私的前提下提高发布统计数据的可用性及算法的效率。

ε-差分隐私保护

对数据集D的各种映射函数被定义为查询（Query），用 $F=\{f1, f2, ······\}$ 来表示一组查询，算法M对查询F的结果进行处理，使之满足隐私保护的条件，此过程称为隐私保护机制。

设数据集D与D’，具有相同的属性结构，两者的对称差记作DΔD’，|DΔD’|表示DΔD’中记录的数量。若|DΔD’|=1，则称D和D’为邻近数据集（又称兄弟数据集 ）。

设有随机算法M，PM为M所有可能的输出构成的集合。对于任意两个邻近数据集D和D’以及PM的任何子集SM，若算法M满足： $P r [M (D) \in S M] < = e x p (ε) * P r [M (D ’) \in S M]$ ，则称算法M提供ε-差分隐私保护。

其中参数ε称为隐私保护预算(可以看做是能够接受的隐私泄露量)，一般是一个公开的实数，通常取0.01、0.1、1。ε用于控制算法M在邻近数据集上获得相同输出的概率比值，反映了算法M所的隐私保护水平，ε越小，隐私保护水平越高。在极端情况下，当ε取值为0时，即表示算法M针对D与D’的输出的概率分布完全相同，由于D与D’为邻近数据集，~~根据数学归纳法可以很显然地得出结论~~（显然在哪？？？），即当ε=0时，算法M的输出结果不能反映任何关于数据集的有用的信息。因此，从另一方面，ε的取值同时也反映了数据的可用性。

如图1所示，算法M通过对输出结果的随机化来提供隐私保护，同时通过参数ε来保证在数据集中删除任一记录时，算法输出统一结果的概率不发生显著变化。

在这里插入图片描述
差分隐私模型中，攻击者的计算能力及其所获取的辅助信息不会影响隐私保护程度。随机算法M不依赖特定的数据表，输出被随机噪声扰乱，每一条记录均得到了完全相同程度的保护。攻击者即使知道了除某条记录r外的所有记录，也无法判断r是否在数据表中。

差分隐私的实现机制

Laplace机制

Dwork等人提出的Laplace机制是最早提出的差分隐私方法，也是目前应用最广的机制。拉普拉斯机制用于数值型结果的保护，通过向确切的查询结果中加入服从拉普拉斯分布的随机噪声来实现ε-差分隐私保护。
在这里插入图片描述
1. Laplace分布

期望为0，方差为 $2b^2$ 的Laplace分布，其概率密度函数为：
$p(x)=\frac{exp(-|x|/b)}{2b}$
2. Laplace机制敏感度

给定一个函数集 $F$ , 其敏感度定义如下：
$\max_{T_1,T_2}\left(\sum_{f\in F}|f(T_1)-f(T_2)|\right)$
3. 满足ε-差分隐私保护的Laplace噪声

定理：设有函数集 $F$ ，其敏感度为 $S (F)$ ， $M$ 为向 $F$ 中每个函数的输出添加噪声的随机算法。若添加的噪声为尺度参数（即b）取 $S(F)/\epsilon$ 的Laplace分布，则算法M满足ε-差分隐私。

4. 非交互式查询

若每次查询后添加噪声，则各次查询结果将不同。Dwork等人提出将Laplace机制用于非交互式查询。即通过预先添加噪声获得加噪数据，对于用户查询直接返回加噪结果。这样对于同一个查询，差分隐私算法各次的输出必定相同。

指数机制

1. 可用性函数

设查询函数的输出域为Range，域中的每个值r∈Range为一实体对象。在指数机制下，函数 $q(D,r)\rightarrow R$ 称为输出值r的可用性函数，用来评估输出值r的优劣程度

2. 指数机制敏感度

给定可用性函数 $q$ ，其敏感度定义为：
$S(q)=\max_{T_1,T_2,r} ||q(T_1,r)-q(T_2,r) ||$
其中， $T_1,T_2$ 为任意一对临近数据集，r 表示任意合法的输出

3. 指数机制ε-差分隐私

**定理：**设随机算法 $M$ 输入为数据集 $D$ ，输出为一实体对象 $r\in Range$ ， $q(D,r)\rightarrow R$ 为可用性函数， $S (q)$ 为可用性函数的敏感度。若算法M以正比于 $exp\left(\frac{\epsilon q(D,r)}{2S(q)}\right)$ 的概率从 $R a n g e$ 中选择并输出 $r$ ，那么算法 $M$ 提供ε-差分隐私保护。