在应用差分隐私进行隐私保护中,需要处理的数据主要分为两大类:
-
数值查询:一般采用 L a p l a c e Laplace Laplace (严格DP)或者高斯机制(松弛DP)对得到数值结果加入随机噪声即可实现差分隐私。
-
非数值查询:一般采用指数机制并引入一个打分函数,对每一种可能的输出都得到一个分数,归一化之后作为查询返回的概率值。
一 拉普拉斯机制
Laplace分布和机制
μ
=
0
\mu = 0
μ=0 : 中间位置,负数向左,正数向右
b
>
0
b > 0
b>0 :
b
b
b值越接近0,尺度越大(高)
方法:利用拉普拉斯将查询得到的单一结果概率化。
原理:原始查询结果+拉普拉斯噪声, 使得到的结果跟正常查询得到的结果相差不大。
其中,
f
(
D
)
f(D)
f(D)表示的是查询函数,
Y
Y
Y表示的是Laplace随机噪声,
M
(
D
)
M(D)
M(D)表示的是最后的返回结果。
敏感度
对于两个相邻数据集(只相差一个元素/汉明距离=1) D , D ′ D ,D' D,D′ ,一个查询函数 f ( ⋅ ) f(·) f(⋅) 最大的变化范围,比如查询数量,敏感度就是1。
加入噪声和敏感度的大小成正比
噪声
Y
Y
Y是独立同分布的变量
其中,
Δ
f
\Delta f
Δf 表示敏感度,
ϵ
\epsilon
ϵ 表示隐私预算。可以看到,隐私预算越小,噪声越大,结果可用性越小,隐私保护越好。隐私预算和可用性成正比。
证明
二 高斯机制
Laplace机制提供的是严格的 ( ϵ , 0 ) (\epsilon,0) (ϵ,0)- D P DP DP ,而高斯机制则提供的是松弛的 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)- D P DP DP机制。
高斯分布和机制
高斯分布:
高斯机制:
其中:
M
(
D
)
=
f
(
D
)
+
Y
M(D)=f(D)+Y
M(D)=f(D)+Y
参数设置:
- 高斯分布的标准差 σ \sigma σ 决定了噪声的尺度;
- ϵ \epsilon ϵ 表示隐私预算,和噪声成负相关;
- δ \delta δ 表示松弛项,比如设置为 1 0 − 5 10^{-5} 10−5 ,就表示只能容忍 1 0 − 5 10^{-5} 10−5 的概率违反严格差分隐私。
敏感度
刚才Laplace定义的是
l
1
l1
l1 ,这里的高斯定义的是
l
2
l2
l2
证明
三 指数机制
机制和理论
理论:
敏感度
证明
四 总结
隐私预算和可用性成正比,和隐私保护成反比,大量的隐私预算必然造成隐私保护能力下降。
差分隐私的机制本质上是通过加噪声实现的,但是通过对同一数据集多次频繁的查询,利用平均也可以大致推断出一些隐私信息,本质上就是对同一数据集进行多次查询花费了大量的隐私预算.
在实际的算法应用中,比如决策树或者神经网络,我们必须要频繁的访问数据,因此为了解决这个问题,在设计差分隐私的时候,我们需要利用组合定理对隐私预算进行合理地控制,当预算被用完之后,数据就不能再被访问。