差分隐私:基础原理和应用举例
个人笔记:图片内容和知识 直接来源 HERE
是一个很简单易懂的视频,适用于理解简单理论
06年提出的关于隐私保护的理论框架,用于数据收集和信息分享
引例:一所Hospital有许多病人数据,外部人员要收集,这时如何保护
方法:匿名化(去掉姓名):这似乎很合理,但是并不能完全保护,因为还残留病人出生日期,性别等等等。。假设攻击者拥有的知识非常丰富,它能够将这些数据一一对应起来并且找到对应的名字,这相当于没有保护 实例:90年代中期,马萨诸塞州政府部门就受到这样的攻击,一个MIT研究生利用这个找到州长的信息。因为大部分人拥有唯一个出生日期、性别、邮编 的组合
这不能用来保护隐私
**另外的方法:如果只发布粗粒度的统计数据?**其实也不能够达到保护。
这些足够暴露出下面的内容,例子非常简单,但也足够说明,粗粒度的数据能够重构源数据集
那这样呢,把较小的数据删除以及加入一定的噪声。在大量的数据中加入少量的噪声并不会对数据造成太大影响
但是这样依然不能足够达到保护效果,因为攻击者也很厉害,能够利用更强的重构算法(03年提出,基本思想:线性规划——略)最小化epsilon
这远远超过设想中的效果(17%意味着 很有效的攻击)
他们决定:在2020年使用差分隐私
有人提出,将统计数据以更复杂的数据形式发布,比如说把数据训练成一个机器学习模型,将模型发布,其实这也会泄露。
因为:学习过程中会不经意间记住数据元组,在这些元组上的表现和其他元组上的表现的不同能够提供给攻击者信息。
使用严谨的框架进行数据保护(差分隐私)
直观原理:有一个数据集D,有Alice这个人,把Alice换成其他人(本不在这个dataset)得到dataset D‘,在两个dataset提取信息,给Adversary。让Adversary看信息从哪里来?而攻击者无法判别信息O是从哪个dataset来的,他就不知道Alice是否在里边,更不知道Alice在哪边,因此保护了Alice。
定义:
e − ϵ ≤ P r [ A ( D ) = O ] P r [ A ( D ′ ) = O ] ≤ e ϵ D 用 A 的 算 法 输 入 得 到 O ( 任 意 一 个 可 能 的 输 出 ) 的 概 率 比 上 D ′ 的 输 入 的 . . . 概 率 的 比 值 D 和 D ′ 是 两 个 相 邻 的 数 据 集 A 是 一 种 随 机 算 法 满 足 : 对 D 中 任 意 一 个 数 据 进 行 修 改 , 使 得 对 输 出 O 的 概 率 变 化 是 小 的 e^{-\epsilon}\leq \frac{Pr[A(D)=O]}{Pr[A(D')=O]}\leq e^{\epsilon} \\D用A的算法输入得到O(任意一个可能的输出)的概率比上D'的输入的...概率的比值\\D和D'是两个相邻的数据集\\A是一种随机算法\\满足:对D中任意一个数据进行修改,使得对输出O的概率变化是小的 e−ϵ≤Pr[A(D′)=O]Pr[A(D)=O]≤eϵD用A的算法输入得到O(任意一个可能的输出)的概率比上D′的输入的...概率的比值D和D′是两个相邻的数据集A是一种随机算法满足:对D中任意一个数据进行修改,使得对输出O的概率变化是小的
图示:
👉输出不会特别依赖于个别数据
平均年龄就是一种满足
一般做法:
例如:
数值型变量:
拉普拉斯机制的差分隐私算法:
Dataset(Table_Name) : D
Database 查询: SELECT COUNT(*) FROM D WHERE Type=‘xxxx’
步骤①:如果我们修改D中任意一个数据,这里的查询结果变化最多是 1(查询结果最大的改变量) ,因为把一个数据的xxxx改成非xxxx,这就是敏感度
步骤②:而如果用噪声掩盖为1的改变,这里对每一个结果加入独立的服从拉普拉斯分布的噪声:
p
d
f
(
x
)
=
1
2
λ
e
(
−
∣
x
∣
λ
)
λ
是
参
数
,
决
定
了
噪
声
的
方
差
,
与
噪
声
方
差
成
正
相
关
,
而
将
λ
设
为
1
ϵ
就
满
足
ϵ
−
差
分
隐
私
这
里
1
ϵ
的
1
就
是
查
询
结
果
最
大
的
改
变
量
中
值
为
0
,
左
右
两
边
呈
指
数
下
降
pdf(x)=\frac{1}{2\lambda}e^{(-\frac{\lvert x\rvert}{\lambda})}\\ \lambda 是参数,决定了噪声的方差,与噪声方差成正相关,而将\lambda 设为\frac{1}{\epsilon}就满足\epsilon-差分隐私\\这里\frac{1}{\epsilon}的1就是查询结果最大的改变量 \\中值为0,左右两边呈指数下降
pdf(x)=2λ1e(−λ∣x∣)λ是参数,决定了噪声的方差,与噪声方差成正相关,而将λ设为ϵ1就满足ϵ−差分隐私这里ϵ1的1就是查询结果最大的改变量中值为0,左右两边呈指数下降
分类型变量:
数据采集的简单机制:
这里就满足差分隐私,还是由于这个直观原因
只要根据ε调整随机化的概率就可。
这会严重影响统计吗?
其实还是可以修正的
然后将最右边REMAINING ANSWER这个当作随机采样去得到=差不多有$\frac{1.5}{1.5+0.5}*100%=75% $ 给的是真的yes的答案==
但还不能知道哪个具体回答是真的还是假的。所以每个人的答案(隐私)还是得到了保护!
一般而言,对不同场景会有不同得算法。
应用:
差分隐私数据库
差分隐私机器学习
TensorFlow
使得训练过程实现差分隐私👉结果也就满足
差分隐私数据采集
差分隐私数据合成
前进展望:
…
不足:还未能在隐私保护、计算效率和查询准确度三者之间有较好的平衡
…
具体内容在视频的43分钟后请点击这里