隐私模型
k-anonymity
要求同一个准标识符至少要有k条记录。因此观察者无法通过准标识符连接记录。
例:
table1:
table2:
table2满足 3 − a n o n y m i t y 3-anonymity 3−anonymity,准标识符 Q I = { Z I P C o d e , A g e } QI= \{ZIPCode, Age\} QI={ZIPCode,Age}。Disease是敏感数据.
k-anonymity能保证以下三点:
- 攻击者无法知道某个人是否在公开的数据中
- 给定一个人,攻击者无法确认他是否有某项敏感属性
- 攻击者无法确认某条数据对应的是哪个人(这条假设攻击者除了准标识符信息之外对其他数据一无所知,举个例子,如果所有用户的偏好都是购买电子产品,那么 k-anonymity 也无法保证隐私没有泄露)
k-匿名算法存在着一些攻击方式:
- 同质化攻击:某个k-匿名组内对应的敏感属性的值也完全相同,这使得攻击者可以轻易获取想要的信息。
- 背景知识攻击:即使k-匿名组内的敏感属性值并不相同,攻击者也有可能依据其已有的背景知识以高概率获取到其隐私信息。
- 未排序匹配攻击:当公开的数据记录和原始记录的顺序一样的时候,攻击者可以猜出匿名化的记录是属于谁。例如如果攻击者知道在数据中小明是排在小白前面,那么他就可以确认,小明的购买偏好是电子产品,小白是家用电器。解决方法也很简单,在公开数据之前先打乱原始数据的顺序就可以避免这类的攻击。
- 补充数据攻击:假如公开的数据有多种类型,如果它们的k-anonymity方法不同,那么攻击者可以通过关联多种数据推测用户信息。
l-diversity
如果一个等价类里的敏感属性至少有1个良表示 (well-represented) 的取值,则称该等价类具有 l − d i v e r s i t y l-diversity l−diversity。如果一个数据表里的所有等价类都具有 l − d i v e r s i t y l-diversity l−diversity,则称该表具有 l − d i v e r s i t y l-diversity l−diversity。
良表示:
-
可区分良表示:最简单的 l − d i v e r s i t y l-diversity l−diversity 要求同一等价类中的敏感属性要有至少有 l l l 个可区分的取值。但是,如果某一个取值的频率明显高于其他取值,这将使得观察者可以以较高的置信度认为这一等价类中的敏感属性都取这个值。这导致了下面两种良表示定义。
-
熵良表示:记S为敏感属性的取值集合, p ( E , s ) p(E,s) p(E,s) 为等价类 E E E中敏感属性取值 s s s的概率,熵 l − d i v e r s i t y l-diversity l−diversity 要求下式成立:
Entropy ( E ) = − ∑ s ∈ S p ( E , s ) log 2 p ( E , s ) ≥ log 2 l \operatorname{Entropy}(E)=-\sum_{s \in S} p(E, s) \log_2 p(E, s) \geq \log_2 l Entropy(E)=−s∈S∑p(E,s)log2p(E,s)≥log2l
若每一等价类都满足熵 l − d i v e r s i t y l-diversity l−diversity,那么整张数据表的熵也必然不小于 log 2 l \log_2 l log2l。这个要求太严格了,比如敏感属性的取值集合中某些取值的频率较高,这将导致整张表的熵比较低。 -
递归良表示:确保最频繁的值不会出现得太频繁,而频率较低的值不会出现得太少。设 m m m 是等价类 E E E 中的值的数目,和 r i r_i ri: 1 ≤ i ≤ m 1 \leq i \leq m 1≤i≤m 是第 i i i 繁的敏感值在等价类 E E E 中出现的次数。若等价类E满足 ( c , ℓ ) − d i v e r s i t y (c, \ell)-diversity (c,ℓ)−diversity 则 r 1 < c ( r l + r l + 1 + … + r m ) r_{1}<c\left(r_{l}+r_{l+1}+\ldots+r_{m}\right) r1<c(rl+rl+1+…+rm)
例:
t-closeness
t − c l o s e n e s s t-closeness t−closeness 认为,在数据表公开前,观察者有对于客户敏感属性的先验信念 (prior belief),数据表公开后观察者获得了后验信念 (posterior belief)。这二者之间的差别就是观察者获得的信息 (information gain) t − c l o s e n e s s t-closeness t−closeness将信息获得又分为两部分:关于整体的和关于特定个体的。
记观察者的先验信念为 B 0 B_0 B0,我们先发布一个抹去准标识符信息的数据表,这个表中敏感属性的分布记为 Q Q Q,根据 Q Q Q,观察者得到了 B 1 B_1 B1;然后发布含有淮标识符信息的数据表,那么观察者可以由准标识符识别特定个体所在等价类,并可以得到该等价类中敏感属性的分布 P P P,根据 P P P,观察者得到了 B 2 B_2 B2。
l − d i v e r s i t y l-diversity l−diversity 其实就是限制 B 2 B_2 B2 与 B 0 B_0 B0 之间的区别。然而,我们发布数据是因为数据有价值,这个价值就是数据整体的分布规律,可以用 B 0 B_0 B0 与 B 1 B_1 B1 之间的差别表示。二者差别越大,表明数据的价值越大,这一部分不应被限制。也即整体的分布 Q Q Q 应该被公开。因为这正是数据的价值所在。而 B B B 与 B B B 之间的差别,就是我们需要保护的隐私信息,应该被尽可能限制。
t − c l o s e n e s s t-closeness t−closeness 通过限制 P P P 与 Q Q Q 的距离来限制 B 1 B_1 B1 与 B 2 B_2 B2 的区别。其认为如果 P = Q P=Q P=Q,那么应有 B 1 = B 2 B_1= B_2 B1=B2。 P P P、 Q Q Q越近, B 1 B_1 B1、 B 2 B_2 B2也应越近。
The t-closeness Principle:如果等价类 E E E 中的敏感属性取值分布与整张表中该敏感属性的分布的距离不超过阈值t,则称 E E E 满足 t − c l o s e n e s s t-closeness t−closeness。如果数据表中所有等价类都满足 t − c l o s e n e s s t-closeness t−closeness,则称该表满足 t − c l o s e n e s s t-closeness t−closeness。
例: