Shuffle Differential Privacy(1)
一、背景
当前主流本地化差分隐私技术(LDP):
- 隐私定义:保证了任意一条数据的增、删、改都对用户发布数据的统计分布几乎无影响,可从根本上防御背景知识攻击;
- 适用场景:扰动过程在每个用户端本地进行,只对外发布扰动数据以保护隐私,无需依赖任何可信第三方。
关键缺点:
在本地端添加过多噪声,使数据可用性较差。
Google-RAPPOR:
LDP分析的效用受到严格的限制。由于每个报告者都进行独立的抛硬币操作,因此任何分析结果都会受到二项式分布特性引起的噪声的干扰。这种随机高斯噪声的幅度可能特别大:即使在理论最优的情况下,其标准差也会与报告计数的平方根成比例增长,并且噪声实际上要高出一个数量级。
二、ESA框架
Encode-Shuffle-Analyze Architechture 由Google提出[2]
-
Encode 编码器:对数据进行编码以控制范围、粒度和随机性(运行在客户端,对用户数据进行本地化的编码、分割、扰动等处理)
具体实现:可通过数据泛化、数据分割、加密、添加差分隐私噪声的方式实现,以达到消除或减少数据所蕴含的隐私信息的目的
-
Shuffle 混洗器:编码数据按照随机阈值分批收集,并进行盲洗牌(blindly shuffled),以破坏可链接性并确保单个数据项“lost in the crowd” (运行在一个半诚信的第三方,它可借助现有的按混洗协议在对数据义务所知的情况下完成安全的混洗操作)
具体实现:可根据模型部署的条件借助已有的安全混洗协议,基于可信硬件、同态加密或安全多方计算等方式完成(安全混洗协议的不同实现并不会对该框架下隐私保护方法的隐私性和可用性造成明显影响)
-
Analyze 分析器:匿名、打乱的数据由特定的分析引擎进行分析,进一步防止对分析结果的统计推断攻击 (运行在数据收集者端,对收集的数据进行校正和分析)
ESA的隐私分析: A c > A e ≥ A s A_c>A_e\geq A_s Ac>Ae≥As
借用DP来实现ESA框架可以获得比本地化差分隐私LDP小 O n O\sqrt n On 倍的数据误差
例:对数据收集者而言发布数据都满足隐私损失 ϵ = 0.5 \epsilon=0.5 ϵ=0.5 的差分隐私
使用LDP方法时需要在本地进行隐私预算为 ϵ = 0.5 \epsilon=0.5 ϵ=0.5 的数据扰动,扰动后数据24.49%为真实值
使用ESA框架时,混淆器的隐私放大作用使得用户仅需在本地进行隐私预算为 ϵ = 10.5 \epsilon=10.5 ϵ=10.5的数据扰动,其扰动后的数据99.84%为真实值
说明ESA框架尽可能保留了原始的真实数据,从而在相同隐私保障的情况下提高了数据的可用性
三、混淆差分隐私(SDP,Shuffle Differential Privacy)
SDP是ESA框架下主流隐私保护方法(即ESA框架与差分隐私的结合),其摒弃了CDP下对可信第三方的依赖,提高隐私性;弥补了LDP下可用性低的问题,消除了与CDP相比 O n O\sqrt n On 倍的数据误差.
目前研究主要集中在两个方面:
- 对其隐私增强效果的理论证明,即隐私放大(Privacy Amplification)理论;
- 基于该模型提出不同统计估计方法。
SDP与CDP、LDP相比:
可信第三方依赖程度:本地化差分隐私<混洗差分隐私<中心化差分隐私
结果可用性:中心化差分隐私>混洗差分隐私>本地化差分隐私
SDP与基于加密的差分隐私相比:
基于加密的差分隐私也可在无可信第三方的支持下实现与CDP相似的可用性,但其借助同态加密完成计算,会产生较高的计算代价和通信代价,且其需要针对每一个查询特别设计隐私协议。混淆差分隐私可通过简单的更改部署在现有的、广泛应用的LDP框架上,具有较强的适应性。
综上:SDP在隐私性、可用性和易用性上有突出优势。
Shuffle Differential Privacy(SDP)定义:
SDP假设参与计算的用户都是可信的。但当存在用户不可行、掉线或者与分析器共谋时,会极大影响混淆效果,即影响差分隐私保护效果。
基于此问题,具有鲁棒性的SDP被提出(这里鲁棒性是对隐私性的保证,而非算法可用性):
Robust Shuffle Differential Privacy (RSDP)定义:
其中 γ \gamma γ表示可信用户的比例
RSDP保证了在至少有 γ \gamma γ比例的用户正确遵循协议的情况下,SDP隐私协议P满足 ( ϵ , δ ) − D P (\epsilon,\delta)-DP (ϵ,δ)−DP .
四、隐私放大理论
假设用户在本地端通过随机编码器R扰动后的数据满足: ϵ 1 − L D P \epsilon_1-LDP ϵ1−LDP
经过混洗后,分析器所获取的数据满足: ϵ c − D P \epsilon_c-DP ϵc−DP
从 ϵ 1 \epsilon_1 ϵ1到 ϵ c \epsilon_c ϵc的转变可通过隐私放大理论获取,其中 ϵ 1 > ϵ c \epsilon_1>\epsilon_c ϵ1>ϵc,即经过混洗后隐私性提高
-
通用隐私放大定理
交互式/非交互式SDP
假设有n个用户,每个用户持有一条记录 x i x_i xi,且在本地运行随机化编码协议 R R R
-
通用交互机制的隐私放大定理:
对于任意 n > 1000 , δ ∈ ( 0 , 0.01 ) n>1000,\delta\in(0,0.01) n>1000,δ∈(0,0.01),如果协议R满足 ϵ 1 − L D P \epsilon_1-LDP ϵ1−LDP,且 ϵ 1 ∈ ( 0 , 0.5 ) \epsilon_1\in(0,0.5) ϵ1∈(0,0.5),则协议 S ∘ R n S\circ R^n S∘Rn对应混洗后的n个输出满足 ( ϵ c , δ ) − D P (\epsilon_c,\delta)-DP (ϵc
-