Locally Differential Private Frequency Estimation with Consistency
目录
- Locally Differential Private Frequency Estimation with Consistency
-
- 1. INTRODUCTION
- 2. PROBLEM SETTING
- 3. FREQUENCY ORACLE PROYOCOLS
- 💜4. TOWARDS CONSISTENT FREQUENCY ORACLES
- 5. EVALUATION
- 6. RELATED WORK
- 7. CONCLUSION
论文链接.
论文主要内容
已知:在频率估计(Frequency Oracle - FO)中所有值的频率均为非负,并且所有频率总和为1
利用已知知识,在FO协议中添加一个后处理步骤 Post-Processing ,可以显著提高(包括单个值的频率、频繁项的频率以及子集的频率)等各类任务的准确率
1. INTRODUCTION
国内外研究现状:
-
现有的FO协议被设计为:最小化方差的同时,提供对单个值的无偏估计。但,它们在某些任务中表现不佳
-
现有的FO协议并没有很好的利用任何关于要估计的分布的先验知识
先验知识:1)所有值的频率均为非负,2)所有频率总和为1
利用先验知识引入bias偏差
在利用这些先验知识的时候,会给最终的估计结果引入bias 偏差
- 例:施加非负约束,则导致了最终估计引入了positive bias的副作用,这些bias会导致一些的查询结更不准确
- 提高了对单个值频率估计的准确性
- 但是,范围查询(子集)中引入的positive bias越来越多,子集的频率的准确性可能会降低
实验
- 实验设置
- 10种方法:不同的利用先验知识方法
- 3个任务
- 单个值的频率 query the frequency of every value in the domain
- 频繁项的频率 query the frequencies of the most frequent values
- 子集的频率 query the aggregate frequencies of subsets of values
- 实验结果:没有一种方法在所有任务中都优于其他方法
- 只使用先验知识1),对单个值的频率估计任务表现最好
- 只使用先验知识2),对频繁项频率估计的任务表现最好
- 结合使用先验知识1和先验知识2,对子集的频率估计任务表现最好
2. PROBLEM SETTING
略
3. FREQUENCY ORACLE PROYOCOLS
使用pure protocol来表示FO协议
f ~ ( v ) = I v / n − q ∗ p ∗ − q ∗ \widetilde{f}(v)=\frac{I_v/n-q^*}{p^*-q^*} f
(v)=p∗−q∗Iv/n−q∗
f ~ 是 \widetilde{f}是 f
是 无偏估计,其方差为
σ v 2 = q ∗ ( 1 − q ∗ ) n ( p ∗ − q ∗ ) 2 + f v ( 1 − p ∗ − q ∗ ) n ( p ∗ − q ∗ ) \sigma_v^2=\frac{ q^*(1-q^*)}{n(p^*-q^*)^2}+\frac{f_v(1-p^*-q^*)}{n(p^*-q^*)} σv2=n(p∗−q∗)2q∗(1−q∗)+n(p∗−q∗)fv(1−p∗−q∗)
方差推理过程见下图:
3.1 Generalized Random Response ——GRR
f ~ ( v ) = I v / n − q ∗ p ∗ − q ∗ = I v / n − 1 e ε + d − 1 e ε − 1 e ε + d − 1 \widetilde{f}(v)=\frac{I_v/n-q^*}{p^*-q^*}=\frac{I_v/n-\frac{1}{e^{\varepsilon}+d-1}}{\frac{e^{\varepsilon}-1}{e^{\varepsilon}+d-1}} f (v)=p∗−q∗Iv/n−q∗=eε+d−1eε−1Iv/n−eε+d−11
3.2 Optimized Local Hashing OLH
在OLH中,在Encoding和Perturbe步骤中都会有信息损失,而参数d的选择则是这两个步骤的信息损失之间的权衡,当g=eε+1(或最接近的整数),方差
f ~