Locally Differential Private Frequency Estimation with Consistency: LDP的主流后处理算法

最新推荐文章于 2024-09-11 15:19:06 发布

小小咸鱼也要努力的

最新推荐文章于 2024-09-11 15:19:06 发布

阅读量3.1k

点赞数 5

分类专栏：差分隐私学习笔记文章标签：安全

本文链接：https://blog.csdn.net/weixin_43641509/article/details/121217705

版权

该文研究了如何在局部差分隐私（LDP）的频率估计中利用先验知识，如非负性和频率总和为1，来提高估计的准确性。通过对现有FO协议如GRR和OLH的后处理，如Base-Pos、Norm-Sub等方法，文章探讨了引入正偏差和负偏差的影响，并通过实验展示了不同方法在单个值频率、频繁项频率和子集频率估计任务中的优劣。实验表明，没有一种方法在所有任务中都是最优的，选择最佳方法取决于特定的查询类型。

摘要由CSDN通过智能技术生成

Locally Differential Private Frequency Estimation with Consistency

论文主要内容

已知：在频率估计(Frequency Oracle - FO)中所有值的频率均为非负，并且所有频率总和为1

利用已知知识，在FO协议中添加一个后处理步骤 Post-Processing ，可以显著提高（包括单个值的频率、频繁项的频率以及子集的频率）等各类任务的准确率

1. INTRODUCTION

国内外研究现状：

现有的FO协议被设计为：最小化方差的同时，提供对单个值的无偏估计。但，它们在某些任务中表现不佳
现有的FO协议并没有很好的利用任何关于要估计的分布的先验知识

先验知识：1）所有值的频率均为非负，2）所有频率总和为1

利用先验知识引入bias偏差

在利用这些先验知识的时候，会给最终的估计结果引入bias 偏差

例：施加非负约束，则导致了最终估计引入了positive bias的副作用，这些bias会导致一些的查询结更不准确
- 提高了对单个值频率估计的准确性
- 但是，范围查询（子集）中引入的positive bias越来越多，子集的频率的准确性可能会降低

实验

实验设置
- 10种方法：不同的利用先验知识方法
- 3个任务
  1. 单个值的频率 query the frequency of every value in the domain
  2. 频繁项的频率 query the frequencies of the most frequent values
  3. 子集的频率 query the aggregate frequencies of subsets of values
实验结果：没有一种方法在所有任务中都优于其他方法
- 只使用先验知识1），对单个值的频率估计任务表现最好
- 只使用先验知识2），对频繁项频率估计的任务表现最好
- 结合使用先验知识1和先验知识2，对子集的频率估计任务表现最好

2. PROBLEM SETTING

略

3. FREQUENCY ORACLE PROYOCOLS

使用pure protocol来表示FO协议
$\widetilde{f}(v)=\frac{I_v/n-q^*}{p^*-q^*}$
$\widetilde{f}是$ 无偏估计，其方差为
$\sigma_v^2=\frac{ q^*(1-q^*)}{n(p^*-q^*)^2}+\frac{f_v(1-p^*-q^*)}{n(p^*-q^*)}$
方差推理过程见下图：