差分隐私入门

最新推荐文章于 2025-04-29 09:28:25 发布

️在遠方

最新推荐文章于 2025-04-29 09:28:25 发布

阅读量886

点赞数 16

分类专栏：差分隐私文章标签：安全

本文链接：https://blog.csdn.net/weixin_44179625/article/details/141750261

版权

差分隐私专栏收录该内容

1 篇文章

订阅专栏

差分隐私入门

直观原理

在这里插入图片描述

D’和D的区别只在于其中的Alice的数据
如果攻击者无法判别信息O是来自于D还是D’，那么我们可以认为Alice的隐私受到了保护
差分隐私要求任何被发布的信息都应当与上图中的信息О类似:
- 应当避免让攻击者分辨出任何具体的个人数据
为此，差分隐私要求被发布的信息需经一个随机算法所处理，且该随机算法会对信息做一些扰动

数学实质

一个随机算法A满足 $\varepsilon$ -差分隐私，当且仅当
$\exp(-\varepsilon) \leq \frac{\Pr[A(D) = O]}{\Pr[A(D') = O]} \leq \exp(\varepsilon)$
对任意“相邻”数据集D和D‘及任意输出O都成立
在这里插入图片描述

原始数据集D在算法A中输出0的概率与加入噪音的数据集在算法A输出0的概率相比的值在e的- $\varepsilon$ 次方到e的 $\varepsilon$ 次方之间，即说明对算法A的输出分布不会受到太大影响。

之所以做这样的要求就是为了保证算法输出对于当某个数据受到修改后并不会受太大影响，由此攻击者反推算法就不能确定该数据是否存在于数据集中。

设计差分隐私的一般做法：

从一个不满足差分隐私的算法出发
往算法里适当地加入一定的噪声，以使其输出满足差分隐私的要求

拉普拉斯机制

假设我们有一个病患数据集D

考虑以下数据库查询:

SELECT COUNT(*) FROM D WHERE Type =”糖尿病患”

如果我们要发布这个查询结果，如何才能满足 $\varepsilon$ -差分隐私?

首先，让我们考虑这个查询的结果有多依赖于某个特定病人的信息
如果我们修改D中任意一个病患的数据，上述查询结果最多会变多少?
- 答案∶最多改变1。
直观地说，如果我们能用噪声来“掩盖”这种不大于1的改变，就能满足差分隐私

具体来说，我们可以往查询结果中加入一个服从拉普拉斯分布的噪声
$pdf(x)=\frac{1}{2\lambda }exp(-\frac{|x|}{\lambda })$
在这里插入图片描述

参数 $\lambda$ 设为 $\frac{1}{\epsilon }$ ，即能满足 $\epsilon$ -差分隐私

SELECT 3 * COUNT(*) FROM D WHERE Type =”糖尿病患”

如果要发布的是上面这个查询结果呢?
首先，如果我们修改一个病患的数据，则上述查询结果最多改变3
我们可以对其加入拉普拉斯噪声，并把参数 $\lambda$ 设为 $\frac{3}{\epsilon }$ ，即能满足 $\epsilon$ -差分隐私

一般而言，如果我们要发布一组数值型查询结果，我们可以对每个结果加入独立的拉普拉斯噪声来满足差分隐私
噪声参数 $\lambda$ 取决于当我们修改一个人的数据时，查询结果总共会改变多少
- 一组查询总共的“最大改变”被称为他们的敏感度
- 取 $\lambda$ =敏感度/ $\epsilon$ 即能满足c-差分隐私