差分隐私：基础原理和应用举例

最新推荐文章于 2025-04-24 17:46:29 发布

JamePrin

最新推荐文章于 2025-04-24 17:46:29 发布

阅读量4.6k

点赞数

分类专栏：差分隐私文章标签：数据库机器学习大数据密码学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52103757/article/details/116352677

版权

差分隐私专栏收录该内容

1 篇文章

订阅专栏

本文介绍了差分隐私的基础概念及应用案例，探讨了通过加入噪声保护数据隐私的方法，并讨论了差分隐私在数据库、机器学习等领域的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

差分隐私：基础原理和应用举例

个人笔记：图片内容和知识直接来源 HERE
是一个很简单易懂的视频，适用于理解简单理论

06年提出的关于隐私保护的理论框架，用于数据收集和信息分享

引例：一所Hospital有许多病人数据，外部人员要收集，这时如何保护

方法：匿名化（去掉姓名）：这似乎很合理，但是并不能完全保护，因为还残留病人出生日期，性别等等等。。假设攻击者拥有的知识非常丰富，它能够将这些数据一一对应起来并且找到对应的名字，这相当于没有保护实例：90年代中期，马萨诸塞州政府部门就受到这样的攻击，一个MIT研究生利用这个找到州长的信息。因为大部分人拥有唯一个出生日期、性别、邮编的组合

这不能用来保护隐私

**另外的方法：如果只发布粗粒度的统计数据？**其实也不能够达到保护。

在这里插入图片描述

这些足够暴露出下面的内容，例子非常简单，但也足够说明，粗粒度的数据能够重构源数据集

在这里插入图片描述

那这样呢，把较小的数据删除以及加入一定的噪声。在大量的数据中加入少量的噪声并不会对数据造成太大影响
在这里插入图片描述

但是这样依然不能足够达到保护效果，因为攻击者也很厉害，能够利用更强的重构算法（03年提出，基本思想：线性规划——略）最小化epsilon

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

这远远超过设想中的效果（17%意味着很有效的攻击）

他们决定：在2020年使用差分隐私

有人提出，将统计数据以更复杂的数据形式发布，比如说把数据训练成一个机器学习模型，将模型发布，其实这也会泄露。

因为：学习过程中会不经意间记住数据元组，在这些元组上的表现和其他元组上的表现的不同能够提供给攻击者信息。
在这里插入图片描述

使用严谨的框架进行数据保护（差分隐私）

直观原理：有一个数据集D，有Alice这个人，把Alice换成其他人（本不在这个dataset）得到dataset D‘，在两个dataset提取信息，给Adversary。让Adversary看信息从哪里来？而攻击者无法判别信息O是从哪个dataset来的，他就不知道Alice是否在里边，更不知道Alice在哪边，因此保护了Alice。

在这里插入图片描述

定义：

$e^{-\epsilon}\leq \frac{Pr[A(D)=O]}{Pr[A(D')=O]}\leq e^{\epsilon} \\D用A的算法输入得到O（任意一个可能的输出）的概率比上D'的输入的...概率的比值\\D和D'是两个相邻的数据集\\A是一种随机算法\\满足：对D中任意一个数据进行修改，使得对输出O的概率变化是小的$

图示：

在这里插入图片描述

👉输出不会特别依赖于个别数据
平均年龄就是一种满足

一般做法：

从一个不满足差分隐私的算法出发
加入一定的噪声使其输出满足要求（取决于发布信息有多依赖个体数据，大→加入大噪声；小→小噪声）

例如：

数值型变量：

拉普拉斯机制的差分隐私算法：

Dataset(Table_Name) : D

Database 查询: SELECT COUNT(*) FROM D WHERE Type=‘xxxx’

步骤①：如果我们修改D中任意一个数据，这里的查询结果变化最多是 1（查询结果最大的改变量），因为把一个数据的xxxx改成非xxxx，这就是敏感度

步骤②：而如果用噪声掩盖为1的改变，这里对每一个结果加入独立的服从拉普拉斯分布的噪声：
$pdf(x)=\frac{1}{2\lambda}e^{(-\frac{\lvert x\rvert}{\lambda})}\\ \lambda 是参数，决定了噪声的方差，与噪声方差成正相关，而将\lambda 设为\frac{1}{\epsilon}就满足\epsilon-差分隐私\\这里\frac{1}{\epsilon}的1就是查询结果最大的改变量 \\中值为0，左右两边呈指数下降$

分类型变量：

数据采集的简单机制：

在这里插入图片描述

这里就满足差分隐私，还是由于这个直观原因

只要根据ε调整随机化的概率就可。

这会严重影响统计吗？

其实还是可以修正的

在这里插入图片描述

然后将最右边REMAINING ANSWER这个当作随机采样去得到=差不多有$\frac{1.5}{1.5+0.5}*100%=75% $ 给的是真的yes的答案==

但还不能知道哪个具体回答是真的还是假的。所以每个人的答案（隐私）还是得到了保护！

一般而言，对不同场景会有不同得算法。

应用：

差分隐私数据库

在这里插入图片描述

在这里插入图片描述

差分隐私机器学习

在这里插入图片描述

TensorFlow

在这里插入图片描述

使得训练过程实现差分隐私👉结果也就满足

差分隐私数据采集

在这里插入图片描述

差分隐私数据合成

在这里插入图片描述

在这里插入图片描述

前进展望：

…

不足：还未能在隐私保护、计算效率和查询准确度三者之间有较好的平衡

在这里插入图片描述

…

具体内容在视频的43分钟后请点击这里

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

JamePrin 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。