第一部分:含义
(1)举个例子快速理解
差分隐私
顾名思义就是用来防范差分攻击
的,我最早接触到差分攻击
的概念是数据库课上老师介绍的。举个简单的例子,假设现在有一个婚恋数据库,2个单身8个已婚,只能查有多少人单身。刚开始的时候查询发现,2个人单身;现在张三跑去登记了自己婚姻状况,再一查,发现3个人单身。所以张三单身。
(2)总结含义
差分隐私(Differential Privacy)是一种用于保护个人数据隐私的数学技术和框架。它通过向查询结果中添加噪声,使得单个数据记录的参与或不参与不会显著影响输出结果,从而确保个体信息的隐私,即便攻击者掌握了数据集中的绝大部分信息,也无法准确推断出个别用户的数据。
第二部分:具体实现思路
来两次查询结构是确定的2和3,现在加入随机噪声后,变成了两个随机变量,画出它们概率分布图。
现在,如果张三不在数据库的话,得到结果可能是2.5;张三在的话,得到的结果也可能是2.5;两个数据集查询得到某一个结果的概率很接近,以至于我们根本分不清这个结果来自于哪一个数据集,这样也就实现了攻击者的知识不会因为张三这个样本的出现与否而发生变化。
基本上,给定两个仅在一个数据点不同的相邻数据集(比如 D 和 D′),差分隐私保证任何查询的结果在这两个数据集上的差异是极小的,攻击者无法根据输出推断出数据集中的某个个体是否存在。
参考:差分隐私(一) Differential Privacy 简介 - 知乎 (zhihu.com)
第三部分:高斯噪声扰动模型下的差分隐私
(1)高斯分布
见我博客:高斯分布,正态分布和均匀分布解释以及python代码实现_高斯噪声正态分布图代码-CSDN博客
(2)高斯噪声扰动模型基本含义
高斯噪声扰动模型是差分隐私(Differential Privacy)中常用的一种隐私保护机制,它通过向查询结果中添加来自高斯分布的随机噪声来隐匿单个数据的贡献,从而确保个人数据的隐私。