差分隐私（一）概念&熵

33Chenxx

已于 2023-05-24 18:52:09 修改

阅读量2.2k

点赞数 5

分类专栏：学习笔记文章标签：学习

于 2023-05-19 00:39:24 首次发布

本文链接：https://blog.csdn.net/weixin_45758115/article/details/130688434

版权

学习笔记专栏收录该内容

2 篇文章

订阅专栏

一、差分隐私的概念

定义

对查询的结果加入噪声，使得差分攻击的攻击者无法辨别某一样本是否在数据集中。
最早于2008年由Dwork 提出，是目前基于扰动的隐私保护方法中安全级别最高的方法

公式推导

查询函数用 $f(x):x\rightarrow\;R$ 表示，随机噪声可以用 $r$ 表示，最终得到的查询结果就是 $M (x) = f (x) + r$ ，对于两个汉明距离为1的数据集 $x, x^{'}$ ，对于任意的输出集合 $S$ 有：
差分隐私的定义

note

汉明距离：对两个字符串进行异或运算，并统计结果为1的个数。
KL-Divergence相对熵 / 梯度与散度
Jensen’s 不等式

公式推导：
使的这两个分布尽可能地接近，那么衡量两个分布的差异用KL-Divergence：

只需要两个分布在差距最大的情况下能够被bound住，所以引入了MAX-Divergence，并且使得它小于 $\varepsilon$ ：

MAX-Divergence
定义式推导

隐私预算

$\varepsilon$ 就被称为隐私预算，一般而言， $\varepsilon$ 越小，隐私保护越好，加入的噪声就越大，数据可用性下降.
$\varepsilon$ 控制了随机机制在两个相邻数据集上的输出的差异程度，并捕获了在数据库上运行随机机制时丢失了多少隐私。 $\varepsilon$ 越大，隐私保护的程度越差， $\varepsilon$ 越小，隐私保护的程度越好.
更大噪声水平下的概率分布图

更大噪声水平下的概率分布图

差分隐私的松弛

在实际的应用中需要很多的隐私预算。因此为了算法的实用性，Dwork后面引入了松弛版本的差分隐私：

推导：
相比较于原始的式子，对分子减去了一个 $\delta$ ，也就是说我们可以容忍一个较小的差距。直观形式如下，像图中标注的位置，本来 $\epsilon$ 是无法bound住，但是我们考虑松弛项 $\delta$ ，整体依旧满足差分隐私。一般 $\delta$ 都设置的比较小。
在这里插入图片描述

松弛DP的目的：利用更少的隐私预算，得到相同的噪声尺度。

差分隐私的特性

后处理性： 差分隐私机制不受后处理的影响，任何差分隐私的随机响应机制和任意函数进行组合，得到的新函数仍然是差分隐私的。形式化：如果一个机制M[]是 $\varepsilon$ -DP的，g()是一个任意函数，则g(M[])仍然是 $\varepsilon$ -DP的。因此，差分隐私可以抵御数据链接攻击。

可组合性： 差分私有机制在组合下是封闭的。如果我们在同一数据集上应用多种不同的机制（或多次使用相同的机制），这些机制整体上仍然是差分隐私的，但是 $\varepsilon$ 值会产生变化。具体来说，假设我们将k个机制进行组合，每个机制都符合 $\varepsilon$ -DP的，则最后得到的整体的机制至少是 k $\varepsilon$ -DP 的。由此，DP可以抵挡差分攻击。

上述性质使得DP机制可作为通用组件。任何大型差分隐私机制都可以组合在一起，同时仍然具有差分隐私性质。但是，组合定理也存在极限的。虽然组合可以保护隐私，但随着组合中的DP机制的增加， $\varepsilon$ 的值会增加，隐私保护的性能会随着DP机制数量的增加而下降。如果组合的DP机制过多， $\varepsilon$ 的值将变得过大，使得随机机制在相邻数据库上产生的差异极度明显，无法产生隐私保护的效果。

Renyi Entropy & Renyi Divergence补充文档

二、瑞丽熵（Renyi Entropy）

定义

熵-Entropy可以用来描述系统多样性，不确定性和随机性。而Renyi Entropy 瑞丽熵是熵的推广，用来衡量系统不确定性的指标。

公式推导

在这里插入图片描述

note：

三、瑞丽散度（Renyi Divergence）

瑞丽散度用来衡量两个分布之间的差距，是KL-Divergence和Max-Divergence的推广。
Renyi在Kullback-Leibler散度的基础上引申出Renyi divergence。在形式上也是引入了一个 $\alpha$ 阶参数，所以也可称其为 $\alpha$ -divergence。如下，