差分隐私
文章平均质量分 93
研究生差分隐私技术
Charliefive
love不如live好
展开
-
Programming Differential Privacy第十五章Synthetic Data合成数据
1、数据集的综合表示形式允许回答有关原始数据的查询2、合成表示的一个常见示例是直方图,可以通过在其计数中添加噪声来使其差分隐私3、直方图表示可用于生成与原始数据形状相同的合成数据,方法是将其计数视为概率:将计数归一化为 1,然后使用相应的归一化计数作为概率从直方图条柱中采样4、归一化直方图是单向边际分布的表示形式,它孤立地捕获单个列中的信息5、单向边际不捕获列之间的相关性6、要生成多个列,我们可以使用多个单向边际,或者我们可以构造一个 n 位边际的表示形式,其中 n>1。原创 2022-11-02 18:24:20 · 494 阅读 · 0 评论 -
Programming Differential Privacy第十四章Local Differential Privacy本地化差分隐私
例如,我们想知道有多少参与者与每个职业相关,所以我们的领域是职业集。原创 2022-11-02 00:16:27 · 553 阅读 · 0 评论 -
Programming Differential Privacy第十三章MACHINE LEARNING机器学习
什么是模型,以及它如何对已经编码的信息作预测。有许多不同类型的模型,但我们将在这里探讨的是线性模型。对于带有𝑘-维度特征向量𝑥1,…。然后取它的符号(即,如果上面的数量为负,我们预测标签为-1;如果为正,我们预测为1)。然后,模型本身可以由包含值的向量𝑤1,…,𝑤𝑘 和值𝑏𝑖𝑎𝑠来表示。该模型被称为线性模型,因为我们在预测标签时计算的数量是1次多项式。变量𝑤1,…,𝑤𝑘 通常称为模型的权重或系数,𝑏𝑖𝑎𝑠 通常称为偏差项或截距。原创 2022-11-01 17:59:45 · 266 阅读 · 0 评论 -
Programming Differential Privacy第十二章EXERCISES IN ALGORITHM DESIGN算法设计练习
首先使用SVT在𝑓(𝑥)上为整个数据集找到好的上界和下界。𝑐𝑙𝑖𝑝(𝑓(𝑥)𝑙𝑜𝑤𝑒𝑟,𝑢𝑝𝑝𝑒𝑟)的结果有有界限的敏感性,所以我们可以使用这个查询SVT。想法2. 计算所有级别的计数,对每个级别使用并行组合。也许我们需要更精确的层次结构的较小级别。想法3. 作为(2),还可以使用后处理,以更高的层次为基础重新缩放较低的层次;你的算法应该产生总体。设计一个不需要分析人员指定查询输出范围的样本和聚合的变体𝑓函数。-我们应该使用顺序组合,高级组合,还是差异隐私的变体?需要多少查询,我们可以使用什么样的组合?原创 2022-10-30 16:48:26 · 340 阅读 · 0 评论 -
Programming Differential Privacy第十一章The Sparse Vector Technique稀疏向量技术
稀疏向量技术对数据集上的敏感度为1的查询流进行操作。它释放流中第一个通过测试的查询的标识,而不是其他任何内容。SVT的优点是,无论考虑多少查询,它都会产生固定的总隐私成本。在这种情况下,我们希望通过放弃对明显低于阈值的查询的数字答案,而仅报告这些查询确实低于阈值,从而获得本质的分析。(如果我们这样选择的话,我们也将能够获得阈值以上查询的数字值,而只需花费额外的费用)。添加噪音并仅报告噪声值是否超过阈值。该AboveThreshold算法通过有时返回错误的索引来保护差分隐私。原创 2022-10-30 15:56:12 · 669 阅读 · 0 评论 -
Programming Differential Privacy第十章THE EXPONENTIAL MECHANISM指数机制
1、指数机制的理解:分析人员通过指定一个评分函数来定义哪个元素是"最佳"的,该评分函数为集合中的每个元素输出一个分数,并定义要从中选取的事物集。该机制通过近似最大化它返回的元素的分数来提供差分隐私,换句话说,为了满足差分隐私,指数机制有时会从没有最高分数的集合中返回一个元素。2、指数机制和我们之前看到的机制(例如拉普拉斯机制)之间最大的实际区别是,指数机制的输出始终是集合R 的成员。当从有限集合中选择项目时,当嘈杂的答案没有意义时,这非常有用。原创 2022-10-29 17:39:04 · 847 阅读 · 0 评论 -
Programming Differential Privacy第二章
链接攻击涉及将辅助数据与已取消标识的数据相结合,以重新标识个人。• 在最简单的情况下,可以通过连接包含这些数据集的两个表来执行链接攻击。• 简单的链接攻击非常有效:– 仅一个数据点就足以将内容缩小到几条记录– 缩小记录集有助于建议可能有用的其他辅助数据– 两个数据点通常足以重新识别特定数据集中的很大一部分人口– 三个数据点(性别、邮政编码、出生日期)唯一识别87%的美国人。原创 2022-10-09 14:47:35 · 155 阅读 · 1 评论 -
Programming Differential Privacy第七章
的机制可能(以低概率)导致非常糟糕的结果结果。灾难机制:r是均匀分布中随机取出来一个数。概率为1−𝛿时,突变机制满足𝜖-差分隐私。当概率为𝛿,它泄露了整个数据集,没有噪声。该机制满足近似差分隐私的定义,但我们可能不想在实践中使用它。幸运的是,大多数(𝜖, 𝛿)-差异私有机制。原创 2022-10-13 16:41:13 · 678 阅读 · 0 评论 -
Programming Differential Privacy第八章
目标:•定义局部敏感性并解释其与全局敏感性的区别•描述当地敏感性如何泄漏数据信息•使用建议的测试版本安全地应用局部敏感性•描述平稳的敏感性框架•使用样本和聚合框架回答具有任意敏感性的查询到目前为止,我们只看到了一种衡量敏感性的方法:全球敏感性。我们对全球敏感性的定义考虑了两个的数据集。这似乎很悲观,因为我们将在实际数据集-我们不应该考虑该数据集的邻居吗?。原创 2022-10-20 14:16:20 · 571 阅读 · 0 评论 -
Programming Differential Privacy第三章
𝑘-匿名性是数据的一种属性,它确保每个个体“融入”至少一组𝑘 个人视频。• 𝑘-匿名性的检查计算成本也很高:朴素的算法是𝑂(𝑛2) ,更快的算法需要相当大的空间。• 𝑘-匿名性可以通过泛化数据集来修改数据集,从而使特定值变得更多公共和团体更容易形成。• 优化概括极其困难,异常值可能会使其更具挑战性。解决此问题自动是NP难的。原创 2022-10-09 19:23:23 · 263 阅读 · 1 评论 -
Programming Differential Privacy第四章
1.定义差分隐私2.解释差分隐私参数𝜖 的重要性3.使用拉普拉斯算法强制实施不同的隐私查询差分隐私是一个算法的属性,并非一个数据集的属性。我们可以证明一个算法满足差异隐私;为了证明数据集满足不同的隐私,我们必须证明生成它的算法满足差异隐私。定义满足不同隐私的功能通常称为mechanism我们说一种机制𝐹 满足所有相邻数据集的差异隐私𝑥 和𝑥′ , 和所有可能的输出𝑆 在以下条件。如果两个数据集在单个个体之间存在差异,则它们被视为邻居。原创 2022-10-10 15:52:33 · 219 阅读 · 0 评论 -
Programming Differential Privacy第九章
这看起来很像𝜖-差异隐私!特别是,事实证明𝐹 满足𝜖-差异隐私,如果:差异隐私研究的一个有趣方向是从以下方面探索其他隐私定义其他分歧。其中,Rényi散度特别有趣,因为它(如最大分歧)也允许我们恢复不同隐私的原始定义。原创 2022-10-20 14:18:51 · 616 阅读 · 0 评论 -
Programming Differential Privacy第五章
1.解释顺序组合、并行组合和后处理的概念2.计算不同隐私机制的多个应用程序的累积隐私成本3.确定何时允许使用并行组合下面定义三种有用的方法用在算法中。原创 2022-10-11 21:09:47 · 189 阅读 · 1 评论 -
Programming Differential Privacy第六章
目标:• 定义灵敏度• 发现计数查询的敏感性• 找出求和查询的敏感性• 将平均查询分解为计数和求和查询• 使用裁剪来限制求和查询的敏感性正如我们在讨论拉普拉斯机制时提到的,确保差分隐私所需的噪声量对于给定的查询取决于查询的敏感度。敏感度反映了当输入改变输出随之改变的数量级。其中𝑓(𝑥)是确定性函数(查询),𝜖是隐私参数,𝑠是𝑓的敏感度。对于一个将数据集(𝒟)映射为实数的函数𝑓∶𝒟→ℝ,𝑓的全局灵敏度定义如下:这里,𝑑(𝑥,𝑥’)表示两个数据集𝑥和𝑥’之间的距离原创 2022-10-12 22:00:00 · 409 阅读 · 0 评论