差分隐私论文阅读笔记

前缀基础知识

  • 差分隐私是一个严格的隐私定义的数据分析,它提供了有意义的保证,无论对手提前知道什么关于个人的数据。是一种流行的基于噪声扰动的隐私机制,并通过添加少量的噪声来保护了大数据集和分布式数据集的隐私。
  • 经验风险最小化(ERM)作为一种常用的监督学习方法,也面临着实现隐私保护和学习同时进行的挑战。该框架除了最佳非私有解决方案的泛化误差外,还保证了隐私和小的“超额”误差。
  • 对于凸损失函数问题,有许多方法,大致可分为三类。
    第一种方法是扰动非DP算法的输出,输出扰动方法可以实现强凸情况下的最优效用界。但它不能推广到具有非光滑正则化器的情况下。
    第二种方法是扰动目标函数,目标摄动方法需要获得最优解,以确保差异性的隐私和效用,这在实践中往往是难以解决的,并且不能达到最优边界。
    第三种方法是在一阶优化算法中扰动梯度,梯度扰动方法可以克服所有的问题,因此在实践中是首选的。
  • 传统的分布式计算系统(如主环和火花),这些系统包含一个主节点和许多从节点。主节点负责“减少地图减少”调度,从节点负责按要求计算数据。
    这种分布式系统需要很大的通信成本,并且由于将所有计算的数据传输给主机,容易导致隐私泄露。
  • 高维数据可以提高算法的计算复杂度,削弱在线学习模型的效用
  • 稀疏在线学习有两种经典的有效方法。
    第一种方法通过截断梯度在在线学习算法的权重中引入稀疏性。 第二种方法遵循双平均算法。
  • OCP-在线凸规划,种流行的在线学习环境,具有一定的理论和实践意义,使用差分隐私作为隐私的正式度量 PAC-Probably Approximate Correct直译过来就是”可能近似正确”,PAC关心的是能不能从假设空间空选出一个最优的假设,也就是说在这样有限的训练集下,能不能在假设空间中找到一个好的假设来完成任务。也就是说PAC可以用来判断达没达到可以选择出足够好的假设来解决问题的下限。
  • 差分隐私已经成为一个事实上的隐私标准,几乎所有在隐私保护机器学习方面的工作都使用了某种形式的差分隐私。这些工作包括设计突出的机器学习算法的不同的私有版本,包括经验风险最小化和深度神经网络。

论文笔记

Deep Learning with Differential Privacy - CCS’16

先前的工作在凸模型上取得了成果/在隐私成本很高的情况下处理复杂的神经网络。该论文开发了新的算法技术,在适度的隐私预算下训练具有非凸目标的深度神经网络,并在软件复杂度、训练效率和模型质量方面花费可管理的深度神经网络。

Differentially Private Distributed Online Learning - TKDE’18

大数据时代的数据具有分布广泛、高速、高维性和隐私问题的特征。为了解决大数据分析的这些挑战,该论文在从分布式数据源收集的数据上开发了一个保护隐私的分布式在线学习框架。即把DP应用到分布式在线学习中。
应用场景:疾病防治、在线广告的推荐。
为解决高维数据问题,引入了稀疏解,其利用在线镜像下降和Lasso-L1范数,使可学习参数稀疏,以获得更好的学习性能。提出了私有DOLA的两个扩展,第一个扩展是私有DOLA的regret bound可以用来获得良好的收敛速度的分布式随机优化算法,有助于离线学习相关的优化问题。第二个拓展是,每次迭代都可以即时处理多个数据,这被称为小批更新。

Differentially Private Empirical Risk Minimization Revisited _ Faster and More General - NIPS’17

论文研究了不同环境下的DP-ERM问题,对于高维环境中具有光滑凸损失的ERM,使用具有较小梯度复杂度的上界算法(证明了这种方法的有效性),然后用梯度范数测量了损失函数是非凸时的效用,将预期的ERM从凸推广到Polyak-Lojasiewicz条件,并给出了(别的论文)中给出的效用的更紧上界。

Differentially Private Learning with Kernels - ICML’13

这篇论文研究了kERM的DP问题,对每个数据点的访问只通过一个核函数。提出了三个更简单但实用的隐私保护kERM模型——交互、半交互、非交互。

交互模型:用户将其测试点发送给可信的学习者(如搜索引擎),并期望准确但有差异的隐私预测。
半交互模型:学习者可以访问未标记的测试集的子集(来自用户),学习者使用它释放一个预测器,并保留了隐私的训练数据。
非交互模型:学习者忽略测试集进行预测(类似于一个已经训练好的分类器?),但kernel仅限于向量空间上的函数(Database里的数据)。
对于每个模型,均可导出具有可证明的“效用”或误差边界的微分私有学习算法。 此外,该方法也可以应用于传统模型,与Rubinstein等人的方法相比,它们表现出更好的维数依赖性。

Differentially Private Online Learning - COLT’12

这篇论文在在线凸规划(OCP)框架下研究在线学习下的隐私问题(包括隐私性和实用性)将DP-OCP问题形式化,提供了一个具有可证明隐私和实用(遗憾)保证的通用框架。
1、线性降低灵敏度,为了保证隐私,我们需要证明任何数据输入对任何算法输出的影响在时间步长t中线性下降。
2、次线性遗憾(regret),即证明该算法渐近性至少与最优离线解一样好
作者团队使用两种流行的OCP算法实例化了通用框架-Implicit Gradient Descent (IGD )和Generalized Infifinitesimal Gradient Ascent (GIGA ),IGD可以用在不可微的函数上,如果代价函数是二次,则使用Follow The Leader (FTL)
证明了作者提出的在线学习框架也可以用来为离线学习问题提供不同的私有算法。 对于离线学习问题,作者团队的方法保证了更好的误差边界,并且比现有的最先进的方法更实用。

Efficient, Noise-Tolerant, and Private Learning via Boosting - COLT’20

论文设计了一个私有的增强算法,算法的自然条件:私有、高效和耐噪声的PAC学习者。为了演示这个算法框架,作者使用它来构造样本复杂度不依赖于维数的大边缘半空间的私有、耐噪声的PAC学习者。学习者有两个样本的复杂边界,边界受到DP的约束以确保泛化能力。第一个边界(bound)表明了从隐私中获得PAC学习者的一般方法,第二个边界使用了大边缘分类理论中的标准技术来匹配最著名的样本复杂度的大边缘半分空间的DP学习,同时耐随机标签噪声。

Evaluating Differentially Private Machine Learning in Practice - USENIX’19

隐私预算↓,效用↑隐私↓。论文在逻辑回归和神经网络模型的实验中量化了隐私预算和效用之间的平衡对隐私的影响。评估集中在梯度扰动机制上,使得它适用于广泛的机器学习算法,使用membership inference attacks and attribute inference attacks来评估损失值

Online Learning via the Differential Privacy Lens - NIPS’19

证明了私有可学习类确实是在线可学习的,有效的DPL意味着有效的OL。

Private Learning Implies Online Learning _ An Efficient Reduction - NIPS’19

论文使用DP镜头去设计和分析在各种典型在线学习问题中的随机在线学习算法。通过DP镜头,检查在完整信息设置和部分信息设置中的在线学习。
我们的目标是表明,基于稳定性的方法本身非常适合用来设计具有良好保证的在线学习算法。
开发一步差分稳定性(one-step differential stability)算法,促进了对OL的更精细的regret分析。
证明了来自DP文献的工具可以为许多OL问题产生regret边界,包括在线凸优化和在线线性优化,同时适合推导跟踪扰动领导算法(follow-the-perturbed-leader algorithms)的一阶regret bound,这是所有之前的分析都很难实现的。
推广了标准的最大散度,得到了一个更广泛的类,称为标准的最大散度。这些定义了更强的稳定性概念,这有助于推导部分信息设置的边界。

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值