Differentially Private Aggregation of Distributed Time-Series with Transformation and Encryption

Differentially Private Aggregation of Distributed Time-Series with Transformation and Encryption

   我们提出了PASTE,这是第一个用于分布式时间序列数据的差异化私有聚合算法,它可以在没有任何可信服务器的情况下提供良好的实用程序。PASTE解决了参与式数据挖掘应用程序中的两个重要挑战,其中(i)个人用户收集时间相关的时间序列数据(如位置跟踪、web历史、个人健康数据),以及(ii)不受信任的第三方聚合器希望对数据运行聚合查询。为了解决这个问题,PASTE合并了两种新的算法。

     为了确保时间序列数据的不同隐私,尽管存在时间相关性,PASTE使用傅立叶摄动算法(fak)。标准的差分隐私技术对时间序列数据的性能很差。要回答n个查询,这种技术可能会导致每个查询答案都有Θ(n)的噪音,如果n很大,那么这些答案实际上是无用的。我们的FPAk算法扰动查询答案的离散傅里叶变换。对于回答n个查询,fak将预期误差从Θ(n)提高到大约Θ(k)其中k是可以(大约)重建所有n个查询答案的傅立叶系数的数目。我们的实验表明,许多真实数据集的k<< n导致了FPAk的巨大误差改进。

    为了解决缺乏可信中心服务器的问题,PASTE使用了分布式拉普拉斯扰动算法(Distributed Laplace摄动Algorithm, DLPA),该算法以分布式方式添加噪声,以保证不同的隐私。我们所知,DLPA第一分布不同私人算法能够适应大量的用户:DLPA优于微分隐私的唯一其他分布式解决方案提出了到目前为止,通过减少每个用户的计算负载从O (U) 到O(1),U是用户数量

1. INTRODUCTION

不断增加的物理和虚拟世界的仪器仪表给了我们一个前所未有的机会,从不同的来源收集有用的数据,并对其进行挖掘,以理解重要的现象。考虑以下参与式数据挖掘应用程序的示例。

E1:在诸如卡特尔[16]、BikeNet[8]、PEIR[25]、WeatherUnderground1等参与式传感应用程序中,参与者提供各种时间序列数据,例如他们当前的位置、速度、天气信息、图像等。这些数据可以聚合和挖掘出有用的信息,如社区利益(例如,受欢迎的地方)、道路拥挤模式、微天气等。

E3:微软HealthVault2和谷歌Health3等医疗保健应用程序允许用户定期上传数据,如他们的体重、疾病发生情况、运动量、食物和药物摄入等。PIER[25]允许个人用户将这些数据存储在本地的个人数据库里。这些数据可以结合挖掘,了解疾病爆发、体重分布、体重增加与药物摄入的关系等

    正如上面的例子所表明的,根据大量个人参与者提供的数据计算出的总统计数字可能非常有用。然而,由于各种原因,尤其是出于隐私考虑,数据所有者或发布者可能并不总是愿意透露真实的价值。我们工作的目标是让第三方能够计算有用的聚合查询,同时保证来自各个发布者的数据的隐私。

随机扰动是一种被广泛应用和接受的部分信息隐藏方法,它通过引入个体值的不确定性来实现。先前的扰动技术主要是为关系数据设计的[7,9,19,26]。参与式数据挖掘应用程序有两个独特的特点,使得现有的隐私机制不适用于这些应用程序

时间序列数据:应用程序生成时间序列的数值或分类数据。来自同一来源的连续时间戳上的数据可以高度相关。

分布式数据源:数据发布者可能不相信任何第三方能够看到他们的真实数据。这意味着,查询程序需要能够在不看到真实数据值的情况下计算有用的聚合。以上特征使得大多数现有的隐私解决方案,假设关系数据在元组之间具有微不足道的相关性[9,19,26],或者存在一个中央可信实体,小心地引入噪声[7,15,27],不适用于我们的目标应用程序(如表1所示)。

因此,要实现参与式数据挖掘应用程序的广泛采用,需要解决两个挑战。第一个挑战是确保时间序列数据的隐私性,这是有问题的,因为序列中的连续值之间存在很强的相关性。这种相关性使得对时间序列数据的不同查询的答案也变得相关,例如,在连续几周计算社区的平均权重的查询序列。实现隐私的一种可能的方法是独立地干扰这些问题的答案,从而确保即使揭示了几个真实的答案,也不能帮助推断有关其他答案干扰的任何信息。但[20]指出,如果时间序列表现出一定的模式,则可以区分查询答案与原始答案的独立扰动,并将其过滤掉。[11,20]中的作者考虑通过扰动时间序列数据来抵御多次隐私攻击,但他们没有提供任何正式的隐私保障,没有这种保障,数据所有者可能不会发布敏感数据,因为他们担心无法预见的隐私攻击

实现隐私的一种可能的方法是独立地干扰这些问题的答案,从而确保即使揭示了几个真实的答案,也不能帮助推断有关其他答案干扰的任何信息。但[20]指出如果时间序列表现出一定的模式,则可以区分查询答案与原始答案的独立扰动,并将其过滤掉。[11,20]中的作者考虑通过扰动时间序列数据来抵御多次隐私攻击,但他们没有提供任何正式的隐私保障,没有这种保障,数据所有者可能不会发布敏感数据,因为他们担心无法预见的隐私攻击。

另一方面,正式的隐私保障,比如对关系数据有效的差分隐私,对于时间序列数据似乎很难实现。例如,标准的差异私有技术[7]可能导致每个查询答案的噪声为Θ(n),其中n是要回答的查询的数量,如果要回答的查询序列很长,那么查询答案实际上是无用的

第二个挑战来自可信聚合器的缺乏以前的大多数工作都假设有一个可信的聚合器,它可以访问原始数据,在数据上计算目标函数,然后干扰结果[7,19,26]。在缺乏可信聚合器的情况下,用户需要在将数据发布到聚合器[9]之前对其进行扰动。然而,当用户独立地对数据进行扰动时,扰动估计中的噪声方差会随着用户数量的增加而线性增长,从而降低了信息的效用。

在本文中,我们提出了一套PASTE(带有转换和加密的信号私有聚合)算法来解决这两个分布式时间序列数据的挑战。我们使用最先进的差分隐私作为隐私要求,并作出以下贡献

为了在不同隐私条件下回答时间序列数据上的多个查询,我们提出了FPAk算法,该算法扰动查询答案的离散傅里叶变换(DFT)。对于回答n个查询,FPAk将错误从Θ(n)(标准差异隐私技术的错误)改进到大约Θ(k),其中k是可以(大约)重建所有n个查询答案的DFT系数的数量。我们的实验表明,对于许多现实生活中的数据集来说,一个小的k n就足够了,这导致了FPAk的巨大误差改进。据我们所知,FPAk是第一个为时间序列数据提供实用价值的差异化私有技术(不像[11,20])。

我们提出了以分布式方式添加噪音的DLPA算法,以提供不同的隐私。据我们所知,DLPA是第一个适用于大量用户的分布式差异私有算法:DLPA的性能优于唯一的其他提出的分布式算法[6],因为它将每个用户的计算负载从O(U)降低到O(1),其中U是用户数量。

我们的分布式解决方案PASTE结合了FPAk和DLPA算法,以获得前者的准确性优势和后者的可扩展性。我们通过三个实时时间序列数据集,即GPS轨迹、每日体重读数和交通流量,对我们的解决方案进行了经验评估。我们的实验表明,我们的解决方案提高了查询答案的准确性的数量级,也可以很好地适用于大量的用户

、我们相信PASTE是迈向实际参与式数据挖掘应用程序的重要的第一步。我们已经在微软的SensorMap中实现了我们的一些技术,4这是一个真正的在线参与式传感应用程序,在过去的三年中,它已经与数百个数据发布者公开了。PASTE现在允许用户在不显示真实值的情况下发布私有数据,并允许SensorMap计算私有数据的有用聚合

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值