一种基于随机投影的本地差分隐私高维数值型数据收集算法

一种基于随机投影的本地差分隐私高维数值型数据收集算法

孙慧中, 杨健宇, 程祥, 苏森

北京邮电大学网络与交换技术国家重点实验室,北京 100876

摘要对满足本地差分隐私的高维数值型数据收集问题进行了研究。设计了一种基于随机投影技术的满足本地差分隐私的高维数值型数据收集算法Multi-RPHM,在满足本地差分隐私的条件下,该算法处理维度较高的数据时能够保证所收集的数据的高效用。从理论上证明了该算法满足ε-本地差分隐私的要求。在合成数据集上进行的实验结果验证了该算法的有效性。

关键词高维数值型数据 ; 隐私保护 ; 本地差分隐私 ; 随机投影

论文引用格式:

孙慧中, 杨健宇, 程祥, 苏森.一种基于随机投影的本地差分隐私高维数值型数据收集算法.  大数据[J], 2020, 6(1):3-11

SUN H Z, YANG J Y,CHENG X, SU S.A high-dimensional numeric data collection algorithm for local difference privacy based on random projection. Big Data Research[J], 2020, 6(1):3-11

1 引言

随着互联网和云计算等信息技术的发展,各种智能设备日益普及,用户的高维数值型数据被许多服务提供商(如谷歌等互联网公司)收集。通过收集用户的高维数值型数据,服务提供商能够分析和挖掘这些数据的价值,以提供更好的用户体验,并增加收益。例如,在推荐系统中,用户的商品评分数据就是一种典型的高维数值型数据,通过收集用户的商品评分数据,服务提供商能够分析商品流行趋势,从而更有效地为用户推荐商品,并且更合理地投放广告,以增加营业额。然而,用户的高维数值型数据中往往包含大量的敏感信息(如兴趣偏好等),如果没有隐私保护,直接对这些数据进行收集可能导致严重的用户隐私泄露问题,进而阻碍商业运营。因此,用户高维数值型数据收集中的隐私问题亟待解决。

隐私保护的数据收集技术为解决数据收集带来的个人隐私泄露问题提供了一种可行的方案。近年来提出的差分隐私(differential privacy,DP)技术是目前比较先进的隐私保护技术。与传统的基于匿名的隐私保护技术(例如,k-匿名和L-多样性)不同,差分隐私技术提供了一种严格的、可证明的隐私保护手段,并且其提供的隐私保护强度并不依赖于攻击者掌握的背景知识。本地差分隐私技术(local differential privacy, LDP)是一种专门解决数据收集导致个人隐私泄露问题的技术,该技术已被应用于众多现实应用软件之中,如Google公司的Chrome浏览器等。该技术的主要思想是每个用户在将自己的真实数据发给数据收集者之前就对其进行加噪处理。由于用户的真实数据始终存储在用户本地,本地差分隐私技术可以有效地避免不可信收集者的恶意攻击,从根本上为用户提供隐私保护。

当前,本地差分隐私技术已被应用于一维或多维分类型数据收集以及多维数值型数据收集中。其中,一种可以用于处理这些问题的简单方案是数据收集者直接调用Multi-HM算法。该算法是当前先进的、满足本地差分隐私的多维数据收集算法, 该算法的基本思路是每个用户从属性集合中随机选取几个属性,并进行加噪处理,然后将加噪后的属性信息发送给数据收集者。然而,运用该算法收集到的数据的准确性受维度高低(即属性个数大小)影响明显,在处理具有较高维度的用户数据时,会导致收集的数据中包含大量的噪声,因此不适用于用户高维数值型数据的收集。为此,本文提出了一种基于随机投影技术的本地差分隐私数据收集算法——Multi-RPHM算法。在该算法中,首先用户基于随机投影技术对自身原始高维数据进行降维,然后数据收集者对降维后的数据进行收集并进行维度还原。直观上,由于数据收集者只需收集低维数据,因此Multi-RPHM 算法能有效降低收集到的数据中包含的噪声,获得较高的数据效用。

2 预备知识与问题定义

2.1 高维数值型数据

用户的高维数值型数据是一种典型的个人数据,由多个数值型属性构成,每个属性反映用户不同方面的信息。特别地,给定一个属性集合,其中,d表示属性数量,Aj代表第j个属性,并且每个属性的取值均为实数。据此,本文将一个用户的高维数值型数据表示为一个元组,其中t[Aj]代表元组t中第j个属性的取值。本文假定所有属性的取值范围均为[-1,1],即t[Aj]∈[-1,1](1≤j≤d)。

2.2 本地差分隐私

本地差分隐私的定义如下。

ε-本地差分隐私:给定一个隐私参数ε,对于一个随机算法M,当且仅当任意两个输入值v、v′和任意一个可能的输出值O∈Ranggee((MM))满足计算式(1),则称算法M满足ε-本地差分隐私。

特别地,对于一系列本地差分隐私算法,整体隐私保护强度满足如下串行机制。

串行机制:给定r 个本地差分隐私算法Mi(1≤i≤r),其中第i个算法Mi满足εi-本地差分隐私,则算法序列Mi(v)满足本地差分隐私。

2.3 问题定义

给定n个用户,其中ui代表第i个用户。每个用户ui拥有的高维数值型数据用元组ti来表示。本文的目标是设计一个满足本地差分隐私的算法,使一个不可信的数据收集者收集到的用户高维数值型数据集与用户的原始数据集{ti|1≤i≤n}具有相同的统计特征。为了便于分析,本文假定所有用户均采用相同的隐私参数ε。

文中常用的符号及说明见表1。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值