一种基于随机投影的本地差分隐私高维数值型数据收集算法

最新推荐文章于 2024-03-10 23:13:19 发布

唐名威

最新推荐文章于 2024-03-10 23:13:19 发布

阅读量1.6k

点赞数 1

本文链接：https://blog.csdn.net/weixin_45585364/article/details/104528953

版权

本文提出了一种基于随机投影的Multi-RPHM算法，解决了本地差分隐私下高维数值型数据收集的问题。在满足ε-本地差分隐私的前提下，该算法通过降维处理降低噪声，提高了数据效用，尤其在处理高维度数据时表现优越。实验验证了算法的有效性和准确性，与传统Multi-HM算法相比，Multi-RPHM在高维数据上的误差更低，具有更好的可扩展性。

摘要由CSDN通过智能技术生成

一种基于随机投影的本地差分隐私高维数值型数据收集算法

孙慧中, 杨健宇, 程祥, 苏森

北京邮电大学网络与交换技术国家重点实验室，北京 100876

摘要：对满足本地差分隐私的高维数值型数据收集问题进行了研究。设计了一种基于随机投影技术的满足本地差分隐私的高维数值型数据收集算法Multi-RPHM，在满足本地差分隐私的条件下，该算法处理维度较高的数据时能够保证所收集的数据的高效用。从理论上证明了该算法满足ε-本地差分隐私的要求。在合成数据集上进行的实验结果验证了该算法的有效性。

关键词：高维数值型数据 ; 隐私保护 ; 本地差分隐私 ; 随机投影

金属质感分割线

论文引用格式：

孙慧中, 杨健宇, 程祥, 苏森.一种基于随机投影的本地差分隐私高维数值型数据收集算法. 大数据[J], 2020, 6(1）：3-11

SUN H Z, YANG J Y,CHENG X, SU S.A high-dimensional numeric data collection algorithm for local difference privacy based on random projection. Big Data Research[J], 2020, 6(1):3-11

金属质感分割线

1 引言

随着互联网和云计算等信息技术的发展，各种智能设备日益普及，用户的高维数值型数据被许多服务提供商（如谷歌等互联网公司）收集。通过收集用户的高维数值型数据，服务提供商能够分析和挖掘这些数据的价值，以提供更好的用户体验，并增加收益。例如，在推荐系统中，用户的商品评分数据就是一种典型的高维数值型数据，通过收集用户的商品评分数据，服务提供商能够分析商品流行趋势，从而更有效地为用户推荐商品，并且更合理地投放广告，以增加营业额。然而，用户的高维数值型数据中往往包含大量的敏感信息（如兴趣偏好等），如果没有隐私保护，直接对这些数据进行收集可能导致严重的用户隐私泄露问题，进而阻碍商业运营。因此，用户高维数值型数据收集中的隐私问题亟待解决。

隐私保护的数据收集技术为解决数据收集带来的个人隐私泄露问题提供了一种可行的方案。近年来提出的差分隐私（differential privacy，DP）技术是目前比较先进的隐私保护技术。与传统的基于匿名的隐私保护技术（例如，k-匿名和L-多样性）不同，差分隐私技术提供了一种严格的、可证明的隐私保护手段，并且其提供的隐私保护强度并不依赖于攻击者掌握的背景知识。本地差分隐私技术（local differential privacy， LDP）是一种专门解决数据收集导致个人隐私泄露问题的技术，该技术已被应用于众多现实应用软件之中，如Google公司的Chrome浏览器等。该技术的主要思想是每个用户在将自己的真实数据发给数据收集者之前就对其进行加噪处理。由于用户的真实数据始终存储在用户本地，本地差分隐私技术可以有效地避免不可信收集者的恶意攻击，从根本上为用户提供隐私保护。

当前，本地差分隐私技术已被应用于一维或多维分类型数据收集以及多维数值型数据收集中。其中，一种可以用于处理这些问题的简单方案是数据收集者直接调用Multi-HM算法。该算法是当前先进的、满足本地差分隐私的多维数据收集算法，该算法的基本思路是每个用户从属性集合中随机选取几个属性，并进行加噪处理，然后将加噪后的属性信息发送给数据收集者。然而，运用该算法收集到的数据的准确性受维度高低（即属性个数大小）影响明显，在处理具有较高维度的用户数据时，会导致收集的数据中包含大量的噪声，因此不适用于用户高维数值型数据的收集。为此，本文提出了一种基于随机投影技术的本地差分隐私数据收集算法——Multi-RPHM算法。在该算法中，首先用户基于随机投影技术对自身原始高维数据进行降维，然后数据收集者对降维后的数据进行收集并进行维度还原。直观上，由于数据收集者只需收集低维数据，因此Multi-RPHM 算法能有效降低收集到的数据中包含的噪声，获得较高的数据效用。

2 预备知识与问题定义

2.1 高维数值型数据

用户的高维数值型数据是一种典型的个人数据，由多个数值型属性构成，每个属性反映用户不同方面的信息。特别地，给定一个属性集合，其中，d表示属性数量，Aj代表第j个属性，并且每个属性的取值均为实数。据此，本文将一个用户的高维数值型数据表示为一个元组，其中t[Aj]代表元组t中第j个属性的取值。本文假定所有属性的取值范围均为[-1,1]，即t[Aj]∈[-1,1]（1≤j≤d）。

2.2 本地差分隐私

本地差分隐私的定义如下。

ε-本地差分隐私：给定一个隐私参数ε，对于一个随机算法M，当且仅当任意两个输入值v、v′和任意一个可能的输出值O∈Ranggee((MM))满足计算式（1），则称算法M满足ε-本地差分隐私。

特别地，对于一系列本地差分隐私算法，整体隐私保护强度满足如下串行机制。

串行机制：给定

最低0.47元/天解锁文章

唐名威

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
一种基于随机投影的本地差分隐私高维数值型数据收集算法

一种基于随机投影的本地差分隐私高维数值型数据收集算法孙慧中,杨健宇,程祥,苏森北京邮电大学网络与交换技术国家重点实验室，北京 100876摘要：对满足本地差分隐私的高维数值型数据收...
复制链接

扫一扫