Constructing Dummy Query Sequences to Protect Location Privacy and Query Privacy..

ye6

已于 2023-06-01 14:42:46 修改

阅读量85

点赞数

文章标签： web安全

于 2023-05-31 21:29:43 首次发布

本文链接：https://blog.csdn.net/ye6pipipihou/article/details/130955368

版权

文章标题：Constructing Dummy Query Sequences to Protect Location Privacy and Query Privacy in Location-Based Services

Introduction

LBS是一个很promising的项目，可以为让移动设备用户知道周边可能令他感兴趣的事物。为了获得LBS，移动用户不仅必须报告他们当前的地理位置（即查询位置），还必须报告他们想要知道的查询内容(显然，这些信息是私有的，攻击者不仅可以很容易地推断出用户的发展轨迹（属于位置隐私的类别），而且还可以推断出用户的敏感性偏好（例如，敏感兴趣点，属于查询隐私的类别）。如果私有信息被发布给不可信的第三方（如LBS服务器），这将对移动用户的隐私造成严重威胁。LBS中的用户隐私保护问题正在引起人们越来越广泛的关注，即如何保护LBS中用户的隐私正成为一个越来越重要的问题。【这是一个老问题吧？】

Motivations

之前的方法有四类，分别是假名方法、混淆方法、加密方法和虚拟方法。
在假名方法中，将查询中的用户标识替换为临时假名，以断开用户标识与查询的连接的，坏处是很难抵抗来自数据挖掘的威胁，即可以从查询的位置信息中挖掘出用户身份，此外，它也不能应用于需要身份进行身份验证的系统。
模糊方法的基本思想是对LBS查询中的位置信息进行推广（使用隐身区域）或扰动（使用噪声），使攻击者难以识别确定用户的精确位置。但是，由于每个查询在发送到服务器之前都被修改过，有时会导致查询精度的下降。此外，假名或混淆方法的实现通常依赖于第三方服务器，这导致了效率和隐私性方面的瓶颈。

加密方法的基本思想是对每个用户的查询进行加密，使其对不受信的服务器不可见，从而实现隐私保护的目标(如隐私保护基于私人信息检索)。但是，这种方法通常需要对服务器上现有的LBS算法进行更改，并需要支持额外的硬件和算法，降低了其在实践中的实际可用性。

在基于虚拟的方法中，每个用户查询都与一组虚拟查询一起提交给服务器，从而使不受信任的服务器难以推断出与之相关的位置或属性查询。然而，这种方法的有效性取决于虚拟查询构造的质量，即它很容易受到基于查询特征的推理攻击的威胁分布。

此外，现有的方法通常只考虑位置隐私或查询隐私，而不考虑两者作为一个整体(例如，位置和位置之间的语义关联因此，降低了虚拟查询构造的质量。[只考虑一个因素 - 》同时考虑多一个因素]

综上所述，我们认为，一种能够很好地保护用户隐私的方法应该满足以下要求：
(1)确保每个LBS查询序列背后的隐私性。具体来说，攻击者（不管攻击者已经掌握了什么先验知识）应该很难推断出用户的确切信息，即查询序列中的位置（以保护位置隐私）和用户的敏感属性（以保护查询隐私）。
(2)确保每个LBS查询的准确性，即查询结果中用户获得的最终结果应在引入隐私保护前后保持相同。(3)确保现有LBS的可用性，即隐私保护不应需要更改对服务器端的LBS算法和附加硬件的支持，它应该不会对LBS查询的执行效率产生重大影响。
实际上，对于要求 (2)和(3)，隐私保护方法要求对客户端的移动用户和服务器端的LBS算法都是透明的。
[认为之前的不好，同时提出好的标准]

Contributions

本文旨在提出一种有效的在LBS中同时保护用户的位置隐私和查询隐私的方法，它应能够解决上述所有问题，即针对现有的方法，该方法的主要优点是在不改变LBS算法的约束下，不仅可以保证每个用户查询的准确性和效率t还可以防止不受信任的服务器从查询序列中识别用户位置和敏感属性。具体来说，本文的贡献有三方面。
首先，基于基于客户端的架构，提出了一个LBS隐私保护的系统框架。在该框架中，对于由移动用户发出的每个查询，客户端将构造一组虚拟查询，然后将它们与用户查询一起提交给服务器，这使得不受信任的服务器难以识别用户查询。接下来，客户端将过滤掉LBS结果中对应的伪查询，只将用户查询对应的结果返回给用户，确保了用户最终得到的结果的准确性。

其次，在系统框架的基础上，引入了一个隐私模型来制定理想的虚拟查询序列应满足的要求，即不仅应具有与用户查询序列相似的特征分布，还能掩盖用户查询序列背后的查询隐私和位置隐私。特征相似性使得攻击者很难从所有的查询序列中识别出用户的查询序列。将虚拟查询序列掩盖到查询隐私和位置隐私上，将降低用户隐私在不可信服务器端的暴露程度。

最后，基于上述系统框架和隐私模型，我们实现了一个运行在可信客户端上运行的算法。该算法能很好地满足LBS中用户隐私保护的要求，即可以构建一组符合隐私模型的虚拟查询序列。此外，我们还通过理论分析和实验评价证明了隐私模型及其实现算法的有效性

Problem Statement

以下是这个模型的流程图：
请添加图片描述
该系统模型的数据处理可以简单地描述如下：
步骤1。当每个LBS查询q0=（l0，u0）（其中，l0和u0分别表示一个查询位置和一个查询属性）由用户发出时，“构建虚拟查询”组件运行在a上客户端在考虑了安全性和效率的要求后，利用历史查询序列构建了一组虚拟的LBS查询q1、q2、…，qmy.然后，将虚拟查询与用户查询一起提交到服务器端。
步骤2。在客户端，“过滤查询结果”组件从b返回的所有查询结果r0、r1、r2、…，rm中找出与用户查询q0相对应的结果r0y是服务器上的LBS算法。然后，组件将r0返回给用户，同时丢弃其他查询结果r1、r2、…，rm。
步骤2。在客户端，“过滤查询结果”组件从所返回的所有查询结果r0、r1、r2、…，rm中找出与用户查询q0相对应的结果r0通过服务器上的LBS算法。然后，组件将r0返回给用户，同时丢弃其他查询结果r1、r2、…，rm。
【服务端怎么知道哪个结果是用户真实想要的？好像没解释这个细节】
注意，对于LBS查询，时间信息也很重要（何时、何处以及什么查询被发送到服务器）。在我们的模型中，与每个虚拟查询相关联的时间被设置为近似相等到其对应的用户查询q0。从图1中可以看出，该系统框架可以保证移动用户最终获得的每个LBS结果的准确性，而无需改变对现有的LBS算法和附加硬件的支持。在系统框架中，隐私保护对服务器端的LBS算法和移动用户都是透明的。此外，在系统框架中，同时考虑了移动用户的位置隐私和查询隐私，从而使用户的隐私得到了更好的保护。
从图1中，我们还可以看到，生成的虚拟查询在框架中发挥着重要的作用，即它们的质量是LBS隐私保护的关键，应该能够有效地混合移动用户的真实查询位置和属性。

但是，随机生成的虚拟查询通常很容易被掌握了丰富的背景知识的攻击者所利用，因此无法保护用户的隐私。这主要是由三个原因引起的：
(1)移动用户的位置查询序列（或属性查询序列）具有一定的规律性。例如，同一用户在一段时间内发出的查询经常发生在s中在一些固定的位置区域（例如，靠近用户的房子或公司）
(2)在位置和来自同一查询的属性之间存在一些语义关联。例如，来自农村的位置通常不能支持查询它们附近的地铁站。因此，攻击者很容易排除虚拟查询。
(3)生成的虚拟查询本身也有可能揭示用户的隐私，例如，虚拟位置应与用户位置保持安全距离（以保护位置隐私），且虚拟属性应与敏感类别无关（以保护query的隐私)。否则，攻击者可以直接知道用户的隐私。

由此可见，我们得出结论，由客户端隐私算法构建的虚拟查询序列应满足以下要求： (1)隐藏que移动用户的属性，即具有相似的特征分布(具体包括位置特征分布、属性特征分布和语义相关性特征分布在位置和属性之间)，使攻击者难以排除虚拟查询序列；(2)掩盖位置隐私和吸引力e移动用户的隐私，即虚拟查询不仅应该在语义上与敏感属性类别无关，而且还应该位于距离真实查询位置的安全距离上一个移动用户的数量。此外，在系统模型中，虚拟查询是基于用户查询构建的，这可能会在某种程度上泄露用户信息(例如，一些特征)，但我们认为只有位置或查询隐私本身是敏感的，需要受到保护。

在图1的系统框架中，服务器端不可信，被认为是最大的潜在攻击者，所以我们假设攻击者具有以下能力。
(1)攻击者已经从客户端获得了所有的查询序列（包括移动用户提交的真实查询序列和由我们的方法构建的虚拟查询序列），因此他可以通过分析位置查询序列的特征分布、属性查询序列的特征分布以及两者之间的语义关联来猜测用户的查询序列查询位置和查询属性。
(2)攻击者已经掌握了丰富的背景知识，如全球地理信息（包括所有的位置及其特征）和查询属性的范围。
(3)攻击者也可能知道部署在客户端上的隐私算法的存在，并获得该算法的副本。但是，攻击者应该满足以下要求的假设。
攻击者能够将用户查询序列Q0与虚拟序列Qk区分开来的概率P r（Q0 |Qk，Q0）与特征相似性sim（Qk，Q0）呈反比，即：
请添加图片描述

4 Proposed Approach

4.1 Privacy Model

首先，文章研究了位置隐私保护的问题。由于同一个用户的地理位置是存在规律性的，因此通过用户的行动轨迹可以直接定位到一个用户。因此，我们需要考虑位置频率特征，以构建高质量的虚拟查询位置。
接着，文章进行了以下定义：
请添加图片描述
这里解释了为什么不使用余弦相似度，因为这个指标对向量的元素值不敏感，而广义Jaccard相似度能考虑到。
除了位置出现频率外，两个相邻查询位置之间的距离也是反映移动用户移动模式的一个重要特征。攻击者很容易来找出任何两个位置之间的距离，因为他已经掌握了全球地图信息。因此，我们还需要考虑距离转移特性提取虚拟查询位置。
请添加图片描述

接下来给出了地理位置隐私的定义，大致意思就是用户地点序列的地点频率特征和地点转移特征应该和虚拟查询中对应特征相似，并且，用户真实地点与虚拟查询中的地点应该保持“安全距离”

然后，相似的套路，针对用户查询中的地点属性序列，又延续了上面地点位置的流程。之所以这样做是因为同一用户的偏好是可以通过统计查询属性序列中的出现频率来体现的。请添加图片描述

在这部分，文章又进一步区分了两个概念，即attribute和category，举个栗子就是，如家和酒店的区别，后者更加具有概括性。因此文章也把category纳入特征考虑。
请添加图片描述
与查询位置不同的是，并非所有的查询属性都是敏感的，需要得到保护，而且不同的用户往往具有不同的敏感属性。因此，文章引入了一个概念敏感属性类别，以允许用户预先分配需要被保护的敏感属性类别(即，属于这些类别的所有属性都是敏感的)。下面，用户敏感的属性类别用G∗表示。此外，对于用户查询序列中的非敏感属性，文章不再为它们构建虚拟查询属性。
接下来，文章首先定义一个属性类别的重要性，然后定义用户属性的隐私性。
请添加图片描述
接下来，文章进一步考虑到用户的查询地点与查询属性两者之间不是相互独立的，而是相互之间存在联系，比如查询北京某地的地铁是合理的，而在某些没有地铁的城市是不太可能的。因此，文章又进一步提出了LBS privacy
请添加图片描述

4.2 Implementation Algorithm

下面两张图分别是根据非空查询序列和空查询序列构建一个新的虚拟查询的方法。
在为当前用户查询构建虚拟查询时，文章不考虑后续用户查询的虚拟查询构造。此外，在隐私模型中，相似性针对查询序列设计了阈值θ1和θ3，算法为单个查询设计，因此该算法引入了4个新的相似度阈值d1、d2、d3和d4(来代替θ1和θ3)，这可以根据θ1和θ3进行估计。另外，在最坏的情况下（即在第4行，我们需要获得地图中的所有位置），算法1的时间复杂度等于O（|L#|），其中L#表示地图中的所有位置。
请添加图片描述
当没有历史记录的时候，我们不再需要考虑位置频率、位置转移、属性频率和类别频率等特征，只需要考虑如何构建一个当前用户查询对应的虚拟查询，它与用户位置有安全距离，与用户敏感类别无关。此外，还可以看出，算法2的输出也是不确定的，从而更好地保证了安全性。在最坏的情况下，算法2的时间复杂度等于O（|L#|）。
请添加图片描述
从定义5和定义11中，我们知道隐私参数µ表示用户想要构建的虚拟位置序列的数量，参数ρ表示构建属性序列的数量，如果sig（g∗，U*）=0。因此，算法1或算法2用来构建一个虚拟查询集的运行时间应该近似等于最大值（µ，ρ）。

4.3 Security Analysis

从系统模型中可以看出，在LBS查询过程中，用户查询出现在查询集中的顺序是随机的。但是，攻击者可以根据对由服务器记录的历史查询序列的位置和属性特征的分析，对每个查询进行分类，以知道哪些查询属于同一序列（即重新排列所有查询，形成几个独立的序列）。
下面，文章将讨论攻击者可以根据收集到的LBS查询序列Q =（L，U）推断出什么关于用户位置或敏感属性吗？
请添加图片描述
根据第3.2节中的攻击模型，攻击者可以根据先验知识来猜测用户查询序列的特征分布是特定的。然而，每个虚拟序列用我们的方法构造的Qk∈Q与用户序列Q0具有高度相似的位置和属性特征分布，即Qk和Q0之间的特征相似度大于θ1。因此，基于θ1和θ3的含义，我们知道根据位置或属性特征Qk不能与Q0相区分开来。此外，由于具有丰富的先验知识，攻击者可以根据位置和属性之间的语义关联进行猜测。然而，对于每个虚拟序列Qk、来自同一查询的虚拟位置和虚拟属性都能很好地相互匹配，即攻击者无法根据语义关联识别出Qk。综上所述，我们得出结论，攻击者能够区分虚拟查询序列中的用户查询的概率等于1/（1 + |Q|）
基于备注1和攻击模型，我们可以得出结论，我们的方法可以抵抗一些现有的位置隐私攻击，如串通攻击和推理攻击。

具体论证可以看论文，大致意思是文章的方法的安全性依赖于所构建的伪查询序列的质量，即伪查询序列是否有效地隐藏用户查询序列（Level I隐私），以及虚拟查询序列是否能有效地掩盖用户查询序列背后的位置隐私和查询隐私(Level II隐私)。

5 Experiment Evaluation

实验分为两个部分：
(1)第一部分评价虚拟查询序列与用户查询序列的特征分布相似性；
(2)第二部分评价虚拟查询序列掩盖用户的位置隐私和查询隐私的有效性。

5.1 Experimental Setup

(1) Reference dataset
snap中的Gowalla数据集；Gowalla是一个基于位置的在线社交网络应用程序，用户通过签入应用程序来共享他们当前的位置，所以每个签到记录都包括用户名、时间、位置(纬度、经度等）
(2) User query sequences.
为了生成用户查询序列Q0，我们需要构造一个位置序列l0和一个属性序列U0。在这里，每个位置序列L0都是从Gowalla的签到数据中选择的。B例如，我们将展示如何构造属性序列U。首先，我们预先为每个属性类别随机分配属性（平均每个类别有40个属性）。第二，要解释的是t每个属性的u0i。我们根据标准正态分布从所有预设类别中随机选择u0i的属性类别gi0，然后从所有预设的属性值中根据均匀分布随机选择u0i的属性值。

(3) Algorithm candidates.
在实验中，使用了以下四种基于虚拟的候选算法： (1)privacy，即本文提出的方法；(2)privacyLS[9]，它构建虚拟查询来保护t通过考虑位置频率特征来实现位置隐私；(3) PrivacyQS [31]，它通过考虑查询上下文来构建虚拟查询来保护查询的隐私；和(4)随机(使用d作为基线)，它使用一种随机的方式来构造虚拟位置和虚拟属性。在实验中，我们没有使用相关工作部分中提到的其他算法进行比较因为它们是在不同的隐私模型下设计的（即，假名、混淆或加密），所以它们与我们的方法是不好比较的；

5.2 Feature Distribution Similarity

对于每个算法得出的候选A，其位置特征相似性度量可以表示为:
请添加图片描述
同样，基于定义7和定义9，为候选A定义了属性特征相似性度量:simFu(A), simGr(A) and simAtt(A)
候选A的位置和属性相关性度量如下:

请添加图片描述
实验结果如下：
文章分析Fig2因为PrivacyLS只考虑了位置频率特性，而没有考虑位置传输特性，所以效果会更差，而Fig3中因为PrivacyQS没有考虑类别频率特征。最后，从图4中，我们还可以看到，由文章方法或PrivacyQS构建的虚拟查询序列在位置和属性之间具有良好的相关性（均接近1.0）；和那些来自随机或隐私者表现出较差的相关性，因为它们没有考虑位置和属性的相关性特征。
请添加图片描述
由此可见，我们得出结论，由我们的方法构建的虚拟查询序列与用户查询序列具有高度相似的特征分布（接近1.0），即通过我们的方法构建的虚拟查询序列可以有效地隐藏用户查询序列。

5.3 Privacy Exposure Degree

第二组实验的目的是评估由文章的方法产生的虚拟查询序列来掩盖用户序列背后的位置隐私和属性隐私的有效性。
请添加图片描述
从图5中也可以看出，PrivacyQS在位置隐私安全方面表现最差（等于0），因为a方法没有考虑到位置隐私问题（即每个虚拟位置序列与其对应的用户位置查询序列相同）。
此外，还可以看出，由PrivacyQS或Random构建的虚拟查询序列也可以降低敏感属性类别的暴露程度，但本文提出的方法更好。这是因为这两种算法在构建虚拟属性序列时都没有从非敏感类别中选择虚拟属性。此外，PrivacyLS对属性隐私保护的效果最差，因为该方法没有考虑到属性隐私问题。

6 Conclusion

定位服务（LBS）已经成为人们日常生活的重要组成部分。然而，LBS在为用户提供了很大的便利，同时也导致了严重的个人隐私问题，即地点隐私和查询隐私。为此，本文提出了一种在基于位置的服务（LBS）中保护用户个人隐私的方法，其基本思想是构建虚拟的query序列来掩盖用户的位置和属性，进而在LBS中保护用户的个人隐私。首先，我们使用了一个基于客户端的系统框架，这不仅不需要改变现有的LBS算法，而且也不需要影响LBS查询的准确性。其次，在此框架的基础上，我们引入了一个隐私模型来制定理想的虚拟查询序列应该满足的约束条件。第三，我们提出了一种实现算法来构造能够满足隐私模型的虚拟查询序列。
最后，理论分析和实验评价都证明了该方法的有效性：
(1)该方法构建的虚拟查询序列可以有效地隐藏该算法用户查询，即与用户查询序列具有高度相似的特征分布，包括位置序列的特征、属性序列的特征和相关性特征因此，攻击者很难排除虚拟查询的可能性；
(2)由该方法构造的虚拟查询序列可以有效地实现掩盖用户的查询隐私和位置隐私，即它们不仅在语义上与用户敏感属性类别无关，而且与用户位置距离很远；
(3)不会对运行效率造成严重的性能开销。因此，我们认为我们的方法可以有效地保护LBS中的用户隐私。
综上所述，本文对在LBS中保护用户隐私提出了一个有价值的研究尝试。我们的研究的主要理论和实践意义是提出一种有效的方法该方法在LBS中保护用户的位置隐私和查询隐私，并与现有的其他工作相比，可以保证用户LBS在非可信服务器上的隐私的安全性-方面，不危及每个LBS查询的可用性、准确性和效率。因此，我们的方法很容易与现有的LBS应用程序集成，也就是说，我们的方法已经集成好了这对一个保护隐私的LBS应用程序的建设产生了积极的影响。然而，对于所提出的方法的实际应用，我们仍然有一些局限性，需要进一步推进研究和解决，例如，由于LBS应用有各种形式（例如，移动终端），我们需要研究如何实现我们的方法和每种应用之间的无缝连接。

ye6

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Constructing Dummy Query Sequences to Protect Location Privacy and Query Privacy..

文章标题：Constructing Dummy Query Sequences to Protect Location Privacy and Query Privacy in Location-Based Services。
复制链接

扫一扫