论文笔记:Effective and Efficient User Account Linkage Across Location Based Social Networks

Effective and Efficient User Account Linkage Across Location Based Social Networks

摘要:

本文提出了一种基于核密度估计(KDE)的方法,通过缓解用户相似性测量中的数据稀疏性问题来提高精度。为了提高效率,我们开发了一种基于网格的结构来组织位置数据以修剪搜索空间。

介绍:

随着GPS可定位设备的普及,位置数据的数量越来越多,并且位置数据的来源也更加广泛。最近,新兴的基于位置的社交网络(LBSN)生成了更多的位置数据,例如Foursquare,Twitter和Instagram。许多用户已在这些平台上注册了帐户,并发布了与位置信息相关的状态,称为"签到"。与其他在线活动相比,例如评论,标记和关注,"签到"通过地理数据弥合了现实世界与虚拟世界之间的差距。对签到数据的研究提供了一个前所未有的机会来分析用户的真实世界行为,并可能改善各种基于位置的服务。从商业角度来看,这种扩展的信息将使许多位置感知应用程序受益,例如地图,跨域推荐和广告。因此,跨基于位置的社交网络链接用户帐户引起了越来越多的关注。然而,尽管这项研究意义重大,但随之而来的不可避免的问题给这项工作带来了巨大的挑战。
挑战:
数据稀疏:首先,每个用户生成的签到记录的数量相当有限。其次,签到数据的空间跨度极大。第三,连续签到之间的时间跨度通常很大。
数据缺失:用户可能只选择一个平台在场地或地点参加活动后发布签到,而不选择其他平台。
负面巧合:不同的用户同时出现在相同的流行地点
解决:
对于数据稀疏问题,提出了一种基于核密度估计(KDE)的方法,可以准确表征个人签到活动的空间模式,然后根据其空间模式执行用户帐户链接,灵感来自。虽然 KDE 能够缓解数据稀疏性,但这种方法本身就很耗时
基于网格的 KDE 带来的另一个好处是缓解了数据缺失的问题。这是因为尽管用户经常在不同的社交网络平台上发布不同的签到活动,但他/她在每个平台上生成的签到记录的空间分布(例如,单元分布)往往彼此相似。
为了应对第三个挑战,我们为位置和网格单元设计了一个基于熵的权重方案,以减少负重合的影响。

问题定义:

问题制定。给定两组用户帐户 U1 = {u1_1, u1_2, · · · u1_m} 和 U2 = {u2_1, u2_2, · · · u2_n} 在两个基于不同位置的社交网络上,其中每个用户帐户都与一组签到记录相关联,我们的目标是从 {(u1_i, u2_j)|u1_i ∈ U1、 u2_j ∈ U2} 中识别同一用户的所有帐户对 (u1_i, u2_j)。
现有研究 [10] 侧重于最大化二分图上的加权匹配,以返回链接的用户帐户对,其中|U1|= |U2|对于 U1 中的每个用户帐户 u1_i,将返回 U2 中的一个且只有一个用户帐户 u2_j,即 U1 和 U2 之间的映射是一对一的。但是,实际上,不同的平台通常具有不同数量的用户,并且用户帐户之间的映射可能是多对多的,因为某些用户可能在单个平台上拥有多个帐户。与他们的工作相比,我们论文研究的问题更具普遍性和实用性,这体现在以下两个方面。首先,我们的问题涵盖了|U1|!= |U2|,即不同平台上的用户帐户数量可以不同。其次,在 U1 中给定一个用户帐户 u1i,我们的问题旨在返回所有可能与 u1_i 匹配的用户帐户 u2_j.

模型的最初直觉:给定同一用户在两个不同 LBSN 上的两个用户帐户 u1i 和 u2j,即使用户在这两个平台上发布不同的签到,他/他在两个 LBSN 上生成的签到记录的空间分布也是相似的。

展开介绍KDE模型:

基于距离两个用户之间的相似度函数定义:

在这里插入图片描述
划分网格:

在这里插入图片描述

每个用户的表示:(就是轨迹的网格点和和该网格在该用户签到数据中出现的频次)

G(u) = 在这里插入图片描述
其中: N(gi) 表示该用户签到数据集合(分用户,不同用户是不一样的)中落在网格gi中的次数

例如:G(u1) = {(2, 0.2), (73, 0.2), (88, 0.4), (38, 0.2)};G(u2) = {(24, 0.2), (73, 0.2), (78, 0.4), (38, 0.2)}
基于网格的用户相似度函数的定义
在这里插入图片描述
与 KDE 的朴素评估相比,网格表示是一种粗粒度方法,其中网格单元格是可能包含许多点的基本单位。请注意,使用网格表示实现KDE能够:减少内核函数评估的数量;并缓解数据缺失问题。(为什么能缓解数据缺失的问题?回:个人的移动性通常集中在不同的个人地理区域,并且用户访问这些区域的概率在两个LBSN之间往往相似)
优化
为了进一步提高KDE评估的效率,我们提出了一种修剪策略,以显着减少单元对比较的数量,并避免对内核函数的密集评估。
在计算上面的公式5的时候,首先构造一个以网格单元 g1i 为中心的正方形区域,在计算函数 f(·) 中只考虑正方形区域内的单元格 g2j,因为 u2 的其他网格单元远离 g1i,其效果或贡献可以忽略不计。方形区域由k×k个网格单元组成,中心位于g1i,我们的方法在实验中k = 3时实现了最佳性能。

给不同的网格加不同的权重:
利用信息论中熵的概念,作者提出了2种不同的权重方法:
基于香农熵的网格权重:
在这里插入图片描述
熵的值越高,表示该网格的流行度越高,可辨别性越低。因此,网格的权重定义如下:
在这里插入图片描述
于是,重新定义高斯核函数和相似度函数:
在这里插入图片描述
与公式5中的相似度函数不同,公式9的相似度函数,不仅考虑了网格的置信度,同时也考虑了网格在所有用户轨迹中的流行度。如果只考虑置信度,大多数用户经常访问的流行网格单元将比个人专用单元发挥更重要的作用。而公式9的相似度函数将高度重视异常值,这些异常值在时空数据库中很普遍,并且碰巧被少数用户访问。异常值的大权重也给用户帐户联动带来了巨大挑战。只有同时考虑置信度和权重才能获得良好的性能:具有高置信度的常用网格像元将分配较小的权重,而权重较大的异常值将倾向于具有较小的置信值。

基于仁义熵的网格权重:(GCRE)
仁义熵是香农熵的广义版本:
在这里插入图片描述
其中参数q可以挑战对于不同的N(g)有不同的惩罚:(实验中q=0.1)
q>1:奖励高的N(g)。表示用户ui在网格g出现的次数
q<1:惩罚高的N(g)
q=1:极限等于香农熵的情况

根据仁义熵,网格单元权重ω(g)的新定义:
在这里插入图片描述
GCRE算法流程:
在这里插入图片描述

实验部分:
数据集:
在这里插入图片描述
不同的KDE的区别:在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值