CoLink: An Unsupervised Framework for User Identity Linkage

CoLink: An Unsupervised Framework for User Identity Linkage

AAAI2018

摘要

在本文中,我们提出了一个通用的无监督框架CoLink来解决UIL问题。社交网络的个人资料数据可以自然地分为两个独立的视图:属性和关系,这满足了协同训练算法(Blum和Mitchell)的要求1998)。CoLink使用了两个独立的模型,一个基于属性的模型和一个基于关系的模型,以及一个协同训练算法来迭代地增强它们。基于属性的模型和基于关系的模型都是决定两个用户是否链接的二进制分类器。它们可以基于任何机器学习或启发式算法。因此,CoLink作为一个框架可以应用于任何UIL问题,只要用户概要文件包含属性和关系。

 

模型

CoLink框架基于协同训练算法,如算法1所示。在该框架中,我们定义了两个独立的模型:基于属性的模型fatt和基于关系的模型frel

在开始时,需要一个初始的链接对集,即种子集,来启动联合训练过程,该过程可以使用一组种子规则生成。基于属性的模型和基于关系的模型的训练可能需要反例,这取决于它们所使用的算法。算法1中不包括对反例进行采样的过程。

Attribute-based Model

根据用户属性生成候选集用户对

采用sequence-to-sequence 学习不同空间的属性特征映射翻译。

另一种采用SVM。

Relationship-based Model

基于关系的模型仅使用用户关系收集链接对。仅基于关系在两个网络中找到相同的顶点经常被研究为网络对齐问题(Singh, Xu, and Berger 2008;Bayati等,2009;Korula and Lattanzi 2014)。

在给定社交网络Gs和Gt以及链接对集S的情况下,基于关系的模型会发现额外的链接对,其中相似性函数RelSim大于预先设置的阈值。

Co-training

我们通过将关系特性与属性特性分离来进行联合训练。基于属性的模型和基于关系的模型都在每次迭代中发现新的对,然后相互增强。我们保留了图2中每个模型的结果链接对的统计信息。在这个任务中,基于属性的模型比关系模型生成更多的对,因为我们没有完整的LinkedIn关系数据。我们还从公开的LinkedIn个人资料中抓取用户浏览的列表项,这些个人资料仅为每个用户提供不超过10个关系。

我们在基于序列到序列属性的模型中设置了一个似然阈值。阈值是一个百分比,表示有多少训练对高于阈值。

例如,阈值为100%意味着每个训练对都有超过阈值的链接可能性,而阈值为50%则意味着只有50%的训练对超过阈值。然后,通过找到满足所需百分比的最大值来计算绝对阈值.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值