CoLink: An Unsupervised Framework for User Identity Linkage
AAAI2018
摘要
在本文中,我们提出了一个通用的无监督框架CoLink来解决UIL问题。社交网络的个人资料数据可以自然地分为两个独立的视图:属性和关系,这满足了协同训练算法(Blum和Mitchell)的要求1998)。CoLink使用了两个独立的模型,一个基于属性的模型和一个基于关系的模型,以及一个协同训练算法来迭代地增强它们。基于属性的模型和基于关系的模型都是决定两个用户是否链接的二进制分类器。它们可以基于任何机器学习或启发式算法。因此,CoLink作为一个框架可以应用于任何UIL问题,只要用户概要文件包含属性和关系。
模型
CoLink框架基于协同训练算法,如算法1所示。在该框架中,我们定义了两个独立的模型:基于属性的模型fatt和基于关系的模型frel
在开始时,需要一个初始的链接对集,即种子集,来启动联合训练过程,该过程可以使用一组种子规则生成。基于属性的模型和基于关系的模型的训练可能需要反例,这取决于它们所使用的算法。算法1中不包括对反例进行采样的过程。
Attribute-based Model
根据用户属性生成候选集用户对
采用sequence-to-sequence 学习不同空间的属性特征映射翻译。
另一种采用SVM。
Relationship-based Model
基于关系的模型仅使用用户关系收集链接对。仅基于关系在两个网络中找到相同的顶点经常被研究为网络对齐问题(Singh, Xu, and Berger 2008;Bayati等,2009;Korula and Lattanzi 2014)。
在给定社交网络Gs和Gt以及链接对集S的情况下,基于关系的模型会发现额外的链接对,其中相似性函数RelSim大于预先设置的阈值。
Co-training
我们通过将关系特性与属性特性分离来进行联合训练。基于属性的模型和基于关系的模型都在每次迭代中发现新的对,然后相互增强。我们保留了图2中每个模型的结果链接对的统计信息。在这个任务中,基于属性的模型比关系模型生成更多的对,因为我们没有完整的LinkedIn关系数据。我们还从公开的LinkedIn个人资料中抓取用户浏览的列表项,这些个人资料仅为每个用户提供不超过10个关系。
我们在基于序列到序列属性的模型中设置了一个似然阈值。阈值是一个百分比,表示有多少训练对高于阈值。
例如,阈值为100%意味着每个训练对都有超过阈值的链接可能性,而阈值为50%则意味着只有50%的训练对超过阈值。然后,通过找到满足所需百分比的最大值来计算绝对阈值.