文章主要思想
两个实体没有共享的相同的邻居,但是如果二者的邻居越相似,那么这两个实体应该是更加相似的。(但是论文里好像不是这么做的呀,主要的还是用的相同的实体)
一些基本的定义
异质信息网络(HIN):一个图,实体集合映射一个类型集合上,关系集合映射到一个类型集合,其中实体或者关系的类型集合的种类大于1。
网络模式(network schema):将网络映射之后的类型集合构成的。
meta-path:一条路径,从一个实体类型到达另一个实体类型,其中这是定义在网络模式上的路径,是一个抽象的路径。
对称的meta-path:如果关系R是对称的,可以表示成,我们说路径,是meta-path的一个实例,是一条实体到实体的路径。
交换矩阵(commuting matrix):矩阵中的第i行第j列元素代表着对象i和对象j之间的路径实例的个数。
PathSim :对称的meta-path
KnowSim:给定一个对称的meta-path的集合,增加了每个meta-path的权重。
文章自己的模型
1 邻居meta-path的相似度:给定两个实体i和j,由meta-path连接,如果他们的交换矩阵元素大于0,二者的相似度是正的,否则相似度是0.
直观的意思是,如果二者的meta-path的实例越多,二者就越相似。考虑一个文档网络,包含两种实体,文档和文字。然后如果meta-path为Document-Word-Document,相似度为:
限制:它只能捕获两个邻居之间的相似度,当二者的meta-path路径的实例存在时。然而,在很多现实的网络中,存在两个实体是遥远的实体,就是二者不存在meta-path的实例,但是它们之间也应该具有相似度。比如:meta-path为D-Athlete-D
Distant Meta-Path Similarity
远的meta-path相似度:
直观的感受是具有相同类型的两个实体的相似邻居实体越多,两个实体的相似性就越大。一个最简单的方法就是使用它们互相重叠的部分去计算相似性。
我自己的理解,如下图所示:
图有点简陋,就是中间的作为一个桥梁。然后定义了很多相似度的计算方法,不详细描述了。