文章目录
前言
本章重点着眼于手工设计无向图(因为其简便易处理)三种数据(节点、边、图)层次上的特征来做预测问题。
一、传统基于节点特征方法:
1.1、节点的度 Node degree
节点v的度数 k v k_v kv是节点的边的数目,所有的邻接的节点都要平等对待。
1.2、节点中心性 Node centrality
节点度计算相邻节点,而不考虑它们的重要性。节点中心性 c v c_v cv考虑了节点在图中的重要性。还有不同的衡量节点重要性的建模方法:
1.2.1、特征向量中心 Eigenvector centrality:
核心思想:如果节点邻居重要,那么节点本身也重要。因此节点v的centrality是邻居centrality的加总: c v = 1 λ ∑ u ∈ N ( v ) c u c_v =\frac{1}{\lambda }\sum_{u\in N(v)}c_u cv=λ1∑u∈N(v)cu ( λ \lambda λ是某个正的常数)。这是个递归式,解法是将其转换为矩阵形式: λ c = Ac \lambda \textbf{c} =\textbf{Ac} λc=Ac,其中A是邻接矩阵,c是centralty向量。
1.2.2 中间性中心 Betweenness centrality:
核心思想:认为如果一个节点处在很多节点对的最短路径上,那么这个节点是重要的。计算公式如下:
1.3、聚类系数 Clustering coefficient
认为如果一个节点距其他节点之间距离最短,那么认为这个节点是重要的。计算公式如下:
这种 ( k v 2 ) \binom{k_v}{2} (2kv)是组合数的写法,和国内常用的C写法上下是相反的。所以这个式子代表 v邻居所构成的节点对,即潜在的连接数。整个公式衡量节点邻居的连接有多紧密’
- 第1个例子:对于节点v来说,邻居节点一共有4个,这4个邻居节点构成了6条边,他们所有可能构成的边为 C 2 4 = 4 ∗ 3 2 = 6 C^4_2=\frac{4*3}{2}=6 C24=24∗3=6 ,因此其聚类系数为 e v = 6 / 6 = 1 e_v=6/6=1 ev=6/6=1
- 第2个例子:对于节点v来说,邻居节点一共有4个,这4个邻居节点构成了3条边,他们所有可能构成的边为 C 2 4 = 4 ∗ 3 2 = 6 C^4_2=\frac{4*3}{2}=6 C24=24∗3=