Python复杂网络实战：链路预测_复杂网络链路预测-CSDN博客

本文链接：https://blog.csdn.net/weixin_47362565/article/details/146111572

1 基本信息

1.1 定义

链路预测是基于网络的结构特征、节点属性等信息，运用各种算法和模型，对网络中尚未存在但有可能出现的链路（边）进行预测的过程。例如在社交网络中，预测哪些用户之间可能会成为好友；在生物网络中，预测哪些蛋白质之间可能存在相互作用等。

1.2 主要方法

共同邻居相关方法

共同邻居法：基本假设是两个节点的共同邻居越多，它们之间建立连接的可能性就越大。例如在社交网络中，两个人有很多共同朋友，那么他们成为朋友的概率相对较高。

Jaccard 相似性方法：关注两个节点的共同邻居在它们所有邻居中所占的比例，比例越高，越有可能存在连接。

Adamic - Adar 指数法：同样基于共同邻居，但对度数较低的共同邻居赋予更高的权重，认为低度共同邻居更能体现节点间的相似性和连接可能性。

路径分析方法

最短路径法：通过计算节点之间的最短路径长度来预测链路。一般来说，最短路径越短，节点之间的联系越紧密，存在潜在链路的可能性越大。

Katz 指数法：考虑了节点之间所有可能长度的路径，对不同长度的路径赋予不同的权重，综合评估节点间的连接可能性。

中心性方法

度中心性：度中心性衡量的是节点的直接连接数量。具有较高度中心性的节点更有可能与其他节点建立新的连接，因为它们有更多的连接机会和资源。

介数中心性：介数中心性反映了一个节点在网络中控制信息流动的能力。处于许多最短路径上的节点（即具有较高介数中心性的节点）可能对其他节点之间的连接有较大影响，也更有可能与其他重要节点建立新的链路。

基于节点属性的方法

属性相似性方法：直接比较节点的属性值，计算它们的相似性。例如在社交网络中，年龄、性别、职业、兴趣爱好等属性相似的用户更有可能建立联系。

主题模型方法：通过主题模型挖掘节点属性中的潜在主题，基于节点在主题上的分布来判断它们的相似性和连接可能性。比如在学术网络中，研究相似主题的学者更可能有合作关系。

基于机器学习的方法

有监督学习方法

特征工程：从网络结构和节点属性中提取大量特征，如节点的度、聚类系数、共同邻居数量等，将这些特征组合成特征向量。

分类算法：使用逻辑回归、支持向量机、决策树等分类算法，以已知连接的节点对为正样本，未连接的节点对为负样本进行训练，构建预测模型。

无监督学习方法

相似性度量：基于网络结构或节点属性计算节点对之间的相似性，如余弦相似度、欧式距离等。

聚类算法：通过聚类算法将节点划分为不同的簇，假设同一簇内的节点更有可能存在连接，不同簇之间的连接可能性较低。

基于深度学习的方法

图卷积网络（GCN）：将卷积操作推广到图结构数据上，通过聚合节点及其邻居的特征信息来学习节点的嵌入表示，然后基于这些表示进行链路预测。

图自编码器（GAE）：利用自编码器的结构，将图结构数据编码为低维的嵌入向量，再通过解码器重构图的连接信息，根据重构的结果进行链路预测。

2 基于共同邻居相关法的链路预测Python代码

2.1 代码

import networkx as nx

# 创建一个简单的图
G = nx.Graph()

# 添加节点
nodes = [1, 2, 3, 4, 5]
G.add_nodes_from(nodes)

# 添加边
edges = [(1, 2), (2, 3), (3, 4), (4, 5)]
G.add_edges_from(edges)

# 生成所有可能的节点对
all_pairs = [(u, v) for u in G.nodes() for v in G.nodes() if u < v]

# 过滤掉已经存在的边
non_existing_edges = [pair for pair in all_pairs if not G.has_edge(*pair)]

# 计算共同邻居数量
common_neighbors_scores = []
for u, v in non_existing_edges:
    common_neighbors = len(list(nx.common_neighbors(G, u, v)))
    common_neighbors_scores.append((u, v, common_neighbors))

# 按共同邻居数量排序
common_neighbors_scores.sort(key=lambda x: x[2], reverse=True)

# 打印预测的链路
print("预测的链路（按共同邻居数量排序）：")
for u, v, score in common_neighbors_scores:
    print(f"节点 {u} 和节点 {v}，共同邻居数量: {score}")