【数据挖掘】复杂网络原理入门(7月份学习笔记)

注:本篇笔记为概念入门笔记,若理解有误,欢迎批评指正

本篇学习笔记,将从 1.复杂网络的定义 2.复杂网络的研究方向 入手,介绍复杂网络的概念。

1.什么是复杂网络(complex network)?

为更好地了解什么是复杂网络,我们需要把这个名词降维成两个名词👇
在这里插入图片描述
complex复杂和network网络。
需要注意的是,根据学届各篇权威论文的定义,虽然复杂网络一定是网络,但是网络不一定是复杂网络。从历史发展顺序来看,应该是先有了网络,再有复杂网络。网络是图论的内容,而复杂网络是基于图论的理论和方法开展的一种研究。

1.1网络network

先来说说网络。网络定义了现实世界中交互的一种形式的数据。
网络是由若干节点和连接这些节点的链路构成,表示诸多对象及其相互联系
其实网络强调的是一种点到点的状态,也就是个体与个体之间的相互作用
网络一般可以分为社交网络、交通网络、生物网络、信息网络、通信网络等等。

在自然界中存在的大量复杂系统都可以通过形形色色的网络加以描述。一个典型的网络是由许多节点与节点之间的连边组成,其中节点用来代表真实系统中不同的个体,而边则用来表示个体间的关系,往往是两个节点之间具有某种特定的关系则连一条边,反之则不连边,有边相连的两个节点在网络中被看作是相邻的。
例如,神经系统可以看作大量神经细胞通过神经纤维相互连接形成的网络;计算机网络可以看作是自主工作的计算机通过通信介质如光缆、双绞线、同轴电缆等相互连接形成的网络。类似的还有电力网络、社会关系网络、交通网络、调度网络等等。

有链路,有节点,他就可以被称之为网络。
比如著名的哥尼斯堡七桥问题。这是1736年欧拉提交的论文中的一个题目开创了数学的一个新的分支——图论与几何拓扑,也由此展开了数学史上的新历程。
在这里插入图片描述
把岛屿看作一个节点,把桥看作链路;这时候可以把这样一个图论理解为一个网络。但他是复杂网络吗?显然不是的。

[1] Watts D J, Strogatz S H. Collective dynamics of ‘small-world’ networks.[J]. Nature, 1998, 393(6684):440.
[2] Faloutsos M, Faloutsos P, Faloutsos C. On power-law relationships of the Internet topology[J]. Acm Sigcomm Computer Communication Review, 1997, 29(4):251-262.
[3] Hofman J M, Sharma A, Watts D J. Prediction and explanation in social systems.[J]. Science, 2017, 355.
[4] Ebel H, Mielsch L I, Bornholdt S. Scale-free topology of e-mail networks[J]. Phys Rev E Stat Nonlin Soft Matter Phys, 2002, 66(3 Pt 2A):035103.
[5] 吴文祥, 黄海军. 固定需求交通网络的一般系统最优模型与性质[J]. 管理科学学报, 2015, 18(12):58-67.
[6] 宣琦,吴铁军. 复杂open shop问题的网络模型及调度规则设计[J]. 浙江大学学报(工学版),2011,(06):961-968.
[7]一文读懂复杂网络(应用、模型和研究历史).https://blog.csdn.net/qq997843911/article/details/80162157

1.2复杂网络的 复杂性complex

1.2.1 小世界

学届普遍认为,网络复杂性的定义主要来自两篇论文,一篇是《Collective dynamics of ‘small-world’ networks》《“小世界”网络的集体动力学》它定义了网络复杂性的第一个特征:small world小世界
在这里插入图片描述
真实网络既不是规则网络,也不是随机网络,而是一个小世界,small world。它以简单的措辞描述了大多数网络尽管规模很大但是任意两个节(顶)点间却有一条相当短的路径的事实。以日常语言看,它反映的是相互关系的数目可以很小但却能够连接世界的事实,例如,在社会网络中,人与人相互认识的关系很少,但是却可以找到很远的无关系的其他人。

1.2.2 无标度

另一篇是《Emergence of Scaling in Random Networks》《随机网络中标度的涌现》,它定义了复杂网络的无标度性质(Scale-free)
在这里插入图片描述

Barabási A, Albert R. Emergence of Scaling in Random Networks[J]. Science, 1999, 286(5439):509-512.
横轴为节点数目,纵轴为节点出现频率

无标度网络具有严重的异质性,其各节点之间的连接状况(度数)具有严重的不均匀分布性:网络中少数称之为Hub点的节点拥有极其多的连接,而大多数节点只有很少量的连接。少数Hub点对无标度网络的运行起着主导的作用。从广义上说,无标度网络的无标度性是描述大量复杂系统整体上严重不均匀分布的一种内在性质。

1.2.3 集聚程度

此外,复杂网络还具有集聚特性。集聚即集聚程度(clustering coefficient)的概念。
例如,社会网络中总是存在熟人圈或朋友圈,其中每个成员都认识其他成员。集聚程度的意义是网络集团化的程度;这是一种网络的内聚倾向。连通集团概念反映的是一个大网络中各集聚的小网络分布和相互联系的状况。例如,它可以反映这个朋友圈与另一个朋友圈的相互关系。
无标度网络(Scale-free network)的特征主要集中反映了集聚的集中性。
综上所述,钱学森给出了复杂网络的一个较严格的定义:具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络

[1] Watts D J, Strogatz S H. Collective dynamics of ‘small-world’ networks.[J]. Nature, 1998, 393(6684):440.
[2] Barabási A, Albert R. Emergence of Scaling in Random Networks[J]. Science, 1999, 286(5439):509-512.
[3]复杂网络百度百科.https://baike.baidu.com/item/%E5%A4%8D%E6%9D%82%E7%BD%91%E7%BB%9C/8282868?fr=aladdin

2.为什么要研究复杂网络?

当今的复杂网络的研究方向大致可以分为如下三大方向:1.关键节点发现2.社区发现3.链路预测

2.1 关键节点发现

关键节点发现旨在发现在网络的结构与功能中起到关键作用的节点。也就是找到能影响到最多节点的关键节点。
以一个社区网络为例,那么发现关键节点其实就是找这个社区网络中能够影响到最多人的那个用户。通过找到最重要的用户,控制成本加强宣传。
而对于谁才是网络中最关键的那个用户,一般用如下几种定义去寻找。

2.1.1 点度中心性 Degree Centrality

点度中心性,其实就是找谁的朋友最多。
在连通网络 D D D中共有 N N N个节点,节点x有k个节点与之有边直接相连,则称该节点的自由度为 d e g ( x ) = k deg(x)=k deg(x)=k,点度中心性为 C D C_D CD(x)= d e g ( x ) / N − 1 deg(x)/N-1 deg(x)/N1
在这里插入图片描述

第二行数字表示各节点的点度中心性

图源:Suranyi.社区网络分析学习笔记 —— 算法实现及 igraph 介绍.https://zhuanlan.zhihu.com/p/40227203
下同

2.1.2 接近中心性Closeness Centrality

也可以译为紧密度中心性。该节点与其他节点的紧密程度,指节点到达各个角落最短距离。
假设节点x和y之间的距离用d(x,y)表示,距离可以定义为节点x和y的最短路径长度,在非带权网络中的计算式为:
在这里插入图片描述
在带权网络中,接近中心性的距离为到每一个节点的带权距离之和。
在这里插入图片描述

紧密度中心性也根据网络中节点的个数(除该节点本身外)进行标准化,但希望越大表示越“紧密”,因此再做了取倒数处理。图中计算均保留两位有效数字。
                                                                                   ——该图片原作者Suranyi注

2.1.3中介中心性Betweenness Centrality

“中间性”是衡量相邻节点之间的紧密程度的指标,强调该节点与其他节点的中转作用。中间性越高,说明节点x对相邻节点的影响越大,起到了信息中转站的作用。设节点x和节点 y之间的最短路径数为 σ ( x , y ) σ(x,y) σ(x,y),最短路径中通过节点 v 的路径数为 σ ( x , y ∣ v ) σ(x,y|v) σ(x,yv),则节点 v在非带权网络中的“介数中间性”定义为:
在这里插入图片描述
在这里插入图片描述

介数中间性根据网络中(除该节点本身外)的所有边的组合情况数进行标准化,图中计算均保留两位有效数字

2.1.4特征向量中心性Eigenvector Centrality

一个包含 N N N个节点的无向网络可以用一个 N × N N×N N×N的二元矩阵I(称为关联矩阵或接邻矩阵) 表示,矩阵中只有 0,1 两种值,第(i,j)个元素为 1 代表节点i到节点j是相连的。通过解:
在这里插入图片描述
在这里插入图片描述
Perron-Frobenius 定理,可以求出解特征值和特征向量。将特征值的大小作为向心度的大小,特征向量作为向心度在各个连接上的得分值,即构造了节点的“特征值向心度”。

Perron-Frobenius定理:该定理表明所有元素均大于或等于 0 的矩阵(如关联矩阵、马尔可夫链状态转移矩阵)必定有一个单的正实根μ,严格大于所有其他根的绝对值,对应的特征向量在这里插入图片描述 的分量都是正实数。

注:在无向网络中,关联矩阵是对称的。在带权网络中,权重代表该连接的强度,将 0-1 转换为相应边的实际权重值。 (庞大的稀疏矩阵计算并不容易)

特征值中心性仅最大的特征值意义明确,对其余复数特征值取模仍能得到数值,但表意含糊

2.2社区发现

社区发现旨在发现复杂网络中的社团结构,以便对网络节点的组成进行合理的划分。
说白了就是发现社交网络中已经存在的或者说本来应该存在的但是没有被发现的这些社区,比如家族成员会形成一个社区,学校里的朋友会形成一个社区,这些人际关系社区都是真实存在的。
在这里插入图片描述

[1]Newnuan MEJ. Modularity and commwaity structure in networks[J].
Proceedings of the national academy of sciences, 2006, 103(23);
[2]Girvan M. Newnan MEJ.Community structure in social and biological networks[J].Proceedings of the national academy of sciences.2002, 99(12);7821-7826.

2.3链路预测

链路预测旨在预测复杂网络中任意节点间存在链接的可能。

2.3.1 共同邻居

Common Neighbors: A and C have 2 common neighbors, more likely to collaborate
如果A和C有两个共同好友,那么A和C很有可能互相认识。(共同好友越多,成为好友可能性越高)
在这里插入图片描述

2.3.2 杰卡德系数

Jaccard’s coefficient: same as common neighbors, adjusted for degree
当好友相同时,根据程度调整。
在这里插入图片描述
Jaccard 系数越大,根据Jaccard 距离公式得Jaccard 距离越小,样本相似度越高。

2.3.3 Adamic/Adar

Adamic/Adar: weighting rarer neighbors more heavily.
稀有的邻居拥有更大的权重。
在这里插入图片描述
通过上述内容,我们不难发现,复杂网络有着相当广阔的应用前景,可以使用不同的方式,研究不同的网络结构。

以上内容仅为个人理解,如果有误,欢迎批评指正。

  • 7
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值