Big networks: A survey2020翻译

最新推荐文章于 2021-12-03 11:17:02 发布

weixin_45562632

最新推荐文章于 2021-12-03 11:17:02 发布

阅读量746

点赞数

分类专栏：学术大数据文章标签：大数据算法

本文链接：https://blog.csdn.net/weixin_45562632/article/details/116542729

版权

Big networks: A survey2020翻译

摘要：

网络是用顶点和链接来表示复杂系统的典型表达形式，其中网络组件之间的交互模式错综复杂。网络可以是不随时间变化的静态网络，也可以是随时间演变的动态网络。在网络规模爆炸式增长的新形势下，网络分析的复杂性有所不同。在本文中，我们引入了一个新的网络科学概念，称为大网络。大网络通常是大规模的，具有复杂的高阶内部结构。本文提出了一个指导框架，从大网络的角度深入分析了网络科学领域的主要课题。我们首先从微观、中观和宏观三个层面介绍了大网络的结构特征。然后我们讨论大网络分析的一些最先进的高级主题。系统介绍了大网络模型及相关方法，包括排序方法、划分方法以及网络嵌入算法。然后回顾了大网络中的一些典型应用，如社区检测、链接预测、推荐等。此外，我们还指出了一些需要进一步调查的关键未决问题。

关键词：

网络科学、网络分析、大型网络、复杂网络、大规模网络

1. Introduction

复杂系统在当前和不久的将来非常重要[1]。各个领域的研究者都将复杂系统的描述视为一个关键问题。复杂系统有时由节点（顶点）和边（链接）表示的网络来描述。通常，节点代表实体，边分别代表网络中实体之间的连接。有一些复杂网络的例子，如大脑结构、运输、移动通信、社会关系、蛋白质-蛋白质相互作用等。已经证明存在不同类型的结构模型，包括无标度、随机、小世界和规则网络[2]。

有许多研究调查复杂网络中的基本概念。Yu等人[3]对大数据和被认为是大数据基础的技术进行了深入调查。具体来说，他们阐述了大数据的定义，如何建立和说明大数据及其可用的应用，包括系统建模和大数据调度。在这次调查中，作者主要关注大数据的硬件网络结构。Xia等人[4]全面调查了大型学术数据，包括其背景和最新技术。他们讨论了大型学术数据管理以及数据分析机制，包括社会网络分析、内容分析和统计分析。此外，他们还解释了一些大数据技术，如学术推荐系统和学术影响评估技术。同样，Khan等人[5]从数据管理、分析以及数据可视化的角度研究了大数据的趋势和挑战。此外，Kong等人[6]对学术社会网络（ASN）进行了深入的解释。他们讨论了ASN的背景和相关技术。此外，他们还详细说明了适用于ASN的工具和模型。这些调查论文[4–6]主要关注学术相关数据（例如，DBL和MAG）。[1]

本文提出了大网络的概念，它是一种复杂的大规模网络，具有更高的层次和复杂的内部结构。分析大网络的结构和特征是网络科学领域最有前途的研究课题[7]。此外，了解网络拓扑结构对于发现大型网络的类别和性质（即静态或动态）至关重要。然而，如何表征BNs的结构形式是一个需要学者们认真关注的问题。我们从微观、中观和宏观三个层面分析了BNs的结构特征。此外，还考虑了高阶算法来解决BNs中的问题。因此，我们有动机提出一个指导性的框架，描述了BNs的主要研究领域。

现有的方法和算法都没有详细说明BN问题。因此，本研究的目的是为大网络领域的研究者提供指导，同时也为从节点到主题的网络科学对象的基础提供洞察。因此，我们介绍了大网络的基本概念和解释，回顾了网络主题检测算法、多层网络、社区检测、链接预测、推荐方法的最新进展，以及这些主题和开放性问题中所面临的挑战。

本文的结构如下。第二节讨论了BN的结构特征。第3节和第4节分别介绍了BNs中的大网络模型和技术。第5节介绍了BNs中的一些重要应用。在第6节讨论了BNs存在的问题和挑战之后，我们在第7节总结了本文。

2. Structural characteristics

研究人员试图理解社区/个人群体是如何紧密联系在一起的。网络模型倾向于关注网络结构，网络内部的节点被视为个体。在某种程度上，它侧重于发现群体联系的模式。另一方面，随着社交网络变得复杂，一种可理解的模式从网络的局部关系中出现。

社会网络分析倾向于关注与学者理论研究领域相关的量表。例如，在合著网络中，人们可以分析单个作者的合作纽带有多弱或多强，网络中某个团队或社区有多大，以及纽带的强度有多集中[8]。研究和理解网络结构和特征有三种方法:微观、中观和宏观。这些分析水平主要用于社会学、政治学和经济学等社会科学研究。

在微观层面，研究人员分析了连接的节点和边缘层次。本质上，它倾向于关注个人及其与他人的联系。例如，在合著网络中，微观层次的分析可能包括作者之间的一对一链接。在中间层次，研究人员调查群体层次的相互作用，这可能包括群体的特征和它是如何组织的。相反，在宏观层面，分析涵盖了给定网络的全球特征。例如，在地理上分散的地点调查两个不同机构的科学合作被认为是宏观层面的。此外，在不同层次工作的学者研究科学团队的几个特征，提出不同的发现，并在呈现大量技术和理论方面做出贡献。因此，每个层次分析不同规模的数据；采用各种方法、算法和可视化工具。

2.1 Micro-level

在微观层面，我们考虑个人或一小组个人的互动。例如，二元层次考虑两个人之间的交流。以节点为中心的交互是社交网络分析的最小单元之一。此外，微观层面考察网络中个人的特征。它还评估了顶点对之间的最小交互级别。它还可以分析某个顶点如何受其连接影响的感知。

2.1.1. Vertices

在数学中，网络是一个图或一族图，包括顶点和顶点之间的互连集。通常，网络G中的一组顶点表示为V或V(G)。顶点可以是社交网络中的人，生物网络中的蛋白质，以及互联网上的网页。在单层网络中，各种度量(如PageRank、度、接近度、介数和特征向量中心度)可用于识别有影响的节点和分析每个节点的结构意义[9]。当特征扩展到多层网络时，它们就变得不同了。例如，一个节点的度变成一个向量。

2.1.2Edges

边是出现在两个节点之间的互连，可以是加权的或未加权的，也可以是有向的或无向的。网络G中的一组边，通常表示为E或E(G)。边缘可以在网络中构建复杂的结构。网络模型中的边可以分为三类[10]。(1)显式边:这些边在网络中是已知的，例如脸书的“跟随”关系和引用网络中的“引用”关系。(2)离散边:这些边表示两个节点之间的事务，比如短信和电话。(3)推断边:这些边表示相似性的一些统计度量。由于现实世界中的数据往往丰富但有噪声，有时甚至缺少信息，研究人员逐渐更多地关注非显式边缘。例如，纽曼[11]提出了一种技术，能够通过使用丰富但有噪声的数据来提供精确网络结构的最佳估计。

2.2. Meso-level

中层网络分析有助于更好地理解子网的性质，如子网是如何形成的，子网之间的相互作用，子网之间的差异，例如，每个子网的顶点数及其特征等。一般是研究同一个网络中的社群。它还可以考虑探索那些专门为揭示微观和宏观层面之间的联系而构建的网络。此外，中观网络可能表现出不同于微观网络的连接过程。

2.2.1. Motif

网络模体是网络中经常出现的子图，其分布可以反映复杂网络的结构属性[12]。因为一个母题可以看作是全球体系中的一个基本构件，它在许多领域都有重要的应用。例如，在[13]中，研究人员将其应用于构造有向和非加权网络的算法。该算法从空图开始，通过鼓励或抑制特定基序的形成，继续选择网络的度内或度外分布。此外，模体的发现还被应用于许多领域，如脑科学中大脑神经网络的功能分析、生物网络中的模式检测以及社交网络中的社区发现[14，15]。因此，模体发现算法逐渐成为数据挖掘中活跃的研究课题。

现有模体发现算法有两种主要类型[16]。(1)基于子图枚举:该类别下的算法在寻找多于八个节点的基元时无效[17]。(2)基于频率估计:与第一类算法相比，属于这一类的算法在寻找大基序方面可以获得更好的结果。然而，它们通常耗费太多的计算资源[18]。为了解决这个问题，林等人[16]提出了一种基于GPU(Graphic Processing Units)的解决方案来减少整体计算时间，该方案在计算随机图中子图的频率时并行化了大量的子图匹配任务。与此同时，他们还在各种生物网络上进行实验；得出了影响图形处理器性能的几个关键因素。

2.2.2. Hyper-edge

一般图中的边只能表示一对顶点之间的联系，相比之下，超图中的超边可以包含多个顶点。从数学上来说，超图是一种可以用来表示多个顶点之间的连接的图。在超图中，一条边可以链接到任意数量的节点，这就是所谓的超边。例如，在一般的科学合作网络中，边只能代表两个作者是否有合作关系。然而，在科学协作超网络(具有超图拓扑的网络)中，超边可以代表几个作者写的文章。

由于现实世界中的关系往往不仅仅是简单的二元关系，超图的研究逐渐成为热点。超边缘的引入不仅可以降低网络结构的复杂性，还可以刻画更复杂的关系。目前，许多关于超边和超图的研究都集中在超网络的特性上。例如，在[19]中，Purkait的团队已经从理论和实验上证明了在超图聚类中使用大超边可以获得更好的聚类精度，并且还提出了一种采样大超边算法。在[20]中，Kabiljo等人提出了一种分布式算法，该算法可以在几个小时内划分出具有数十亿个顶点和超边的超图。

2.3. Macro-level

而不是个人和社区的互动，在宏观层面上，我们分析大规模以及复杂网络的结构，在网络组件、密度等层面上。这是在整个大网络层面研究的更深层次。

2.3.1. Network density

网络密度评估网络中节点之间的边缘密度。它也是网络中总边与网络所能容纳的最大变量之间的定量关系。它还解释了可能出现在两个顶点之间的实际链接的百分比。实际链路是网络中存在的连接。例如，在一个特定的科学团队中，研究人员之间的实际联系可能很多(甚至可能是团队中所有可能联系的100%)。一个可能的联系是网络中可能存在的研究人员之间的联系。另一方面，与会议上可能出现的联系相比，研究人员之间的实际联系可能很低。因此，我们可以说，科学团队的网络密度很高，但在会议上密度相对较低。

无向网络的网络密度D在数学上表示为D = 2E/N(n-1)，其中N和E分别指网络中的节点数和边数。作为网络科学中的一个基本参数，它主要在实验中用作评价标准[10]。

2.3.2. Overlap and multi-degree

由于网络中经常存在重叠链路，因此研究网络中的重叠和多度链路是一个重要的课题。多层网络中的重叠可以分为两种类型：全局重叠和局部重叠[21]。层和层之间的全局重叠可以定义为：Oαβ=，其中̸=β和aαij={10}αβ∑我**<jaαij aβijα, . 如果是1，则表示层中节点i和节点j之间存在链路α. 相应地，局部重叠可以定义为：oαβi。

定义为m⃗的多网络中节点的多链路=

（m1），其中mα={10}和mα=1表示*,…, mα**,…,* 毫米*,*

节点在层中连接。此外，我们可以推断m⃗=0当且仅当两个节点在所有层中都没有链接时。因此，我们可以将多重邻接矩阵定义为Am⃗：α

氨⃗[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zLYBKL6z-1620477731177)(file:///C:/Users/ADMINI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image001.gif)]，其中Am⃗=1当且仅当节点i和j之间存在多链路时。因此，定义节点i的多阶m⃗，kmi⃗为多链路的总数m⃗连接到节点i，即kmi⃗Amij⃗[22].

假设一个网络有四个层，如图1所示，并假设从下到上的层标记为1–4。由于节点1和节点2之间有四层边，因此节点1和节点2的多重链接是（1，1，1，1）。同样，在第1层和第3层的节点2和节点5之间也有边。但是，在第2层和第4层中，它们之间没有边。因此，它们的多链路是（1，0，1，0）。

在一个网络中，除了链接的重叠外，还可能存在主题的重叠以及社区的重叠。Li等人[14]将motif发现技术与聚类相结合，发现了社交网络中的重叠社区，取得了很好的实验结果。
在这里插入图片描述

3. Big network models

在这一部分中，我们对各种大网络模型进行了全面的回顾，包括时间感知的BN模型、基于motif的BN模型和多层BN模型。在每一小节中，我们从BNs的角度讨论了每个模型的概述、模型的分类以及相应的算法。

3.1. Time-aware big network model

网络是表示信息的一种普遍形式。例如，在社会网络中，有一种连接人的图形形式；在生物网络中，有一种图形形式的调节结构、影响和相关性；在学术社会网络中，有一些研究人员通过引用或合著链接在一起[6]。网络可以是静态的，其中顶点和链接不会随时间而改变，也可以是动态的，在网络的整个生命周期中两者都会出现或消失。

在这里插入图片描述

此外，在静态网络中，顶点没有变化，链接永久保持不变。而在动态网络中，存在顶点消失和新顶点形成的概率。失踪可能发生在他们的联系，虽然他们可以恢复或重新出现。而且，动态网络的拓扑结构随时间而变化。现实世界动态网络的一些例子是社交网络、交通网络和通信网络。

在本节中，我们将对静态和动态网络进行总结。我们专注于在大型网络中至关重要的高层话题。有关更全面的评论，读者可以参考[23–26]。

3.1.1. Static network model

静态网络中的内容很少或从不改变。例如，如果我们使用一个静态网站，它的内容会在那里保留几天、几周、几个月甚至几年（见图2）。静态网络的性质可以是无向的或有向的，也可以是无权的或有权的。

如[24]所述，表示静态网络有两种基本方法：邻接矩阵和链表。这些表示突出了静态网络的特征，并且容易受到特定类型计算的影响。在邻接矩阵中，网络可以表示为一个N×矩阵，其中两个顶点是相邻的，如果它们之间有直接连接的链接。注意，使用邻接矩阵表示静态网络有助于开发和量化网络的结构和动态过程。但是，它在计算时会消耗大量内存。处理具有N个顶点的网络需要O（N）的复杂度。考虑到限制，链路列表可以是表示静态网络的选项。与邻接矩阵不同，链表可以有效地用于链表的随机化以及稀疏交互网络的数值实验。不

有许多机制被用来分析静态网络的结构和特性，从测量网络的一些特性开始。例如，（i）分析度分布来描述网络之间的连通性，（ii）网络中的平均路径长度，以便可以判断信息传播的速度，以及（iii）聚类系数来确定网络中个体的群体适应度。量化这样的统计数据是一项不平凡的任务；因此，有更复杂的方法来分析网络。在某些情况下，数据分析员感兴趣的是分析称为局部网络特性的东西，即计算子图在网络中出现的频率，即网络基序（见第3.2节）。类似地，评估顶点的重要性

在一个网络中，分析者采用了几种度量方法，如PageRank、Katz、度中心性、介数中心性以及

最低0.47元/天解锁文章

weixin_45562632

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Big networks: A survey2020翻译

Big networks: A survey2020翻译摘要：网络是用顶点和链接来表示复杂系统的典型表达形式，其中网络组件之间的交互模式错综复杂。网络可以是不随时间变化的静态网络，也可以是随时间演变的动态网络。在网络规模爆炸式增长的新形势下，网络分析的复杂性有所不同。在本文中，我们引入了一个新的网络科学概念，称为大网络。大网络通常是大规模的，具有复杂的高阶内部结构。本文提出了一个指导框架，从大网络的角度深入分析了网络科学领域的主要课题。我们首先从微观、中观和宏观三个层面介绍了大网络的结构特征。然后我们讨
复制链接

扫一扫

专栏目录