图数据科学的关键综述:图在科学研究中的力量 A key review on graph data science: The power of graphs in scientific studies


论文名称:A key review on graph data science: The power of graphs in scientific studies

文章信息

关键词:

图论

图类型

特殊图

图在科学中的应用

图可视化

摘要

这篇全面的综述深入分析了图论、各种图类型以及图可视化在科学研究中的作用。图作为建模和分析各种学科中复杂系统的强大工具。引言突出了图在科学研究中作为视觉表达的重要性,有助于更好地理解复杂数据。信息图表和知识图在近年来因其传达信息的有效性而备受青睐。综述从探讨图论的基础开始,涵盖关键概念、算法和应用。它讨论了不同类型的图,包括有向图、无向图、加权图和二部图,以及它们在科学研究中的具体用例。特别关注特殊图,如完全图、树状图和社交网络,它们具有独特属性,在各种科学领域中发挥着重要作用。综述展示了它们在生物学、社会科学、网络分析和数据挖掘等领域的应用和贡献。图可视化成为理解和解释复杂数据结构的关键方面。综述强调了图可视化技术中的挑战和进展,使研究人员能够有效地传达和分析基于图的信息。总之,这篇全面的综述为研究人员提供了一个宝贵的资源,帮助他们理解图论在科学研究中的原理和应用。对图类型、特殊图和图可视化技术的探讨提供了对各种科学学科中图的用途和潜力的见解。

1. 引言

当人们在努力工作的会议室中表达他们的想法时,他们有意或无意地使用图技术,标记对象之间的关系,并创建一些图表来向他人解释他们的想法。表达定义的世界问题或构成系统的关系模型是图的最有价值和最基本的用途之一。因此,当你开始在白板上画图或试图将你的想法形象化时,你正在创造一种图的形式。

图可以让你以一种易于理解的方式描述世界。图将头脑中的想法呈现为清晰的视觉模型[1]。图可以更容易地表达相对复杂的概念,而其他可视化方法无法做到。当明智地选择正确的技术时,可以产生对特定类型知识最简单和最有意义的直观表达。如果选择不当,理解就会困难得多。许多种类的图表可以手动或通过计算机创建。方法各异,但在任何正式的图结构中,关系由边表示,而主题和客体由节点表示。图对于描述世界问题的元素及其相互关系以及它们如何相互关联具有价值。在图中表示关系有时可以简化为一条具有特定权重的线以展示力量或数量。事实上,然而,基本关系通常具有比简单线条表示更详细或更全面的特征。如果所展示的世界很小,视觉上富有表现力的连接以及它们的节点可以帮助详细解释关系的性质。在每个数据科学应用中必须检查的一种关系类型是相关性。相关性提供了有关世界问题的各个方面何时以及如何相关的证据,这可以指导追求商业目标的决策。了解对于给定结果最有利的条件是什么,以及操纵控制因素,包括可能研究结果的概率,对制定行动策略大有裨益。根据行业不同,这一战略目标可能有所不同。以图形、图表、图片和表格的形式呈现科学世界中的学术研究及其产出对于更容易理解非常重要。特别是近年来,信息图表被广泛而有效地使用。[^0]

图1. 关键综述论文的概要。

当今表达复杂和动态结构或系统的研究被表达为图。图可视化指的是称为图的数据结构的视觉表示。图由节点(也称为顶点)和这些节点之间的连接(也称为边)组成。图可视化的过程涉及使用视觉元素如线条、点、颜色、标签和其他视觉线索以图形格式呈现这些节点和边。这篇全面的综述研究根据图1中的主要标题进行组织和展示。

1.1. 问题陈述

在复杂结构和多样格式的大规模数据分析中存在着重大挑战,特别是在大数据背景下[2]。随着数据的指数增长,拥有大量数据资源的组织面临着理解复杂、不规则、不完整,有时不可验证的相互关联数据流的需求,需要新方法。在这方面,图分析和可视化已经成为解决这些挑战的强大技术。图为捕获和表征难以简单分类的复杂、复合关系提供了强大的解决方案。此外,图在各行业中越来越受欢迎,用于可视化和分析各种行业的大量业务数据[3]。图可视化中的问题陈述涵盖了识别和解决与有效可视化和理解图结构相关的挑战和目标,同时考虑到大数据场景带来的特定问题。它涵盖了几个关键方面,包括:

  • 数据规模:对于具有数百或数千个节点和边的大规模图,可视化和理解整个图可能具有挑战性。处理大型数据集可能导致性能问题和视觉复杂性。
  • 节点和边的位置:确定节点和边应该如何在图中定位至关重要。节点和边之间的交互应该是可理解和视觉统一的。然而,正确放置节点和边可能是一个复杂的优化问题。
  • 数据失真:数据在图可视化过程中可能出现失真。例如,节点之间的连接或关系的表示可能与其实际性质不同。这些失真可能使解释和理解图变得更加困难,并可能导致错误的结论。
  • 标签问题:在图中通常为节点或边使用标签。然而,在大型图中,确保标签清晰可读且在节点上有意义的放置可能具有挑战性。标签问题可能妨碍用户识别和理解图中的元素。
  • 视觉复杂性:过于复杂或密集的图可能使理解困难。高节点和边密度可能导致重叠和视觉混乱。视觉复杂性可能降低可读性并妨碍数据理解。
  • 表示:确定如何以视觉有意义的方式准确表示节点、边及其属性。
  • 布局:决定节点和边的最佳排列方式以促进理解并最小化视觉混乱。这包括解决诸如避免边交叉、减少节点重叠和保持空间关系等挑战。
  • 可扩展性:处理大规模图并确保可视化技术能够处理不断增加的数据量而不影响性能或可读性。
  • 交互性:提供交互功能,允许用户探索和与图交互,如缩放、平移、过滤和突出显示特定节点或边。
  • 情境化:考虑更广泛的背景和领域特定要求,以整合与节点和边相关的附加信息或属性。这可能涉及整合来自多个来源的数据或整合领域特定知识。
  • 用户感知:了解人类如何感知和解释视觉表示,并设计可视化以符合人类认知。这包括颜色选择、标签和视觉线索等因素,以促进模式识别和理解。

图可视化的问题陈述旨在解决这些挑战和目标,创建能够使用户从复杂图结构中获得见解、分析关系并提取有意义信息的视觉有效表示[2]。在图可视化过程中的这些挑战需要使用先进算法、交互功能和设计原则加以考虑和解决。

1.2. 主要贡献

根据提供的作者陈述和他们对特定要点的强调,这篇文献综述文章的主要贡献可以总结如下:
(b) 信息图在科学研究中的重要性:该文章强调了信息图在科学研究中的关键作用。它强调了利用信息图的重要性,并揭示了它们在推动科学研究方面提供的各种机遇。通过阐明信息图的潜在益处和应用,该文章为研究人员提供了宝贵的见解,并鼓励他们在各自的领域中采用这些图。

© 图可视化过程及局限性的探讨:该文章深入探讨了图可视化过程,解决了有效可视化复杂图结构所面临的挑战和局限性。它全面概述了研究人员遇到的困难,并提出了克服这些障碍的解决方案。通过提供对图可视化的重要视角,该文章为该领域的研究人员提供了宝贵的知识和工具,以增强他们的可视化技术。

总之,这篇文献综述文章通过全面探讨图数据科学领域,强调信息图在科学研究中的重要性,并讨论与图可视化相关的挑战和解决方案,为图数据科学领域做出了重要贡献。研究人员将发现这篇文章是一份重要的参考资料,提供了宝贵的见解,并促进了该领域的进一步发展。

2. 图数据科学

图数据科学提供了一个强大的框架,用于分析、解释和从复杂的互连数据中提取见解。它使我们能够理解关系,做出明智决策,优化流程,并解决各个领域中的复杂问题。图在各种数据科学应用中起着至关重要的作用。这些应用包括社交网络分析、推荐系统、人工智能、生物信息学等许多领域。图可以帮助我们更好地理解这些领域的数据,并取得更好的结果。由于数据科学的多样化和广泛应用,图包含许多子领域,如图2所示,采用维恩图的形式。

2.1. 数据发现

由于数据的复杂性不断增加,图结构越来越多地用于数据发现、数据分析和数据可视化。在这种情况下,图数据发现是一种利用图结构和算法来理解和探索数据之间的关系和连接的发现技术。图数据发现涉及从数据源获取数据,图数据建模和可视化,图数据分析,最终报告数据结果。这种方法使得可以更加直观和易懂地呈现图数据结构上的发现。因此,图数据发现是一种有用的工具,特别适用于处理大型数据集的数据科学家。

图2. 图数据科学。

2.2. 特征工程

在包含关系特征的数据集中,图被广泛应用。图展示了数据之间的关系,为理解、分析和利用这些关系提供了有用的结构。因此,通过特征提取技术,也称为图特征工程,可以增强图的使用。图特征工程是一种方法,用于定义图数据的特定特征,创建特征向量,并基于这些特征向量使用机器学习技术构建模型。这种方法利用不同的特征提取方法,如结构、度量和基于内容的方法。这些方法允许更准确和全面地定义图数据特征,从而获得更好的结果。图特征工程在许多应用领域中非常有用,特别是在社交网络分析、认证、安全、协作和图像数据挖掘中。

2.3. 图分析

图分析是一种用于分析图结构及其相关数据的强大工具。图结构由顶点和边组成,这些结构用于建模数据点之间的关系。图分析是一种重要的方法,用于发现大型和复杂数据集中的模式和见解,因为它允许探索和可视化数据点之间的关系。图分析中使用许多技术,如中心性分析、社区检测和模式分析。中心性分析侧重于基于各种标准(如度、介数和特征向量中心性)识别图中最重要的节点。社区检测涉及识别高度连接且彼此之间关系紧密的节点组。而模式分析则专注于识别图结构中的重复模式。图分析在许多应用领域中非常有用,包括社交网络分析、推荐系统、欺诈检测和生物信息学。通过使用图分析,可以发现通过其他数据分析方法可能不明显的有价值的见解和关系。然而,图分析也存在其局限性,如可扩展性问题和处理复杂图结构的挑战。因此,在将这种技术应用于实际数据问题时,仔细考虑与图分析相关的局限性和挑战是很重要的。

2.4. 图查询

图查询是图数据库中用于从图结构中检索信息的重要工具。图数据库以图格式存储数据,其中节点和边分别表示实体和关系。图查询使用户能够在这些图结构中搜索特定模式、关系和属性,从而实现强大而灵活的数据检索。图查询有许多类型,包括遍历查询、模式匹配查询和聚合查询。遍历查询涉及遍历图结构,以根据各种标准(如距离、方向和路径属性)查找特定节点或关系。模式匹配查询涉及查找与特定模式(如特定图结构或关系)匹配的子图。聚合查询涉及计算图中节点之间的平均距离或最大距离等聚合统计信息。图查询在许多应用领域中使用,如社交网络分析、推荐系统和生物信息学。然而,图查询也面临挑战,如图结构的复杂性和需要高效查询处理算法。为了解决这些挑战,研究人员正在开发新的查询处理技术,如基于索引的查询处理和分布式查询处理,以提高大规模数据集中图查询的效率和可扩展性。

2.5. 图算法

图算法是一组设计用于操作图结构的计算程序,图结构由节点和边组成,分别表示实体和关系。图算法在许多领域中被广泛应用,如社交网络分析、交通规划和生物信息学。这些算法用于解决各种问题,如最短路径问题、社区检测和聚类。图算法中最重要的类别之一是最短路径算法,用于在图中找到两个节点之间的最短路径。这类算法包括Dijkstra算法、贝尔曼-福特算法和弗洛伊德-沃舍尔算法。另一个重要类别是社区检测算法,用于识别具有高度连接性和相似性的节点组。社区检测算法的示例包括Girvan-Newman算法、Louvain算法和标签传播算法。图算法也存在一些挑战,如可扩展性问题和需要用于大规模图的高效算法。为了解决这些挑战,研究人员正在开发新的图算法,如分布式图算法,通过在多台计算机上分布计算来处理大规模图。

总的来说,图算法是解决许多领域中各种问题的重要工具。通过使用图算法,可以发现通过其他数据分析方法可能不明显的有价值的见解和关系。表7提供了数据分析中图应用的示例。

2.6. 图可视化

图可视化是一种将结构信息表示为抽象图和网络图的方法。它在网络、生物信息学、计算机科学、自然和应用科学、机器学习、软件工程、数据库和网页设计以及其他技术领域的可视界面中具有重要应用。

图3. 图可视化步骤。

2.6.1. 数据收集

(a) 集成到业务应用程序、网站和移动应用程序中的自动化数据收集功能;

(b) 从工业设备、车辆和其他机械收集操作数据的传感器;

© 从信息服务提供商和其他外部数据源收集数据;

(d) 监控、跟踪和分析网络攻击;

(e) 监控社交媒体、讨论论坛、评论网站、网络博客和其他在线渠道;

(f) 监控流经网络活动设备的数据包;

(g) 在线、面对面或通过电话、电子邮件或常规邮件进行调查、调查和填写表格;

(h) 焦点小组和一对一会议;以及对研究对象的直接观察。

2.6.2. 数据清洗

在收集复杂和大规模数据后,下一步是通过清洗数据使其可用。清洗包含不同格式、大量数据和各种参数的数据是一项相当具有挑战性的任务。不幸的是,大多数图形软件工具并未设计用于处理这种混乱的数据,因此在将数据传输到图形软件之前,应对数据进行清洗和准备 [3]。

以下是关于消除和清理复杂数据清洗过程中遇到的困难的要点:

(a) 不一致的节点名称:一个节点不应该用多个名称表示。
(b) 刷新节点:每个节点在节点数据集中应只出现一次。
© 刷新边:某些类型的图形可视化和分析软件无法很好地处理相同节点对之间的多个边缘,需要进行合并。
(d) 自环:某些图形软件无法处理自环。
(e) 孤立节点:数据集可能存在没有连接的节点,断开的节点可能导致图形可视化出现问题。
(f) 与不存在节点连接的边:在某些数据集中,可以在两个节点之间定义一条边,其中一个节点不在节点列表中。
(g) 无效数据:现实世界的数据可能包含空值或无效数据。数值数据列可能包含诸如 N/A 或错误之类的文本条目。这些条目应进行清理或移除。
(h) 单位:所有数值数据需要被归一化为相同的数值单位。

2.6.3. 数据组织

数据组织是将原始数据以易于理解的顺序排列的方式。也就是说,它是将数据进行分类和归类的实践,以使其更易于使用,从而可以轻松访问、处理和分析。因此,它帮助我们将数据整理成易于阅读和处理的顺序。将复杂和大规模数据以一系列节点和边的方式定义和组织非常有效。这种清晰的分离将使数据探索具有更广泛的工具支持。

2.6.4. 图实现

在图数据经过清洗和组织后,可以使用图分析工具进行分析,或者通过编程语言进行编码分析和可视化。下一个目标是使图更易于理解。在这方面,会审查以下问题,并继续进行流程。

(a) 分配的节点是否全部相互连接或分散在许多独立的部分中?

(b) 结果图是否呈现层次结构?

© 结果图是否稀疏?还是连接非常紧密?

(d) 结果图中是否存在明显的簇?

统计数据可以利用数据提供大量的多维信息,并回答关于规模、密度和离散图数量的问题。布局是理解图结构的重要视觉技术。不同的布局将展示图的不同特征,允许进行不同类型的分析,并支持不同类型的故事。通过各种节点和链接布局,可以提供不同的方式来揭示图中的链接、序列和分组。其他图布局类型关注图的其他属性,显示最低值、层次结构或多个属性。

对于动态变化数据的分析,主要目标之一是在图的一系列变化中保持稳定性。在可视化过程中,应在接收到每个新数据后立即更新图 [13]。

2.6.5. 图类型选择

在图类型选择阶段,可以确定适合数据类型、属性和大小的图像。图类型每天都在增加。这些可以是诸如圆形图、Sankey 图和 Hive 图等图形可视化类型,需要选择最适合我们数据的图形。我们可以根据突出显示数据所需的特性选择不同类型的图形。

2.6.6. 图改进

在图形可视化过程中,由于我们已选择了适合我们数据的图形,现在可以通过着色、幽灵效果、淡化和标记等方法改进我们想要强调的特性,使我们的图形更易于理解。在这个过程中,可以在节点的符号中使用相关设备的符号。因此,将创建的图形将对那些对该主题不太感兴趣的人更有意义和更易理解。

3. 图的概述

“图”一词的词源可以追溯到古希腊。它来自于意为“写作”的词“ γ ρ α ϕ η \gamma \rho \alpha \phi \eta γραϕη”。它作为一个词素成为了无数英语单词的一部分,从地理学到段落,从图形学到图像小说 [14]。尽管图论的当前使用正式出现在20世纪,但它今天在许多领域中都得到了有效应用 [15]。如今,在许多领域,特别是在应用和基础计算机科学、优化和算法复杂性方面,图已经变得非常必要。图的研究和应用应用于许多不同的学科和子学科。因此,它可以帮助克服或解决许多不同问题,如在通信网络中选择最佳路径、定义对象之间的关系以及表示构成系统的组件。图的使用领域非常广泛,从计算机科学到物理学、化学和生物学,甚至从经济学到历史学,以及它们在这些领域解决问题的重要特点在各小节中都有详细介绍。此外,这些领域的视觉示例也以图形的形式给出。

图的最基本方面如下:

(a) 图是突出数据连接的数据模型。

(b) 可以从共享共同属性的元素的任何数据集创建图模型。

© 图数据可以来自任何关系源,不仅限于图数据库。

(d) 通过边连接节点是呈现和传输图数据的最常见方式。

(e) 图形可视化可以让您探索数据并发现连接,帮助您将数据连接发现传达给他人。

(f) 还有许多其他查看图数据的方式,这些方式不是基于节点布线图的。

(g) 大多数有助于查看较大网格的结构,而不是细节。

(h) 图分析方法允许您分析您的关系数据。

(i) 图在分析大数据并赋予其意义方面非常有用。

(j) 图是解决优化问题的有用工具。

(k) 使用图进行深度学习越来越受欢迎。

3.1. 基本图形

为了在许多不同的学科和应用中使用图论,有必要了解其基本结构。图由两组组成,并表示为 G = ( V , E ) G=(V, E) G=(V,E) [16]。

根据这一点;节点集合表示为 V = { v 1 , v 2 , … , v n } \mathrm{V}=\left\{v_{1}, v_{2}, \ldots, v_{n}\right\} V={v1,v2,,vn},边集合表示为 E = { e 1 , e 2 , … , e m } , ( E ⊂ V × V ) \mathrm{E}=\left\{e_{1}, e_{2}, \ldots, e_{m}\right\},(\mathrm{E} \subset \mathrm{V} \times \mathrm{V}) E={e1,e2,,em},(EV×V)。根据有向或无向边、节点的存在或不存在,或节点数量的不同,图被划分为各种类型。基本图形类型列在表1中。

表1

基本图形类型。

3.2. 复杂图形

图在实际问题中的应用要复杂得多,在用图表示这些问题时,两个节点之间可能存在多个关系,或者两个不同节点之间可能存在不同类型的关系,或者图可能由不断变化的节点和边组成,因此需要特殊的图形类型来建模和解决这些问题 [27]。在本节中,我们简要解释了流行的复杂图形类型,包括多维图形、符号图和超图。

3.2.1. 异构图

只包含一种节点类型以及单个边类型的图称为同质图。在非同质图中,存在描述节点之间不同关系的几种类型的边。在图5中给出的图中,为朋友和非朋友定义了不同类型的边。异构图包含不同类型的节点和相应的不同类型的边。异构图可以在各个领域中使用,例如 Yang 等人 [28] 创建了异构图卷积网络。

3.2.2. 多维图形

在许多现实世界的图中,两个节点之间可能同时存在多种关系 [29]。国家之间可能存在许多类型的关系,如政治、宗教、经济、文化、自然资源、权力竞赛、边界关系等,这些关系可以通过将每种关系类型视为一维来建模为多维图。通过图4,模拟了国家 A 和 B 之间的不同关系类型。

3.2.3. 符号图

图4. 多维图示例。

A和B被标记为红色,并标注为“非朋友”,表示他们不是朋友,A和D之间的边被标记为绿色,并标记为“朋友”,表示他们是朋友。

图5. 带符号图示例。(有关本图例中颜色的解释,请参阅本文的网络版本。)

3.2.4. 动态图

在许多现实世界的应用中,新的节点和边不断添加到图中。这些图在过程中持续演变[31]。例如,在在线社交网络中,用户可以与其他人建立永久的友谊关系,解除友谊关系,新用户可以加入系统。另一个例子是,可以给出网络攻击图,其中攻击和被攻击设备可以被建模为节点,攻击可以被建模为有向边,并且可以根据这些数据动态地向系统中添加节点和边。这样的演化图可以被建模为动态图,其中图中的每个节点或边都与时间戳相关联。

3.2.5. 超图

超图 H = ( V , E ) H=(V, E) H=(V,E),是由一组称为节点的 V V V元素和称为超边的 V V V元素的子集 E E E组成的结构。

图6. 超图示例。(有关本图例中颜色的解释,请参阅本文的网络版本。)

V ( H ) V(H) V(H) E ( H ) E(H) E(H)分别表示 H H H的节点集和超边集。将超图与其他图区分开的最显著特征是一个顶点连接多个节点。

图7. Petri网。

例如,在图6中,边 e 3 e_{3} e3(绿色)连接了边 v 1 , v 2 v_{1}, v_{2} v1,v2 v 3 v_{3} v3。超图可以在许多不同领域中使用,例如Zhu等人[32]提出了一种在稀疏特征选择背景下创建基于超图的拉普拉斯矩阵的新方法。这种方法具有动态性质,即适应数据变化。

3.3. 标记图

标记图是由两种不同类型的节点、位置和变迁以及连接这些节点的有向边组成的Petri网。Petri网用于模拟动态结构。在Petri网的表示中,位置表示为圆圈,变迁表示为矩形。有向边带有正整数权重。在Petri网中,位置表示状态,变迁表示事件。此外,为了显示系统的动态行为,对位置分配了令牌(点),从而得到了标记位置。位置上的硬币数量指的是该位置的数据或可用资源。标记图可以在许多不同领域中使用,例如Wiśniewski等人[33]建议一种描述设计用于控制直接矩阵变换器的物理系统的方法,使用一种称为Petri网的图表。图7给出了一个示例Petri网。

3.4. 特殊图

根据使用领域的不同,需要各种类型的图。例如,Petersen图是一种具有10个节点和15条边的特殊无向图。它为许多问题的解决做出了贡献,并以Julius Petersen的名字命名,他于1898年创造了这个最小的无桥三边着色的立体图。一些特殊图类型列在表3中。

3.5. 树

树是一种非循环图,即具有 N N N个节点和 N − 1 N-1 N1条边的连通图。它用于显示各种数据项之间的分层结构,并将数据组织成关联信息的分支。图8给出了一个外树的示例。向树添加新边会导致环路或回路的形成。有各种类型的树,如二叉树、二叉搜索树、AVL树、线索二叉树、B树等。数据压缩、文件存储、算术表达式操作和游戏树是树数据结构的一些应用。通过表4,从边、模型、路径、环路、根节点、层次结构、复杂性、遍历、连接和类型等方面比较了树和图的区别,并给出了一些应用。树的特点可以列举如下:

(a) 树的顶部是称为树根的节点。

(b) 其余数据项被划分为称为子树的离散子集。

表2

文献中现有的新综述论文。

引用年份关键词目的和对象焦点主题主要教训
[34]2019攻击图、攻击树、视觉语法、网络攻击确定攻击图和攻击树在视觉语法方面如何呈现网络攻击。攻击建模技术、网络攻击术语、攻击图的应用、攻击图和攻击树的表示、视觉语法理论、攻击图的类型。为创建和建模攻击地图(如攻击图和攻击树)提供视觉语法在科学上是非常具有挑战性的,有各种方法可供选择。
[35]2014图论、网络分析、空间和非空间图、地貌系统建模图论在地貌学及相关领域中的活跃和潜在用途。图论应提供帮助量化系统属性并推断系统行为的工具。图论工具包括代数和谱图论方法,可用于分析地貌系统的性质,包括复杂性、稳定性、敏感性和同步性。
本文2022图论、图类型、特殊图。检查基本和特殊图类型,研究它们在不同科学分支中的应用,揭示图应用中遇到的困难和解决方案。图数据科学、基本图类型、特殊图类型、图论应用领域、潜在图数据来源。图论在科学界的重要性、范围、应用领域和示例已得到丰富,图科学中的困难和解决方法也得到了分析。

图8. 外树示例。

© 树从根向下展开。

(d) 树必须是连通的,即从一个根到所有其他节点必须有路径。

(e) 树不包含环路。

(f) 树有 n − 1 n-1 n1条边。

(g) 与树相关的术语有终端节点、边、层级、度、深度、森林等。

与树相关的一些术语可以列举如下:

(a) 边:连接两个节点的线。

(b) 叶子:没有子节点的节点。

© 层级:树被划分为层级,根节点在第0级。较低的级别 ( 1 , 2 , 3 … ) (1,2,3 \ldots) (1,2,3)一直持续到叶节点。

(d) 度:给定树中节点的子树数量。

(e) 深度:给定树中任何节点的最大级别,也称为高度。

(f) 终端节点:它是顶层节点,除终端和根节点外的其他节点称为非终端节点。

4. 科学研究中的图应用

近年来,图已经成为从理论、运筹学和化学到遗传学和语言学、电气工程和地理学、社会学和建筑学等各种学科中的重要数学工具。它还包含了一门有价值的数学学科。图具有各种广泛的应用领域,在许多科学分支中得到积极应用。为了在许多不同学科和应用中使用图论,有必要了解其基本结构。此外,需要对图连接结构和类型、图的类型、图论中表达的一般定义和过程有深入的理解。在科学界中以图、图片、图形和表格呈现学术研究及其成果非常重要。尤其是近年来,信息图表广泛有效地使用。有许多研究将复杂和动态结构或系统可视化为图[1]。如图9所示,图论在不同学科中的应用领域。图具有各种广泛和全面的应用领域,在计算机科学的许多子领域中得到积极应用。表2包含近年来进行的综合编制。

图9. 图论的一些应用领域。

4.1. 工程科学

表 3

特殊的图形类型。

4.2. 数学

图论可以应用于上述许多领域,然而,图论方法也可以用来证明纯数学各个领域中的重要且著名的定理。其中最著名的方法之一是匹配理论,它是图论的一部分 [56]。塔斯基在1925年提出的一个问题是,圆是否可以被分割成一些特定无限二进制图中的正方形,拉茨科维奇在1990年通过匹配找到了答案 [57]。

表 4

图与树的区别。

树总是有 n − 1 n-1 n1 条边边的数量取决于图。
模型树是一种层次模型图是一种网络模型。
路径两个节点之间只有一条路径。可能存在多条路径,以及节点之间的单向和双向路径。
包含一个环不包含环。
根节点树中只有一个根节点,每个子节点只有一个父节点没有根节点的概念。
层次关系树具有自顶向下的层次关系,因此流动可以是自顶向下或自底向上的。图没有父子关系。
复杂性树比图复杂度低,因为它们没有循环图可以相对更复杂。
遍历树使用先序、中序和后序遍历技术进行导航。深度优先搜索(DFS)和广度优先搜索(BFS)
连接建立边和节点之间连接的规则和限制很多。连接节点和边没有规则或限制。
类型二叉树、二叉搜索树、AVL树、堆有向、无向、加权、无权…
应用树的遍历 [52]、二叉搜索 [53],…地图着色 [54],…

4.3. 物理学

统计物理学与图论之间有着广泛的历史关系。Essam在1971年发表了一项研究这些关系的论文 [58]。在统计物理学中,系统中相互作用部分之间的局部连接以及这些系统上物理过程的动态可以用图表示。在凝聚态物理学中,固体和分子系统可以被描述为哈密顿量,考虑到它们的行为与确定的 N N N 个电子之间的相互作用。

4.4. 化学

作为数学的一个重要分支,图论在化学领域具有重要意义。它通过将对象之间的关系表示为图来提供了一种建模和理解复杂系统的强大工具,其中节点代表实体,边代表连接。在化学领域,图论在各个领域都有应用,展示了其相关性和影响力。首先,图论在分子结构分析中发挥着关键作用。化合物由其分子结构定义,包括原子之间的键和连接。图论通过图的方式表示分子结构,提供了一种分析这些结构的视觉手段。例如,分子的图表示形象地展示了原子之间的键,以及任何存在的环或亚结构。此外,图论在建模化学反应网络方面发挥作用。反应通常涉及多个步骤和复杂过程。图论使得通过图表示中间产物和过渡态,有助于更好地理解反应机制。这进而有助于探索潜在的反应途径和发现新的反应。此外,图论有助于分析分子相互作用网络。分子之间的相互作用可以使用图论和网络分析方法来表示和分析。这允许检查化学性质,识别相互作用网络中的中心组件,并分析连接模式。总之,作为一门学科,图论在化学中发挥着重要作用,特别是在分子结构分析、反应机制建模和分子相互作用网络分析方面。其应用为化学家提供了对复杂系统的宝贵见解,增进了我们对分子世界的理解,并推动了该领域的进步 [59,60]。

图 10. 分子模型。

近年来,在化学领域的科学研究中,使用图论进行了许多不同和定性的研究。分子通过使用几何深度学习或图神经网络等新一代深度学习方法进行研究 [60]。图 10 给出了一个分子的示例图模型。此外,以下是一些较新研究的列表。

(a) 在化学中,图论被用于研究分子并创造新的分子 [61]。

(b) 可以使用图论来研究复杂模拟原子结构的三维空间(3D)结构,以及原子之间的拓扑。

© 图还用于表示多孔介质的微观通道,其中节点代表孔隙,边代表连接孔隙的较小通道。

(d) 图有助于建模分子结构并构建分子晶格。通过建模原子和分子之间的关系,图帮助我们比较一个分子的结构与另一个的结构 [60]。

4.5. 生物学和遗传学

图应用在生物学和遗传学领域中也被广泛有效地使用。基因序列(DNA、RNA)的表示(图 11)、基因之间的相似状态、使用图来可视化和分析重复或不同的序列(基序),[62] 以及使用图来可视化生物网络中的活细胞有许多文献案例研究。在这些研究中,图论被用于转录调控网络、代谢网络、DNA匹配和比较。生物网络中的节点、基因、蛋白质或代谢物由节点表示,连接这些节点的边显示两个相应分子之间的功能、物理或化学相互作用。

图 11. DNA建模。

4.6. 社会科学

每天都在不断发现图论的新用途和应用。图论也被用于社会学。通过树这种图的一种形式,可以创建层次信息,例如家谱 [63]。它还用于研究社会中谣言的传播或衡量演员的声望,尤其是使用社会网络分析软件。通过图应用,以下问题可以被观察到。

(a) 熟悉和友谊图表明人们是否互相认识。

(b) 在影响图模型中,一些人也可以影响其他人的行为。

© 合作图模型可用于检查两人是否以某种方式合作,例如在一部电影中共同出演。

4.6.1. 社交网络

随着信息和通信技术的重要发展,人们对社交网络的采用和使用呈指数增长 [64]。近年来,社交网络已成为一种流行的信息共享和沟通工具。此外,企业利用社交网络中用户信息进行各种用途,如服务提供商、最新品牌推荐和活动。信息分析公司利用社交趋势、用户对最新品牌的态度、社交网络进行网络和数据挖掘、情感分析和个性分析。与社交网络相关的网络挖掘主题的受欢迎程度正在增加。研究人员通过基于网络的社交网络平台进行了许多不同的信息和数据提取。例如,可以根据用户在社交网络中的兴趣、特征、行为和偏好来识别不同社区,并将其建模为图。用户可以被视为具有相似行为或态度的社区,针对特定主题或事件。例如,在图 12 中给出的图中,对 g 人的朋友、他朋友的朋友以及他们之间的关系进行了建模。

图 12. 示例社交网络图。

4.6.2. 语言学

语言学被称为对人类语言结构和发展的系统性研究。语言学家寻求回答关于语言知识是如何习得的、这种知识如何与其他认知过程相互作用、在地理区域和说话者之间如何变化以及如何用数字表示这种知识等问题。建模过程是通过图的帮助完成的。将图论应用于语言学的一些子领域,可以列举如下:

(a) 句法 [67]

(b) 词汇语义

© 语料库语言学

(d) 音韵学和形态学方法

(e) 语言复杂性的测量

(f) 语言相似性建模

4.6.3. 历史

历史事件与过去和未来的历史事件(人物、团体、国家等)之间存在复杂的关系。分析这些数据对于预测未来事件并采取预防措施至关重要。由于这些数据是关联的,因此可以通过图模型进行分析。图被有效地用于分析历史事件和国家之间的历史关系 [16]。

4.6.4. 地理学

图论被有效地应用于农业活动、农业优化和社会生态分析的地理区域分析 [68]。图在解决许多地理问题方面发挥了重要作用,如地理标记、最短路径(导航)[69]和地图着色(四色问题)。

4.7. 医学科学

图数据科学在健康领域内关系数据的分析中发挥着重要作用,利用其揭示数据元素之间的弱强连接,并有效地将数据分割为有意义的子集。这种强大的方法在医学科学中有着多样的应用,包括大脑信号分析、疾病关系的研究、疾病传播途径的探索以及DNA匹配的促进 [70]。通过将这些复杂关系表示为图并应用复杂的图算法,研究人员可以获得有价值的洞见,识别模式和相关性,预测疾病进展,并改进个性化治疗策略。图数据科学提供了一个全面的框架,用于分析和解释复杂的医疗数据,使研究人员能够解锁关键信息,并在医学科学的各个方面做出明智的决策。

4.8. 计算机科学

图在计算机的各个阶段中被广泛应用,从其创建到运行和编程。例如,自编程早期以来,计算机程序的分析一直是一个主要问题。这种分析的目的是将程序显示为有向图,估计程序的运行时间或存储需求,将大型程序分解为几个子程序,检测程序中的某些结构错误,记录程序,或者仅仅是理解他人编写的程序。提供了巨大的好处和便利。此外,计算机科学的所有子领域都是基于图的。在这方面,在计算机科学中有数百个图应用示例。总的来说,计算机科学中的图方法的各个部分、应用示例、算法、方法和表示示例在表6中给出。

图 13. 数据科学的图。

4.8.1. 数据科学

数据科学是从大量数据中提取有价值见解的基石,涵盖了一系列旨在揭示模式并生成知识的原则、过程和技术,始于现实世界数据,最终创造出最终应用于现实世界的新产品或见解的转变之旅。在这个迭代过程中,分析数据的可视化具有至关重要的意义,因为它不仅增强了发现的可解释性,还使研究人员能够从复杂的数据景观中得出有意义的叙述。利用各种可视化技术和工具,数据科学家可以有效地传达他们的发现,识别趋势和异常,并促进决策过程。通过利用视觉表达的力量,数据科学图形作为宝贵的资产,阐明了数据中复杂关系和结构,并为研究人员提供了一个全面的框架,以有效地探索、分析和传达见解。图 13 给出了一个数据科学图的示例。

4.8.2. 算法

算法在计算机科学领域占据着重要地位,是开发和改进各种应用的重要工具 [72]。在软件开发领域,开发人员通常通过设计应用程序的蓝图和结构来开始他们的努力,随后在开发过程中利用这些设计作为指导原则。基于图的算法构成了这一领域的重要组成部分,提供了各种技术,如路径查找、中心化、社区检测和聚类算法。这些基于图论的算法方法使开发人员能够导航复杂的数据结构,识别最佳路径,评估中心节点,发现有意义的社区,并对相关数据元素进行分组,从而增强应用程序开发的效率和效果。通过利用基于图的算法的力量,计算机科学家可以设计出表现出色、可扩展和适应性强的复杂智能系统,满足各种实际和计算挑战。路径查找和搜索算法总结在表 5 中。

表 5

路径查找和图搜索算法。

Ref.算法名称任务示例
[73] [74]广度优先搜索(BFS)展开树结构以发现其最近的邻居,然后是其下级邻居。在 GPS 系统中查找附近的地点以识别周边的地点。
[75] [76]深度优先搜索(DFS)它遍历树结构,尽可能深入地探索每个分支,然后返回。在游戏中探索最合适的解决方案,模拟具有分层选择的情况。
[ 77 ] [77] [77]最短路径计算一对节点之间的最短路径。在两个位置之间找到方向。
[ 78 ] [78] [78]全对最短路径计算图中所有节点对之间的最短路径。在交通拥堵中评估绕行路线。
[ 79 ] [79] [79]单源最短路径计算在具有最低成本的链接树结构中访问所有节点的路径。电话呼叫的最低成本转发。
[ 80 ] [ 81 ] [ 82 ] [80][81][82] [80][81][82]最小生成树(MST)计算在具有最低成本的链接树结构中访问所有节点的路径。优化互连路由,如布线或垃圾收集。
[ 83 ] [83] [83]随机游走返回沿指定大小路径的节点列表,随机选择要遍历的关系。用于机器学习的训练或为图算法增加数据。
[ 84 ] [84] [84]Yen’s k-最短路径最短路径、第二短路径、第三短路径等。它使用最短路径算法找到最短路径直到第 k-1 个偏差。在道路网络中审查备用路线并向用户建议最佳的 k 条路线。优化多目标跟踪
[ 85 ] [85] [85] A ∗ A^{*} ADijkstra 开发的最短路径算法。找到已知 GPS 坐标的单个位置对之间的最短路径。

通过图的帮助,可以提出一种算法,其中将不同的服务表示为图的节点,并使用边将这些服务连接起来。这些服务用于执行算法。如果有一个 S S S 计算机系统用于执行任何算法 A,如果计算机系统 A 是 S S S 的一个同构算法/服务的子图,那么从算法/服务 A 的节点到计算机系统 S 的节点之间存在一一映射。算法/服务 S S S 需要的所有其他服务在由计算机系统 S 维护的这些服务之间相互连接。因此,我们可以将 A 嵌入 S 中。如果 G1 表示一个计算机系统,G2 表示一个算法/服务,那么我们可以借助 G1 运行 G2。图算法流程示例见图 14。

4.8.3. 图信息访问语言

4.8.4. 计算机网络

网络属性,尤其是拓扑属性,可以帮助我们在网络中识别相关的基础设施。拓扑结构是指网络中节点和边的排列方式。拓扑特征可以应用于整个网络或单个节点和边 [86]。

(a) 在计算机网络中,连接的计算机之间的关系被表达为图,并受益于图论的原理 [87]。

(b) 图论也被用于网络安全(见第4.8.8节)。

© 节点着色算法可用于为任何 GSM 网络分配高达四种不同的频率 [88]。

图14. 一个示例流树。

4.8.5. 软件系统

用于图数据科学和图可视化应用的软件系统是分析大规模数据集、探索图结构中的关系并对其进行可视化的强大工具。这些系统通常具有广泛的数据处理能力,并提供基于图的分析方法和算法。此外,它们提供用户友好的界面,使研究人员和分析师能够探索其数据集,执行基于图的分析,并交互式地可视化结果。这些软件系统被广泛应用于各个学科和行业,从研究实验室到大型公司。数据科学家和研究人员将这些系统作为图数据科学研究中的重要工具,以揭示数据集中的深层连接和模式,帮助做出数据驱动的决策。

表6

计算机科学中图应用的示例。

引用子领域数据类型目的范围方法应用
[ 72 ] [72] [72]算法文本专业算法设计多功能和多样化的算法开发DFS, BFS, MST, GPA最短路径算法
[90] [72]网络挖掘文本网络结构提取网站分析WUM, WCM, WLM路径分析
[91] [92]神经网络神经元,权重,边神经网络建模深度学习梯度下降,牛顿法,共轭梯度,…基于图的人工智能应用
[ 86 ] [86] [86]计算机网络文本网络建模和分析互联网星型,总线,令牌环,树,网状校园网络等
[ 88 ] [88] [88]GSM文本GSM 区域网络建模和频率分配GSM 网络节点着色GSM 网络
[90] [72]网络日志挖掘提供文本,图像,文件将网页文档作为搜索引擎中的一个集群互联网聚类,图分割网页
[69]GPS文本路线创建,最优路线查找,定位GPSDijkstra,迭代最小二乘法,GPS 定位算法GPS 设备,自动驾驶车辆
[93]匹配文本DNA 匹配,数据比对遗传学,数据科学最大匹配,Kuhn-Munkres 算法遗传科学,数据挖掘
[94] [95]文本工作流程图商业最大流,最小割,Menger工作流程图
[ 96 ] [96] [96]数据库文本关系可视化数据库软件世界noSQL数据库

4.8.6. 编程语言

图论编程语言(GTPL)是用于操作图的 FORTRAN 语言的扩展。它被认为是 FORTRAN 编程语言的一个方言。GTPL 可以处理图的集合。关于该语言的详细信息可以在研究中找到。语言的选择取决于给定问题和分析的目标。

4.8.7. 移动网络

全球移动通信系统(GSM)是手机的地理区域网络。地理区域被分割为大小不同的六边形区域或单元。通信塔连接到特定的单元。手机通过这个通信塔连接到特定的单元,所有手机通过找到附近区域的单元连接到 GSM 网络。GSM 网络有四个不同的频率范围。因此,可以使用四色图来为单元区域着色。节点着色算法可用于为任何 GSM 网络分配四种不同的频率 [88]。这不仅简化了网络,还根据用户的需求改善了频率调谐。GSM 及其相关组件可以用图进行建模。

4.8.8. 网络安全

图论概念可用于网络安全中实时/离线表示网络攻击 [97]。例如,一个具有 n \mathrm{n} n 个节点的图 G G G,我们寻找大小最多为 k \mathrm{k} k 的峰值。我们的目标是发现图中一组节点的最小区域,这些节点的顶点可用作路由服务器,其边将用于连接这些路由服务器。然后必须找到一种蠕虫循环解决方案,并尝试为网络定义针对仅在相应峰值处进行蠕虫循环的防御策略。如果图 G G G 具有一组 E E E 条边,则称其跨越 G G G,如果 G G G 的每个顶点至少出现在 E E E 条边中的一条上。此外,图可用于进行实时威胁分析 [3]。这可以使安全分析人员相应地部署防御机制。失败尝试也可以通过图形式呈现在特定系统中。

4.8.9. 网络和网络挖掘

Web 文档可以作为搜索引擎中的一个集合提供。Web 文档聚类是将相似类型的 Web 文档组织在同一类别或服务器中的过程。建议将相似类型的 Web 文档保留在一个簇中,以优化查询和适当的信息检索。聚类广泛应用于信息检索过程和 Web 文档集合 [90]。K-means 聚类算法是一种特殊的聚类算法,其中每个数据项仅与一个簇相关联。在 k-means 聚类算法中,每个簇由簇的中心点表示,称为均值点。k-means 算法可以分为四个步骤:

  1. 确保不同文档被分成非空子集。
  2. 计算每个簇的均值点。
  3. 将每个文档与最近的簇种子点相关联。
  4. 返回到步骤2:当没有更多文档与集合中分离时,停止循环。

4.8.10. 无线传感器网络

无线传感器网络(WSN)具有许多应用,如国防应用和监测不同移动对象。一种特殊类型的图称为 Voronoi 图,它解析由距离确定的度量场,以描述空间中的一组不同对象。Voronoi 图在平面上绘制,通过多边形帮助表示不同节点作为传感器,多边形的边界被视为每个传感器的间距。借助图形,可以有效地对传感器放置和感兴趣区域的覆盖范围进行建模。

4.8.11. 运筹学问题

图着色技术在计算机科学的许多实时应用中非常重要。根据实时应用的要求,有许多着色方法可用(分离和节点着色)。在图中,通过相同边连接的两个节点不具有相同颜色的规则被应用于基于图的两层架构的聚类。这种类型的图称为彩色图,图中使用的最小颜色数称为色数。

表7

数据分析中图应用的示例。

引用网络类型节点节点属性边属性
[ 100 ] [100] [100]航空网络机场行人,航站楼,人员,城市人口,国际/国内,交通,机库容量飞机,航线频率,乘客数量,飞机类型,燃料使用量,飞行距离,空座位数量
[ 101 ] [101] [101]银行网络账户持有人姓名,人口统计学,产品,账户状态,余额其他细节交易类型,金额,认证离子,时间,位置,设备
[ 102 ] [102] [102]社交网络用户姓名,人口统计学,链接,喜欢,圈子,订阅交易车辆(喜欢/评论/直接消息),时间,持续时间,内容类型,主题
[103]医生网络医生人口统计学,专业,经验,关系(类型和大小),每周招聘病人人口统计学,诊断历史,就诊频率,目的,转诊,保险
[ 104 ] [104] [104]供应链网络仓库位置,大小,容量,存储类型,耦合,手动/自动卡车装载能力,轮数,制造年份,地理许可,行驶里程数,维护成本,驾驶员经验
[ 16 ] [16] [16]国家关系网络国家管理员,军队,非政府组织关系邻国,语言,宗教,权力竞赛,边界冲突,政治,自然资源
[ 92 ] [92] [92]互联网网络用户计算机,手机,平板电脑,智能设备连接互联网协议

4.8.12. 区块链

近年来,区块链技术变得越来越流行。现在几乎任何用户都可以直接与世界上的任何其他用户建立点对点连接并共享信息。在区块链领域,有许多图应用,例如基于图的计算资源分配、基于智能合约的协议建模、交易分析 [98]、用户互动和并行健康服务。数字货币,其中最著名的是比特币,为区块链技术奠定了基础,并在其发展中起到了重要作用。图在分析和使数字货币的运动更易理解方面发挥着重要作用 [99]。举例来说,账户地址可以表示为节点,这些账户之间的交易可以表示为边,但根据分析类型的不同,节点和边的集合可能会有所不同。

4.8.13. 计算机视觉

计算机视觉应用正在日益扩展。图论可以通过抽象化底层过程在计算机视觉应用中得到广泛应用。它还可用于建模和分析复杂应用。计算机视觉中图的一些示例包括:基于图着色的监控视频摘要、利用稀疏显示结合上下文信息进行视觉跟踪、使用加权着色问题进行小禁止诱导结构的双图类特征化、NP完全问题解决方案、用户运动图和计算机视觉应用分类形状表示和匹配 [105],以及人类活动的识别。

4.8.14. 数据库

图数据库是一种NoSQL数据库,旨在克服关系数据库的限制,它使用节点、边和特征来表示和存储数据。图数据库为用户提供了在存储、可视化和分析图数据方面的速度和便利性 [106]。在图数据库中,关系优先,并且可以标记、路由和添加属性。图模型明确地展示了数据节点之间的依赖关系,而关系模型和其他NoSQL数据库模型则通过隐式链接绑定数据。

4.8.15. 优化

市场篮分析的目的是了解哪些产品有强烈的共同购买倾向。更一般地,可以使用图论对产品共同购买、同时受欢迎的人、股票价格的联动、一起出现在电影中的演员等之间的强相关性进行建模 [107]。优化安全摄像头的目的是用最少的摄像头查看最多的区域。这个问题可以用图论进行建模,并可以得出解决方案(见表7和8)。

4.8.16. 数学图

数学图可以被视为一个起点,因为它们探索了一般的结构和属性。在图论中,会提出关于图的一般性陈述,并寻求它们的解决方案。例如,著名的四色问题是由弗朗西斯·古瑟里于1852年提出的一道地图着色问题,直到今天,数学解决方案仍未被找到。通过将城市、节点和邻域描述为给定地图上的边,这个问题已经演变成了一个平面图问题。莱昂哈德·欧拉(1707-1783)的七桥问题和关羽明(1962)的中国邮差问题可以作为例子。

4.8.17. 抽象数据类型图

与数学图类似的是,在理论计算机科学中定义和使用的抽象数据类型图。在计算机科学中,抽象数据类型是数据类型的数学模型。抽象数据类型被定义为可能的值以及对这些值的可能操作。这些图包含有限数量的节点,并且是无向的。

表8

潜在的图数据来源。

Ref.数据类型示例解释
[ 100 ] [100] [100]节点边数据集航空数据是节点(机场)和链接(机场之间的航线)。
[ 90 ] [90] [90]连接日志网络日志现实世界的网络系统可能会产生大量数据,需要以编程方式处理数据。
[108]交易日志购买、电子邮件市场篮分析是通过将单个交易中所有购买的物品组合在一起创建的图表(购物篮中的所有物品都有关联)。
[ 109 ] [109] [109]序列数据客户路径、专利引用序列也可以在许多其他数据类型中找到。一个很好的例子是根据患者就诊情况创建医生网络,通过为同时向同一患者开具账单的多个医生创建链接。
[ 110 ] [110] [110]非结构化数据推文推文是一个丰富的数据源,您可以通过搜索推文中的标签(即用户定义的主题)、用户名或股票符号的共现来探索不同类型的节点和链接。
[111]矩阵贸易、移民国家之间的全球贸易可以表示为一张数字表。然后可以将矩阵表示为图。
[ 112 ] [112] [112]统计相关性股票、新闻报道如果两只股票的价格同时上涨和下跌,可以说它们具有强相关性,可以通过两个时间序列数据的函数进行统计计算。
[ 64 ] [64] [64]两种数据类型董事会成员对高管和董事会成员进行图形分析可以揭示通过董事会成员之间的联系而连接公司之间的关系。这个例子中的两种不同数据类型是人和公司,它们是节点。董事会成员是将一个人与一个公司连接起来的边。
[ 102 ] [102] [102]多种数据类型社交关系领英公司、友谊、教育机构、团体成员等之间的连接。在大多数商业情况下,每种连接类型可以存在于不同的数据库中,这使得整合这些不同数据变得更加困难。

4.8.18. 计算图

计算图是一个方向图,其中节点对应于数学运算。它是一种可视化和分析数学表达式的方法。计算图是具有等式数据的图。它是一种代表数学表达式的有向图形式。一个非常常见的例子是后缀、中缀和前缀计算。图中的每个节点可以包含操作、变量或方程本身。

4.8.19. 属性图

属性图中的关系不仅表示一个链接,还表示一个名称(类型)和属性。属性图擅长区分分布在各种数据架构和数据模式中的数据之间的关系。它提供了更丰富的见解,展示了如何在许多不同数据库中对数据进行建模以及数据类型之间的关系。

4.8.20. 图数据库

图数据库非常适合存储和浏览数据作为关系。图数据库使用节点存储数据,使用边存储它们之间的关系。边始终具有起始节点和结束节点、类型和方向,并且可以描述父子关系、操作、所有权等。节点可以拥有的边的数量和类型没有限制。连接或关系的转换非常快速,因为在查询期间不会计算节点之间的关系,并且这些关系会持久存在于数据库中。在处理金融交易时,图数据库用于实时处理关系。通过快速的图查询,可以很容易地检测到,例如潜在买家正在使用与已知欺诈案例中发现的相同电子邮件地址和信用卡。使用图数据库,可以轻松识别关系模式,例如与个人电子邮件地址相关联的人或共享相同IP地址但居住在不同物理地址的人。

4.8.21. 概率图模型

概率图模型通过图形统计地建模复杂的复合多变量概率分布。换句话说,它有助于找到随机变量之间的条件独立关系。它对于在图上分离子集、团和函数非常有用。

4.8.22. 图神经网络

图神经网络(GNN)是一类设计用于推断以图形建模的数据的深度学习方法。GNN是可以直接在图形上实现的神经网络,并提供了在节点、边和图级别执行预测任务的简便方法。

图15. 示例神经网络。

使用图论对路径分析、链接检测和分析、社区分析、通信和中心性进行图形分析。它在社交媒体、计算机网络、网络安全和物联网解决方案系统中得到积极应用 [113],用于药物靶标相互作用的预测 [59]。它通过路径分析用于确定图中两个节点之间的最短距离 [90]。它通过链接分析用于检测图中的弱、强和异常链接。它通过社区分析用于研究社交网络中相互交互的人群。也被称为距离和基于密度的分析。它通过中心性分析用于发现复杂和密集连接的节点。有许多不同的软件平台和工具可用于实现所有这些应用。例如;图 [114] 如图16所示,使用neo4j图数据库创建,是属于物联网系统的数据结构的一部分,由五种类型的节点组成,测量类型(2个节点,绿色)、测量(11个节点,红色)、设备(10个节点,黄色)、位置(13个节点,紫色)、区域(4个节点,灰色)。

图16. 图数据库中数据模型的片段[115]。(有关本图例中颜色的解释,请参阅本文的网络版本。)

(a) 图对于理解一个对象与其他系统之间的关系类型很有帮助。

(b) 物联网中的数据管理是一个复杂的任务,图解决了这种复杂性。

© 图数据库有助于发现和理解新的、旧的、大的和小的关系。

(d) 物联网数据不断增长,并将在未来继续增长。通过使用图技术来理解给定数据,可以对这些数据进行解释。

5. 知识图谱与机遇

知识图谱,也称为语义网络,表示现实世界实体(对象、事件、情况、概念等)之间的关系。这些信息存储在图数据库中,并以图形式可视化。在知识图谱中,节点表示相关实体,边表示这些实体之间可能不同的关系。知识图谱的目的是积累和传达现实世界信息[116]。

图17展示了关于网络攻击的简单知识图谱示例。通过这个图表,网络系统中攻击者与目标之间的关系以一种易于理解的方式进行了可视化呈现。

图17. 网络攻击知识图谱示例[117]。

知识图谱的核心是信息模型,这是一组相互连接的概念、实体、关系和事件描述。(a)描述具有形式化语义,以便人类和计算机可以高效清晰地处理;

(b)在定义中,每个实体通过形成网络相互贡献,其中与之相关的实体代表定义的一部分;

(c)通过将不同数据与信息模型中的语义元数据链接来定义不同的数据。

在使用形式化语义来表达和解释信息图表数据时,有用于表示和建模的工具,例如类、关系类型、类别和自由文本描述:

(a)类:在类的概念中,每个实体通常属于一个类,符合面向对象设计的原则。

(b)关系类型:标记实体之间的关系,以提供有关关系性质的信息。

(c)类别:实体可以与描述其语义的类别相关联。类别由分类法定义和排序。

(d)自由文本描述:为了进一步澄清资产的设计目的并改善搜索,添加用户友好的文本描述。

并非每个知识库都是知识图谱。知识图谱最重要的特征是实体描述必须相互连接。因此,一个实体的定义必须包括另一个实体。没有形式结构和语义的知识库不是知识图谱。知识图谱应用领域的分类法如图18所示。

在科学世界进行的研究成果通过图、图片、图形和表格呈现是非常重要的,以便让人们能够理解。图形可视化近年来几乎已成为分析和制作这些研究的有意义输出几乎不可或缺的工具。文献中有许多研究,这些研究将复杂、动态和大型结构或系统可视化为图形[1,119-121]。全球公共机构和组织,大多数公司处理大量的大数据,但大多数公司无法利用这些数据做出更明智的决策或探索新的机会。信息图表可以帮助组织和公司从他们产生的大数据中获得洞察。在将知识图谱应用于谷歌搜索引擎之后,其受欢迎程度大大提高,并且在许多领域中得到积极应用。知识图谱可以被任何规模的企业用来使数据易于访问和搜索。

简单来说,知识图谱代表一组相互连接的实体。通过添加语义元数据来创建语境,建立关系,这些关系可以被人类或人工智能算法处理。它在流行的社交网络平台(如谷歌、领英、Facebook、Netflix和Instagram)中被特别有效地使用。例如,领英是一个专业人士的社交网络平台。知识图谱由“成员”等实体组成,关于它们的相互关联信息,如“技能”、“工作”、“公司”和“地理位置”。这些实体之间的关系建立在领英知识图谱之上。这有助于领英改进推荐、搜索结果、货币化、消费者产品和业务分析。知识图谱正在成为研究和研究团队的一个重要组成部分,因为它们利用人工智能和机器学习进行快速逻辑推理,提供结构化数据,并减少冗余。此外,这样的图表有助于分析操作,并是存储和管理信息的最佳方法之一。因此,具有大量数据的公共机构和组织可以应用信息图表,大公司有效地使用这些图表,在商业生活中开辟了巨大的机遇。

由于其提供的机会,信息图表在科学研究中被广泛且有效地使用。语义网络经常用于自然语言处理、数据库关系、数据和网络挖掘、食品科学和工业等科学研究[119,122]。信息图表的输出使研究人员和读者在理解、理解和路径选择方面能够导航。这些巨大的机会清楚地表明,知识图谱的视角将在未来变得更加广泛,并被更加有效地使用[90]。

图18. 知识图谱应用领域[118]。

6. 限制、挑战和解决方案

图形可视化中的限制和挑战在推动创新、改善用户体验、塑造研究方向、实现实际应用和促进领域伦理方面发挥着关键作用。它们作为克服障碍、增强图形可视化技术的有效性和可用性的指导因素。以下是总结图形可视化的挑战和限制的一般性陈述:

(a)数据规模:处理大规模图可能在计算上要求较高,并在性能和数据理解方面带来挑战[124]。

(b)视觉复杂性:节点和边密度高的图可能导致视觉混乱的表示,使准确解释数据变得困难。使用图算法分析大数据的另一个限制是应用运行的硬件[3]。

(c)布局和放置:确定节点和边的最佳排列以有效表示关系可能是一项复杂的任务,找到最佳解决方案可能具有计算挑战。图需要关系数据类型,因为它们由节点和连接这些节点的边组成,因此基本上受到限制。在将大数据可视化为图形时的最大限制是无法将所有数据表示为单个图上的节点和边。在扩展图中,使用边的数量在构建具有线性边数的任意扩展图时要比通过概率论证明为足够的数量大得多[123]。

(d)数据失真:图形可视化中的视觉表示可能引入失真,可能会误代表底层数据并阻碍准确解释。

(e)数据依赖性:图形可视化依赖可靠和适当准备的数据,数据中的任何问题或不准确性都可能影响可视化的质量和理解。虽然在理论上可以应用透明度来应用淡化效果,但在实践中,这仅适用于非常有限数量的颜色。(f)用户需求:满足图形可视化中用户的多样化需求和偏好可能具有挑战性,因为不同的用户群体可能具有不同的要求和目标。在图形可视化中通过颜色表达其他特征,可以通过淡化过去的节点来继续进行。然而,使用这种技术来可视化时间仅限于两种情况:之前和之后。

(g)数据获取:收集相关和准确的数据以创建图形是一个重要挑战。可能涉及从各种来源收集数据,确保数据质量,并解决缺失或不完整的数据。

(h)图结构:根据数据和预期目的确定适当的图结构至关重要。选择正确类型的图(如有向或无向、加权或非加权)并定义节点之间的关系可能具有挑战性,特别是对于复杂和多样化的数据集。
(j) 数据表示:选择适当的属性和属性来表示图中的节点和边是具有挑战性的 [3]。这涉及识别需要捕获的相关信息,并决定如何有效地对其进行编码。

(k) 噪声和不确定性:处理嘈杂或不确定的数据是图生成中常见的挑战。在保持图结构完整性的同时解决不一致性、错误和缺失信息可能会很复杂。

(1) 可视化和解释:生成一个视觉上吸引人且易于解释的图是具有挑战性的。选择适当的可视化技术、布局算法和标注策略以有效传达信息对于促进理解和洞察至关重要 [3]。在像地图这样的图中,水平和垂直维度被保留用于基本表示本身,因此不能用于表示时间。当同时使用这两种表示时,这就带来了挑战。在比较图状态时没有固定的参照框架会使理解变化模式变得困难。

(m) 领域特定考虑:在不同领域(例如社交网络、生物网络、交通网络)中生成图通常需要领域特定的知识和考虑。了解领域特定的需求和约束对于生成有意义且相关的图至关重要。在提供任意复杂身份函数的图中进行模式匹配是一个挑战。在图中提取频繁模式是困难的,因为支持操作在计算上代价高昂。用图表示时间维度是困难的 [13]。解决这些挑战需要结合数据预处理技术、算法方法、领域知识和图生成方面的专业知识。

图19. 动态图的发展阶段示例 [125]。

这些挑战和限制突显了在图可视化领域进行持续研究和发展以解决这些问题,并提高可视化技术的有效性和可用性的重要性。

用图表示时间维度是困难的。在科学界已经普遍接受,顺序表示比同时表示随时间变化的状态信息更少。例如,时间序列条形图更适合传达随时间变化的行为,而不是用单个条形图动画显示变化。在后一种情况下,反复滚动动画以查看时间变化是一种获取变化概况的手段,但不如时间序列直观,准确用于比较,或者容易发现行为之间的相关性。能够同时看到随时间变化的值更为有效。然而,目前并不清楚这个原则如何适用于图 [1]。例如;Twitter网络可以被称为动态网络模型,因为用户和消息之间存在随时间变化的互动。所有边缘都带有时间戳。在这样的动态图中,预测未来的互动,比如用户会喜欢哪条消息,以及关注哪个人,并使其在视觉上易于理解是一个挑战。图19给出了一个显示随时间变化的示例动态图。地图上节点的空间位置相对于固定的地理参考框架具有意义,而图中节点的空间位置仅在具有与其他连接节点的关系的动态参考框架中具有意义。在比较图时没有固定的参照框架会使理解变化模式变得困难。很明显,在许多领域和部门广泛有效地使用图是非常重要的。特别是,在信息图表中使用和指导人们理解事件和过程更快更容易。从最简单到最复杂的系统进行图分析。然而,在使用接收到的数据创建图形和可视化具有动态或非动态图结构的系统时,存在多方面和多样化的挑战。此外,在实施和使用数据和可视化时涉及一些重要问题。以下是在每个领域中使用的图结构中遇到的一些一般困难 [126]。

(a) 数据收集:动态图中的第一个挑战是它需要强大、快速和安全的连接,因为在其上流动的数据是同步的。数据可能是不完整的、不规则的或不准确的。收集非必要数据会增加时间、成本和复杂性。此外,排除有用数据的可能性可能会限制数据集的商业价值并影响分析结果。

作为解决方案,需要强大的计算机和互联网基础设施。

(b) 数据质量问题:原始数据通常包含错误、不一致和其他问题。尽管数据收集措施旨在防止或最小化此类问题,但它们并非百分之百可靠。需要进行数据概要分析以识别收集数据中的问题,并进行数据清洗以修复这些问题。

© 查找相关数据:对于数据科学家来说,收集要在复杂和大规模系统上进行分析的数据可能是一项复杂的任务。使用数据补救技术有助于促进找到和访问有意义数据的过程。

(d) 处理大数据:大数据环境可能包含结构化、非结构化和半结构化数据的组合,使得初始数据收集和处理更加复杂。作为解决方案,需要过滤存储的原始数据集。

(e) 低响应和其他研究问题:在研究中,调查中未回答的问题或虚假参与者会对收集的数据的有效性产生疑问。其他研究困难包括教育人们进行数据收集,并建立足够的质量保证程序以确保数据准确性。

(f) 可视性:显然,节点、边和标签等元素在某一点之后会重叠,以便在有限的区域内显示大图。几何缩放可能是最简单的解决方案,但会限制用户查看资产的上下文信息的能力。

作为解决方案,数据可以按重要性顺序呈现给用户。

(g) 性能:大图有大量数据需要处理进行可视化,这一系列操作可能会显著降低可视化器的响应性,软件可能会消耗设备的资源。清理垃圾数据和数据分类可能是解决方案。

(h) 适应性:在交互式探索和领域特定使用方面,确定从用户角度看哪些数据方面是重要的是一个主要挑战。需要一套工具,使数据可视化的定制对于非专家来说直观易懂。这些工具可以设计为具有人工智能支持。

(i) 自动化:手动定制,并将所有修改任务留给用户以满足用户需求可能会增加用户感知到的复杂性,并导致用户花费更长时间才能产生结果。作为解决方案,需要最小化手动定制。

(j) 对节点进行着色:在可视化大数据的过程中,节点、边和标签可能会重叠。因此,在节点或边上进行着色处理将无法提供视觉分离。对数据进行分类并将其呈现为层可能是解决方案。

(k) 复杂性:大数据中的实体可能具有数百个链接和属性,并包含许多不一致性。可视化器应为用户提供可以管理的选项或提供简化任务的方法。

(1) 社区:开发一个包含多种工具并涵盖多个领域的多功能可视化系统是困难的。需要强大的社区支持来开发这样的系统。

(a) 有机动画

随着图形的增长,要在图中标记足够多的内容以跟踪并充分理解节点运动的含义变得更加困难。图形需要一个固定的参考框架才能真正提供信息。通过动画可以使变化更易于理解。

(b) 全时段布局

可视化图中变化的最有效方式之一是对所有节点和边在整个时间跨度上应用和保持顺序。固定布局提供了一个一致的参考框架,使变化更容易被发现。

© 幽灵效果

图形比较的另一种方式是移动不再存在的节点,并在下一个视图中以淡化的形式表示它们。

(d) 渐隐

这是根据自离开图形以来经过的时间不断淡化先前节点的表示。

(e) 社区演化

仅布局或增强颜色的布局可用于可视化社区。然而,为了比较整体结构,布局和颜色中的一个必须在两个视图中显示相同的结构,另一个必须分别应用于每个视图。

7. 未来研究方向

随着互联网的普及和移动设备以及智能手机的发展,世界上大部分人口积极广泛地使用社交网络。通过分析使用不同特性作为原则的各种社交网络环境的人们留下的痕迹以及他们输入的信息,可以对这些人进行许多信息推断。在这一部分中,通过检查社交网络中图的存在关系状态,制作了视觉图模型,这些图在社交网络中有许多应用领域。如今,物联网解决方案是热门和非常常见的研究课题,在社会中得到了很好的响应。物联网解决方案在智能家居和建筑物、智能城市、智能自动化系统、智能电网、智能能源系统和多传感器应用等许多领域得到了发展。在包括传感器、人类和移动设备的物联网中,网络并没有变得更大,而是变得更加复杂和动态化 [128]。网络的时空动态由与网络组件相关的特征信息的拓扑变化和时间变化表示。了解动态网络的趋势和模式变得越来越重要。人们倾向于研究人们如何循环以及大规模动态网络可视化的反馈如何进一步改进数据挖掘和机器学习,尽管数据挖掘方法通常用于分析网络的统计特性。基于动画和快照图形序列的传统可视化方法也受到人类认知能力的限制。图被用来模拟神经网络。神经网络包含节点和边,如图15所示。最近,图神经网络(GNN)在信息图表、推荐系统和社交网络等各个领域日益流行。GNN在模拟图中节点之间的依赖关系方面的能力已经在图分析研究领域引起了革命性变化 [92,101,129]。由于传统深度神经网络无法正确解析数据,最近使用几何深度学习方法分析图的兴趣与日俱增 [130]。将几何深度学习应用于图是一个相当新颖的领域。拥有数百万甚至数十亿边和节点的图形具有挑战性,但对于把握大数据中隐藏的信息至关重要 [131]。图论方法在大数据可视化方面继续扩展和发展 [2]。

社会自从开始形成的第一天以来一直在不断增长和发展。被称为狩猎社会的社会1.0,被称为农业社会的社会2.0,被称为工业社会的社会3.0,被称为信息社会并可追溯到20世纪的社会4.0,以及被称为超智能社会并被预见为未来的社会5.0,如今仍在讨论中。社会5.0的基本模式是从“现实世界”收集数据,由计算机处理,并将结果应用于现实世界 [132]。这种基本机制被大多数我们依赖的系统所使用。它构成了负责为我们的家庭提供充足和不间断电力供应的系统以及确保交通运行及时安全的系统的基础。这种机制基于计算机化的自动控制。术语“信息社会”意味着一个社会,其中这些系统中的每一个都收集数据,处理数据,然后在特定的现实世界环境中使用结果。图技术也被用于获取、处理和解释这里的数据。

8. 结论

图形在历史上解决和分析许多未解决的问题中起着重要作用。如今,图形变得如此流行,以至于几乎在每个领域都可能遇到用图形建模的问题或算法。在这项研究结束时,无论在哪个研究领域,如果我们拥有的数据是关系数据,图形都是通过可视化分析和理解数据最合适的工具。图论是一个重要而丰富的领域,在工程、建筑、编程和设计等许多专业应用中得到有效应用。特别是,图形在作为指南模拟复杂和困难问题方面提供了极大的便利。图形可用于解决一些非常复杂的问题,如低成本路由、制图和程序分析。它使用图形来计算路由器和交换机的流量中的最佳路由,这些设备是网络系统的主动设备。此外,在印刷电路板、城市、高速公路和航空线、计算机网络等领域,图形在科学中得到了有效应用。本研究为图论带来了广阔的视角,并试图为研究人员指引学术研究。图论在科学界的有效力量得到了揭示。特别是,通过示例探讨了物联网解决方案系统的图形可视化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值