Spark：有向无环图（DAG）检测

最新推荐文章于 2024-06-16 23:28:11 发布

程序の之道

最新推荐文章于 2024-06-16 23:28:11 发布

阅读量2.8k

点赞数

文章标签：大数据 hadoop flink storm hbase

本文链接：https://blog.csdn.net/weixin_44233163/article/details/86527446

版权

本文介绍了Apache Spark及其核心数据结构RDD，深入讲解了有向无环图（DAG）的概念，包括入度、出度以及DAG在任务调度中的重要性。通过实例阐述了DAG的环检测算法，并提供了检测有向图环路的条件。文章适合对大数据和Spark感兴趣的学习者阅读。

摘要由CSDN通过智能技术生成

Spark背景介绍

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是一种与 Hadoop 相似的开源集群计算环境，拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

RDD，全称为Resilient Distributed Datasets，中文翻译弹性分布式数据集，是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。RDD是Spark的灵魂，一个RDD代表一个可以被分区的只读数据集。RDD内部可以有许多分区(partitions)，每个分区又拥有大量的记录(records)。

RDD之间的依赖关系是靠有向无环图(DAG)表达的，下面看下有向无环图的基本理论和算法。

有向无环图(DAG)

在图论中，边没有方向的图称为无向图，如果边有方向称为有向图。在无向图的基础上，任何顶点都无法经过若干条边回到该点，则这个图就没有环路，称为有向无环图(DAG图)，如下图所示，4->6->1->2是一个路径，4->6->5也是一条路径，并且图中不存在顶点经过若干条边后能回到