Spark源码解析
文章平均质量分 77
从Spark Demo开始Spark源码分析
Yuan_CSDF
被大数据埋没的销售人才
展开
-
Spark源码解析(八)Spark Shuffle发展历程
1. ShuffleManager发展概述在Spark的源码中,负责shuffle过程的执行、计算和处理的组件主要就是ShuffleManager,也即shuffle管理器。而随着Spark的版本的发展,ShuffleManager也在不断迭代,变得越来越先进。在Spark1.2以前,默认的shuffle计算引擎是HashShuffleManager。该ShuffleManager而HashShuffleManager有着一个非常严重的弊端,就是会产生大量的中间磁盘文...原创 2021-08-05 22:15:21 · 362 阅读 · 0 评论 -
Spark源码解析(七)Action算子解析
这里以org.apache.spark.examples.SparkPi为例。当执行reduce(_+_)方法时,其底层调用了sc.runJob方法。核心代码如下:/** * 注释:(rdd, func, partitions, callSite, resultHandler, properties) * 1、应用程序调用 action 算子 * 2、sparkContext.runJob() * 3、dagScheduler.runJob() * ...原创 2021-08-04 20:55:08 · 466 阅读 · 0 评论 -
Spark源码解析(六)Spark RPC样例
1.RpcServer类:object RpcServerTest { def main(args: Array[String]): Unit = { val conf = new SparkConf() val sparkSession = SparkSession .builder() .config(conf) .master("local[*]") .appName("test rpc").getOrCreate()原创 2021-07-25 19:09:17 · 196 阅读 · 1 评论 -
Spark源码解析(五)初始化SparkSession
1.client向master注册在ClientEndpoint启动成功后,会想master注册APP消息。在StandaloneAppClient的onStart()方法中执行registerWithMaster(1)-->registerMasterFutures.set(tryRegisterAllMasters())。在tryRegisterAllMasters方法中内部使用Endpoint进行注册通信。当Master接收到消息。如下代码,核心代码为 schedule()。/**..原创 2021-05-11 22:22:21 · 450 阅读 · 0 评论 -
Spark源码解析(四)第一部分总结
111原创 2021-05-09 22:29:27 · 175 阅读 · 1 评论 -
Spark源码解析(三)任务提交流程分析
通过学习Spark源码为了更深入的了解Spark。主要按照以下流程进行Spark的源码分析,包含了Spark集群的启动以及任务提交的执行流程:Spark RPC分析 start-all.sh Master启动分析 Work启动分析 spark-submit.sh脚本分析 SparkSubmit分析 SparkContext初始化5.spark-submit.sh脚本分析通过spark-submit.sh提交任务,查看详细信息,如下:set CLASS=org.apache.spa原创 2021-05-08 19:03:43 · 308 阅读 · 1 评论 -
Spark源码解析(二)集群启动脚本分析
通过学习Spark源码为了更深入的了解Spark。主要按照以下流程进行Spark的源码分析,包含了Spark集群的启动以及任务提交的执行流程:Spark RPC分析 start-all.sh Master启动分析 Work启动分析 spark-submit.sh脚本分析 SparkSubmit分析 SparkContext初始化2.start-all.sh源码分析,我这里使用的Spark版本是Spark2.4.7。使用scala版本是Scala2.11。1.start-all.sh原创 2021-04-29 08:04:04 · 424 阅读 · 1 评论 -
Spark源码解析(一)Spark RPC分析
通过学习Spark源码为了更深入的了解Spark。主要按照以下流程进行Spark的源码分析,包含了Spark集群的启动以及任务提交的执行流程:Spark RPC分析 start-all.sh Master启动分析 Work启动分析 spark-submit.sh脚本分析 SparkSubmit分析 SparkContext初始化1.Spark RPC分析1.1.概述了解Spark分布式集群的执行流程,那就不得不从Spark的网络通信说起,例如:driver和master的通信,原创 2021-04-28 20:39:03 · 510 阅读 · 0 评论