源码分析
平平无奇小码农
分享一些自学大数据的相关学习笔记
自我总结及工作中遇见的相关问题解决方案
个人碎碎念
展开
-
FlinkSQL每小时消费一次kafka数据——批写hive
待更新。。。原创 2021-08-26 11:04:43 · 499 阅读 · 0 评论 -
flink消费kafka关联hbase数据入表——异步IO超时等问题
待更新。。。原创 2021-08-26 11:00:53 · 366 阅读 · 1 评论 -
spark内核(下)——job任务提交源码解析
Driver ---->main ----> SparkContext ---> RDD ---> RDD ---->RDD ---RDD.collect()第一部分: SparkContext的构造SparkContext (Driver构造) 核心属性: var _env: SparkEnv : 封装了Spark所有的环境信息(cache,序列化器,BM) _env = createSparkEnv(_conf, isLocal, listene原创 2020-12-16 01:04:00 · 209 阅读 · 2 评论 -
Spark源码解析之——YARN Cluster模式
YARN Cluster模式执行脚本提交任务,实际是启动一个SparkSubmit的JVM进程;SparkSubmit类中的main方法反射调用YarnClusterApplication的main方法;YarnClusterApplication创建Yarn客户端,然后向Yarn发送执行指令:bin/java ApplicationMaster;Yarn框架收到指令后会在指定的NM中启动ApplicationMaster;ApplicationMaster启动Driver原创 2020-11-08 18:17:40 · 1239 阅读 · 1 评论 -
Spark内核(上)——附:两种Yarn模式源码解析
文章目录一、Spark内核概述1.1 Spark核心组件回顾1.1.1 Driver1.1.2 Executor1.2 Spark通用运行流程概述二、Spark通信架构概述3.1 Spark中通信框架的发展:Driver:Executor3.2 Spark通讯架构解析三、Spark部署模式3.1 YARN模式运行机制3.1.1 YARN Cluster模式3.1.2 YARN Cluster源码①SparkSubmit精细版:精简版:SparkSubmit总结:②Appl原创 2020-11-07 00:39:49 · 1724 阅读 · 2 评论