spark
zlg358outlook
专注数据分析好几年吧
展开
-
spark认知理解(一)RDD与DAG
目录1. spark介绍2. RDD理解2.1 RDD概念2.2 Partition分片2.3 Partitioner3. 宽窄依赖4. stage划分4. spark与DAG注脚1. spark介绍spark是基于内存计算的大数据并行计算框架。特性:DAG执行引擎,可分布式,基于内存计算。2. RDD理解RDD:是弹性分布式数据集(Re...原创 2019-07-02 00:32:04 · 1714 阅读 · 0 评论 -
spark认知理解(二)任务执行流程
spark运行模式主要有三种:spark standalone(自带)、YARN-Client模式和YARN-Cluster模式。各种运行模式虽然在启动方式、运行位置、调度策略上各有不同,但目标和整体运行逻辑都是一致的。下面以spark standalone模式为例,以个人的理解,阐述下spark任务的执行流程。spark-standalone采用zookeeper集群保证master...原创 2019-07-02 23:00:36 · 233 阅读 · 0 评论