RDD 和 spark执行原理

最新推荐文章于 2023-05-14 08:52:48 发布

秋雨ヾ

最新推荐文章于 2023-05-14 08:52:48 发布

阅读量185

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/weixin_45271668/article/details/106441135

版权

spark 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

1. RDD

概念
RDD(Resilient Distributed Dateset)，弹性分布式数据集。

RDD的五大特性：

RDD是由一系列的partition组成的。
函数是作用在每一个partition（split）上的。
RDD之间有一系列的依赖关系。
分区器是作用在K,V格式的RDD上。RDD提供一系列最佳的计算位置。
RDD提供一系列的最佳计算模式。

RDD理解图:
在这里插入图片描述
注意：

textFile方法底层封装的是读取MR读取文件的方式，读取文件之前先split，默认split大小是一个block大小。
RDD实际上不存储数据，这里方便理解，暂时理解为存储数据。
什么是K,V格式的RDD?
- 如果RDD里面存储的数据都是二元组对象，那么这个RDD我们就叫做K,V格式的RDD。
哪里体现RDD的弹性（容错）？
- partition数量，大小没有限制，体现了RDD的弹性。
- RDD之间依赖关系，可以基于上一个RDD重新计算出RDD。
哪里体现RDD的分布式？
- RDD是由Partition组成，partition是分布在不同节点上的。
RDD提供计算最佳位置，体现了数据本地化。体现了大数据中“计算移动数据不移动”的理念。

2. Spark任务执行原理

在这里插入图片描述
以上图中有四个机器节点，Driver和Worker是启动在节点上的进程，运行在JVM中的进程。
7. Driver与集群节点之间有频繁的通信。
8. Driver负责任务(tasks)的分发和结果的回收。任务的调度。如果task的计算结果非常大就不要回收了。会造成oom。
9. Worker是Standalone资源调度框架里面资源管理的从节点。也是JVM进程。
10. Master是Standalone资源调度框架里面资源管理的主节点。也是JVM进程。

3. Spark代码流程

创建SparkConf对象
- 可以设置Application name。
- 可以设置运行模式及资源需求。
创建SparkContext对象
基于Spark的上下文创建一个RDD，对RDD进行处理。
应用程序中要有Action类算子来触发Transformation类算子执行。
关闭Spark上下文对象SparkContext。

秋雨ヾ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD 和 spark执行原理

1. RDD概念RDD(Resilient Distributed Dateset)，弹性分布式数据集。RDD的五大特性：RDD是由一系列的partition组成的。函数是作用在每一个partition（split）上的。RDD之间有一系列的依赖关系。分区器是作用在K,V格式的RDD上。RDD提供一系列最佳的计算位置。RDD理解图:注意：textFile方法底层封装的是读取MR读取文件的方式，读取文件之前先split，默认split大小是一个block大小。RDD实际上不存储数
复制链接

扫一扫

专栏目录