Spark工作原理和RDD

最新推荐文章于 2022-05-18 14:33:20 发布

MaxPotato

最新推荐文章于 2022-05-18 14:33:20 发布

阅读量259

点赞数

文章标签： spark RDD

本文链接：https://blog.csdn.net/zhangkai0111/article/details/88950457

版权

Spark工作原理

第一步：Client将spark程序提交到Spark集群节点1、2、3上。
第二步：每个节点从HDFS或者Hive中读取相应的数据。
第三步：每个节点进行相应的迭代式计算。
第四步：把计算结果存储到指定的文件系统中（HDFS、Hive、MySql等。

RDD及其特点

1.RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，即弹性分布式数据集。

2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。（分布式数据集）
3、RDD通常通过Hadoop上的文件，即HDFS文件或者Hive表，来进行创建；有时也可以通过应用程序中的集合来创建。
4、RDD最重要的特性就是，提供了容错性，可以自动从节点失败中恢复过来。即如果某个节点上的RDD partition，因为节点故障，导致数据丢了，那么RDD会自动通过自己的数据来源重新计算该partition。这一切对使用者是透明的。
5、RDD的数据默认情况下存放在内存中的，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘。（弹性）

Spark与MapReduce最大的不同在于，迭代式计算模型：

MapReduce，分为两个阶段，map和reduce，两个阶段完了，就结束了。所以我们在一个job里能做的处理很有限，只能在map和reduce里处理。
Spark，计算模型，可以分为n个阶段，因为它是内存迭代式的。我们在处理完一个阶段以后，可以继续往下处理很多个阶段，而不只是两个阶段。所以，Spark相较于MapReduce来说，计算模型可以提供更强大的功能。
每一批节点上的每一批数据，实际上就是一个RDD！！！一个RDD是分布式的，所以数据都散落在一批节点上了，每个节点都存储了RDD的部分partition。

Spark的核心编程

第一，定义初始的RDD，就是说，你要定义第一个RDD是从哪里，读取数据，hdfs、linux本地文件、程序中的集合。
第二，定义对RDD的计算操作，这个在spark里称之为算子，map、reduce、flatMap、groupByKey，比mapreduce提供的map和reduce强大的太多太多了。
第三，其实就是循环往复的过程，第一个计算完了以后，数据可能就会到了新的一批节点上，也就是变成一个新的RDD。然后再次反复，针对新的RDD定义计算操作。
第四，最后，就是获得最终的数据，将数据保存起来。

Spark架构原理

Spark内核架构原理

Master：资源调度算法； DAG：stage划分算法； TaskScheduler：task分配算法；

SparkContext源码分析

MaxPotato

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark工作原理和RDD

#Spark工作原理#第一步：Client将spark程序提交到Spark集群节点1、2、3上。第二步：每个节点从HDFS或者Hive中读取相应的数据。第三步：每个节点进行相应的迭代式计算。第四步：把计算结果存储到指定的文件系统中（HDFS、Hive、MySql等。RDD及其特点1.RDD是Spark提供的核心抽象，全称为Resillient Distributed Datas...
复制链接

扫一扫