一、初识spark（组成与原理）

最新推荐文章于 2022-05-28 22:19:42 发布

导演我死哪儿

最新推荐文章于 2022-05-28 22:19:42 发布

阅读量784

点赞数

分类专栏：大数据相关

本文链接：https://blog.csdn.net/yrsg666/article/details/85092322

版权

大数据相关专栏收录该内容

91 篇文章 1 订阅

订阅专栏

一、概述spark来源

1、Spark特点
           用scala编写底层是基于actor模式的akka框架代码结构简洁
           基于DAG(有向无环图)的执行引擎减少了计算时数据频繁读写到磁盘的开销
               **DAG有向无环图： spark设计之初就考虑了大量连续计算的需求允许在对数据处理时经由许多步算子按序计算来实现处理这些处理是一个图的结构但是要注意的是图有向但是不能形成环防止死循环这样的有向无环的处理过程就称之为Spark的DAG有向无环图。
           建立在RDD(弹性分布式数据集)之上可以以一致的结构应对不同的大数据处理需求进行分布式的处理
               **RDD弹性分布式数据集是spark处理数据的基本和统一的数据结构本质上是一种分布式的数据结构是spark分布式执行运算的基本的单位 - 将大量的数据切分为若干rdd 使其可以在统一的方式和格式下被spark处理内部具有分区基于分区分布在不同的节点中实现分布式的运算。
           提供了Cache机制来实现数据共享进一步提高性能
           生态圈越来越丰富能做的事越来越多 - SparkCore SparkSql SparkStreaming GraphX MLib
           支持的语言多 Java Python Scala

2、RDD（弹性分布式数据集）：

（1）基本介绍：RDD与一般的数据结构不同它是分布式的，进行了分区Partition处理（例如：sc.parallelize(List(1,2,3),2)//指定分区个数），用于并行计算。是不可修改的，中间计算会不断地产生新的数据集，计算的时候数据集可以缓存存在内存或者磁盘中，它主要由三部分组成：数据分片、算子、血缘依赖（当某个节点计算错误时，只需要根据Lineage重新计算相关的操作而不必回滚整个程序，容错）

（2）RDD分类：PairRDD（键值对类型的RDD）与 RDD（普通类型的RDD），各种算子不做具体讲解。

二、Spark执行原理

1、懒执行（spark默认懒执行，为了流水线优化）

举例：val rdd1 = sc.makeRDD(List(1,2,3,4,5,6),2);
       val rdd2 = rdd1.map(x=>{println("abc");x+1;})//并没有产生任何的打印
       rdd2.collect//打印了abc 及处理完的结果
       这个实验说明默认 spark会有懒执行的机制并不是每一步操作都会立即发生可以能有延迟执行的效果，那么又是怎么区分呢？那就要讲解下算子的分类，算子分为transformation与action两类算子：如果一个方法是由RDD调用执行后产生另一个RDD 则这个方法属于Transformation方法，如果一个方法是由RDD调用执行后不是产生另一个RDD 而是产生一个非RDD的结果则这个方法是Action类型的方法，Transformation类型的方法会懒执行， Action类型的方法会立即执行执行当前操作和之前还未执行的懒执行操作。那么又是如何流水线优化呢？首先要介绍下宽依赖与窄依赖

2、窄依赖 / 宽依赖

rdd之间的依赖：整个DAG有向无环图的执行其实就是处理rdd为另一个rdd的过程这个过程中父rdd和子rdd之间是有关系的这种关系称之为子rdd对父rdd依赖这种依赖是通过在子rdd中保存父rdd的血缘关系了来实现。rdd之间的依赖又分为窄依赖和宽依赖。窄依赖：父RDD中的所有的分区都只面向一个子RDD中的分区；宽依赖：父RDD中有分区面向多个子RDD中的分区，窄依赖可以省略shuffle的过程执行效率可以大大提高。而如果整个DAG中存在多个连续的窄依赖则可以将这些连续的窄依赖整合到一起连续执行中间不执行shuffle 从而提高效率这样的优化方式称之为流水线优化。整个spark在执行DAG的过程中提升性能的关键就是尽力的去应用流水线优化减少shuffle的过程

3、spark的处理rdd的过程，spark在遇到Transformation类型操作时都不会立即执行而是懒执行若干步的Transformation类型的操作后一旦遇到Action类型操作时必须要执行了这时将所有之前的Transformation类型的操作和当前Action类型的操作组成一个DAG有向无环图。再从Action方法向前回溯如果遇到的是窄依赖则应用流水线优化继续向前找直到遇到宽依赖无法实现优化则将这一次段执行过程组装为一个stage 再从当前宽依赖开始继续向前找重复刚才的步骤从而将这个DAG划分为若干的stage。在stage内部可以执行流水线优化而在stage之间没办法执行流水线优化必然会有shuffle 但是这种机制已经尽力的去避免了shuffle 最终一个DAG对应一个Spark的Job 而其中划分出来的stage对应的就是job当中的task 而又由于rdd中可能有多个分区这个task可能有多个实例来分布式的并发处理数据这样减少了 task的数量减少了shuffle的过程 - 减少了数据落地的情况和由于shuffle的全局栅栏造成对性能的影响。这就是为什么spark比hadoop快的原因。

4.spark中的shuffle，spark中一旦遇到宽依赖就需要进行shuffle的操作，所谓的shuffle的操作的本质就是将数据汇总后重新分发的过程这个过程数据要汇总到一起数据量可能很大所以不可避免的需要进行数据落磁盘的操作会降低程序的性能，所以spark并不是完全内存不读写磁盘只能说它尽力避免这样的过程来提高效率。spark中的shuffle 在早期的版本中会产生多个临时文件但是这种多临时文件的策略造成大量文件的同时的读写磁盘的性能被分摊给多个文件每个文件读写效率都不高影响spark的执行效率所以在后续的spark中(1.5.0之后的版本)的shuffle中只会产生一个文件并且数据会经过排序再附加索引信息减少了文件的数量并通过排序索引的方式提升了性能，但是这种方式也有缺点比如排序和查询索引都是需要时间消耗的只能说是spark设计者的一种取舍并不是完美的方案。

三、答疑解惑

1、有了Hadoop为什么还要Spark：
（1）从计算的方式来说：hadoop设计时 shuffle的过程中数据要频繁的落地到磁盘中会大大的影响性能，而spark则是基于内存进行计算，数据尽量不落地，能有效提高效率。（2）从shuffle来说，MR是每次计算都要进行shuffle过程，而spark则是可以进行流水线优化减少落地次数，提高效率。

2、为什么SPark要采用懒执行机制呢？
Spark会将所有连续的懒执行的操作都不立即执行而是根据执行计划组建出一个执行的有向无环图称为DAG 直到遇到Action类型的操作整个DAG有向无环图才真正去执行，这样的目的在于在DAG有向无环图执行的内部可以执行流水线优化减少shuffle的过程提高执行效率。

3、Spark的可靠性保证，spark具有可靠性的保证，这个可靠性的保证在RDD层面有所体现体现在RDD中存在血缘信息保存了父RDD相关的信息，当子RDD在处理的过程中产生问题时可以通过血缘关系回溯找到最初的数据来重新执行保证数据不会丢失，注意并不是子RDD出现问题找到当前子RDD的父RDD就可以的因为父RDD中的数据可能已经释放掉了需要一直回溯到最初的位置重新计算，这样重新计算时整个DAG都要从头执行效率低，而如果在中间环节中设置过缓存则在回溯时找到缓冲中的数据可以使用就不需要再在向前寻找提高效率，这是缓存在可靠性保证中提升效率的体现

4、RDD 全称为弹性分布式数据集分布式的数据集合好像给人的感觉是所有的数据分布式的存储在集群不同节点的内存中进行运算从逻辑上这样理解没有大问题但事实上物理实现并不是这样实际上 RDD从物理结构上来看并不是一个分布式内存中存放完整数据的集合真正的计算被转换为DAG有向无环图执行时数据不停的从来源流入经由每个算子进行计算最多写出到结果中并不会真正的在内存中存储全量的数据成为一个RDD 而是流式的处理这样内存的消耗其实是非常小的但是并不是所有的操作都可以按照如上的流式的方式执行，比如 groupBy join等操作需要在全量数据上进行处理这时只能将将全量数据持久化后再处理其实就是shuffle的过程，这其实就是流水线优化和 shuffle的本质

导演我死哪儿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一、初识spark（组成与原理）

一、概述spark来源1、Spark特点用scala编写底层是基于actor模式的akka框架代码结构简洁基于DAG(有向无环图)的执行引擎减少了计算时数据频繁读写到磁盘的开销 **DAG有向无环图： spark设计之初就考虑了大量连续计算的需求允许在对数据处理时经由许多步算子按序计算来实现处理...
复制链接

扫一扫