Spark学习--RDD优化

最新推荐文章于 2022-03-14 13:45:45 发布

日写BUG八百行

最新推荐文章于 2022-03-14 13:45:45 发布

阅读量320

点赞数

文章标签： spark RDD RDD优化数据倾斜

本文链接：https://blog.csdn.net/wgyzzzz/article/details/107902376

版权

文章目录

RDD持久化：

缓存机制:

创建缓存：RDD.cache/或者persist RDD.cache之后并没有执行，需要.collect才会执行
删除缓存：RDD.unpersist
缓存应用场景：
1、从文件加载数据之后，因为重新获取文件成本较高
2、经过较多的算子转换之后，重新计算成本较高
3、单个非常消耗资源的算子之后

使用注意事项：
1、cache()或者persist()之后不能有其他算子
2、cache()或者persist()遇到Action算子完成之后才能生效
**** presist可以选择级别

检查点：快照

1、设置检查点目录（设置的检查点会在其中生成文件）
sc.setCheckpointDir(“路径”)
2、RDD.checkpoint//设置检查点
3、RDD.collect//遇到Action算子才能生效
4、RDD.isCheckpointed//查看是不是检查点
5、RDD.getCheckpointFile//可以获得检查点目录的路径

检查点与缓存的区别

检查点会删除RDD的继承关系（血统）
缓存不会
检查点相当于将计算的结果放在一个文件中，下次使用时间读文件

RDD共享变量：

一般情况下，对于变量是每个任务传递一个副本，如果一个变量特别大，一个Executor中如果有很多歌task就会传递很多分，这个时候就可以使用广播变量，将一个只读变量（Driver端）缓存到每个节点上（Executor）上
定义方式：sc.broadcast(Array(1,2,3))//定义广播变量

访问方式：broadcastVar.value(0)//->1

***演示：
定义一个rdd
val rdd = sc.makeRDD(1 to 10)

1、普通方式：
定义一个变量
val a = Array(1,2,3)
RDD中使用到了变量
rdd.map(x=>x*a(2))//此时，Executor中有几个task就需要传送几份a

2、广播变量方式：
定义一个广播变量：
val a = sc.broadcast(Array(1,2,3))
RDD中使用到了变量
rdd.map(x=>x*a.value(2))//此时，无论Executor中有多少task都只需要传送一份到Executor中即可，task中需要使用时，向Executor中取就行

普通变量：task需要使用时向Driver要
广播变量：task需要使用时向Executor要
（这么说不一定准确，帮助理解而已）

累加器：(属于一种共享变量)

初始值是0
**实现不同分区的累加操作
定义一个累加器：(初始值为0)
val accum = sc.accumlator(0,“My acc”)
调用累加器：
sc.makeRDD(Array(1,2,3)).foreach(x=>accum+=x)

RDD分区设计：

分区大小限制为2GB
分区太少：
不利于并发
更容易受到数据倾斜的影响
groupBy,reduceByKey,sortByKey等内存压力增大
分区过多：
shuffle消耗资源变大
创建任务消耗资源变大
总结：
每个分区大约128MB
如果分区数量小于但是接近2000，则设置为大于2000
Executor总核心数的两到三倍

数据倾斜：

指分区中的数据分配不均匀，数据集中在少数分区中（不怕数据大，就怕数据倾斜）

定位导致数据倾斜的代码：
数据倾斜一般只会发生在shuffle中,常用的会引起数据倾斜的算子：
distinct，groupByKey，reduceByKey，aggregateByKey，join，cogroup，repartition等
可以在Web端看一下这个stage各个task分配的数据量

解决方法：

1、对数据进行ETL预处理（数据清洗）

使用场景：
1)hive中文件大小不均匀
2)hive中key分布不均匀

2、过滤少数会导致倾斜的key

使用场景：
1)倾斜的key，比如“-” 表示空数据，可以事前filter掉
2)倾斜的key，比如“-” 表示有效数据，单独处理

3、提高shuffle操作的并行度

设置多个task（分区，repartition）

4、两阶段聚合

使用reduceByKey等聚合类算子，在shuffle之前先做局部聚合
（join类的shuffle操作不适合此方式）
实现方法：在原先相同的key之前添加随机前缀，划分到不同的task中之后再去掉前缀，进行局部聚合

5、将reduce join转为map join

使用场景：在出现小表join大表的时候，可以将小表进行广播从而避免shuffle

6、采样倾斜key并分拆join操作

使用场景：join类的操作中，由于相同的key过大占内存（小表不小），不能使用第5方案，但是倾斜的key种数不多的时候
实现方式：
第一步：对包含少数几个数据量过大的key的那个RDD，通过sample算子采样出一份样本来，然后统计一下每个key的数量，计算出来数据量最大的是哪几个key。

第二步：将这几个key对应的数据从原来的RDD中拆分出来，形成一个单独的RDD，并给每个key都打上n以内的随机数作为前缀，而不会导致倾斜的大部分key形成另外一个RDD。

第三步：接着将需要join的另一个RDD也过滤出来那几个倾斜key对应的数据并形成一个单独的RDD，将每条数据膨胀成n条数据，这n条数据都按顺序附加一个0~n的前缀，不会导致倾斜的大部分key也形成另外一个RDD。

第四步：再将附加了随机前缀的独立RDD与另一个膨胀n倍的独立RDD进行 join，此时就可以将原先相同的key打散成n份，分散到多个task中去进行 join了。

第五步：而另外两个普通的RDD就照常join即可。最后将两次join的结果使用union算子合并起来即可，就是最终的join结果。

7.使用随机前缀和扩容RDD进行join

使用场景：如果在进行join操作时，RDD中有大量的key导致数据倾斜。
同第6个方案，不同的是它不需要对原先rdd进行倾斜key过滤。将原来 rdd形成含倾斜key的rdd与不含倾斜key的rdd。
直接对整个原本的rdd的key一边进行加随机数，另一边进行相应倍数的扩容。而这一种方案是针对有大量倾斜key的情况，没法将部分key拆分出来进行单独处理，因此只能对整个RDD进行数据扩容，对内存资源要求很高。