Spark学习--RDD优化

RDD持久化:

缓存机制:

创建缓存:RDD.cache/或者persist RDD.cache之后并没有执行,需要.collect才会执行
删除缓存:RDD.unpersist
缓存应用场景 :
1、从文件加载数据之后,因为重新获取文件成本较高
2、经过较多的算子转换之后,重新计算成本较高
3、单个非常消耗资源的算子之后

使用注意事项:
1、cache()或者persist()之后不能有其他算子
2、cache()或者persist()遇到Action算子完成之后才能生效
**** presist可以选择级别

检查点:快照

1、设置检查点目录(设置的检查点会在其中生成文件)
sc.setCheckpointDir(“路径”)
2、RDD.checkpoint//设置检查点
3、RDD.collect//遇到Action算子才能生效
4、RDD.isCheckpointed//查看是不是检查点
5、RDD.getCheckpointFile//可以获得检查点目录的路径

检查点与缓存的区别

检查点会删除RDD的继承关系(血统)
缓存不会
检查点相当于将计算的结果放在一个文件中,下次使用时间读文件

RDD共享变量:

一般情况下,对于变量是每个任务传递一个副本,如果一个变量特别大,一个Executor中如果有很多歌task就会传递很多分,这个时候就可以使用广播变量,将一个只读变量(Driver端)缓存到每个节点上(Executor)上
定义方式:sc.broadcast(Array(1,2,3))//定义广播变量

访问方式:broadcastVar.value(0)//->1

***演示:
定义一个rdd
val rdd = sc.makeRDD(1 to 10)

1、普通方式:
定义一个变量
val a = Array(1,2,3)
RDD中使用到了变量
rdd.map(x=>x*a(2))//此时,Executor中有几个task就需要传送几份a

2、广播变量方式:
定义一个广播变量:
val a = sc.broadcast(Array(1,2,3))
RDD中使用到了变量
rdd.map(x=>x*a.value(2))//此时,无论Executor中有多少task都只需要传送一份到Executor中即可,task中需要使用时,向Executor中取就行

普通变量:task需要使用时向Driver要
广播变量:task需要使用时向Executor要
(这么说不一定准确,帮助理解而已)

累加器:(属于一种共享变量)

初始值是0
**实现不同分区的累加操作
定义一个累加器:(初始值为0)
val accum = sc.accumlator(0,“My acc”)
调用累加器:
sc.makeRDD(Array(1,2,3)).foreach(x=>accum+=x)

RDD分区设计:

分区大小限制为2GB
分区太少:
不利于并发
更容易受到数据倾斜的影响
groupBy,reduceByKey,sortByKey等内存压力增大
分区过多:
shuffle消耗资源变大
创建任务消耗资源变大
总结:
每个分区大约128MB
如果分区数量小于但是接近2000,则设置为大于2000
Executor总核心数的两到三倍

数据倾斜:

指分区中的数据分配不均匀,数据集中在少数分区中(不怕数据大,就怕数据倾斜)

定位导致数据倾斜的代码:
数据倾斜一般只会发生在shuffle中,常用的会引起数据倾斜的算子:
distinct,groupByKey,reduceByKey,aggregateByKey,join,cogroup,repartition等
可以在Web端看一下这个stage各个task分配的数据量

解决方法:

1、对数据进行ETL预处理(数据清洗)

使用场景:
1)hive中文件大小不均匀
2)hive中key分布不均匀

2、过滤少数会导致倾斜的key

使用场景:
1)倾斜的key,比如“-” 表示空数据,可以事前filter掉
2)倾斜的key,比如“-” 表示有效数据,单独处理

3、提高shuffle操作的并行度

设置多个task(分区,repartition)

4、两阶段聚合

使用reduceByKey等聚合类算子,在shuffle之前先做局部聚合
(join类的shuffle操作不适合此方式)
实现方法:在原先相同的key之前添加随机前缀,划分到不同的task中之后再去掉前缀,进行局部聚合

5、将reduce join转为map join

使用场景:在出现小表join大表的时候,可以将小表进行广播从而避免shuffle

6、采样倾斜key并分拆join操作

使用场景:join类的操作中,由于相同的key过大占内存(小表不小),不能使用第5方案,但是倾斜的key种数不多的时候
实现方式:
第一步:对包含少数几个数据量过大的key的那个RDD,通过sample算子采样出一份样本来,然后统计一下每个key的数量,计算出来数据量最大的是哪几个key。

第二步:将这几个key对应的数据从原来的RDD中拆分出来,形成一个单独的RDD,并给每个key都打上n以内的随机数作为前缀,而不会导致倾斜的大部分key形成另外一个RDD。

第三步:接着将需要join的另一个RDD也过滤出来那几个倾斜key对应的数据并形成一个单独的RDD,将每条数据膨胀成n条数据,这n条数据都按顺序附加一个0~n的前缀,不会导致倾斜的大部分key也形成另外一个RDD。

第四步:再将附加了随机前缀的独立RDD与另一个膨胀n倍的独立RDD进行 join,此时就可以将原先相同的key打散成n份,分散到多个task中去进行 join了。

第五步:而另外两个普通的RDD就照常join即可。最后将两次join的结果使用union算子合并起来即可,就是最终的join结果。

7.使用随机前缀和扩容RDD进行join

使用场景:如果在进行join操作时,RDD中有大量的key导致数据倾斜。
同第6个方案,不同的是它不需要对原先rdd进行倾斜key过滤。将原来 rdd形成含倾斜key的rdd与不含倾斜key的rdd。
直接对整个原本的rdd的key一边进行加随机数,另一边进行相应倍数的扩容。而这一种方案是针对有大量倾斜key的情况,没法将部分key拆分出来进行单独处理,因此只能对整个RDD进行数据扩容,对内存资源要求很高。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值