spark

1、Spark中的缓存 和 检查点的区别?

存储位置:缓存是将数据可以存储在内存中,磁盘或者对外内存中,而检查点是将数据存储在磁盘/HDFS中

生命周期:缓存时临时储存,当Spark应用结束后,缓存也就会自动失效,或者调用 unpersist 也会清除缓存

检查点一但保存了,就是永久的,只要不手动删除,检查点的数据会一直存在,即使程序已经退出

血缘关系:缓存是不会阶段依赖关系的,因为缓存是一个临时存储,当失效后,可以通过血缘关系,重新计算

检查点会截断依赖关系,因为检查点认为数据是可以进行可靠存储的,比如存储到HDFS,不会发送丢 失不需要重新计算

2、Spark的shuffle机制?

Hashshuffle:优化前:上游的RDD的每个分片都会产生和下游分区数量相等的文件的数量,每个文件对应下游的分区数据,这样导致产生大量的分区文件,对IO影响也是非常大的 最终影响效率

优化后:把原有上游每一个RDD生产成与下游等同的分区数量转换为由每一个executor来生成与下游等同的分区数量,从而减少的文件数量的产生,从而降低了IO,提升了效率

Sort书丰富了的机制:

普通机制:将处理的数据先写入到内存中,当内存中的数据达到一定的阈值后,就会触发数据溢写,将数据溢写到磁盘上,在溢写的时候会对数据进行分区操作,以及排序操作,形成的文件分好区排好序的数据,溢写完成后,还会将多个溢写的数据合并为最终的大数据文件,同时这个文件数据还会携带有一个索引文件,用于后续加载读取文件中的数据

bapass机制:比普通机制少了排序的操作,所以在某些情况下bypass的机制执行效率可能会高于普通机制,毕竟干的活少了

使用的条件:1-要求RDD的分区数量不能超过200个

                        2-要求上游的RDD不允许进行提前聚合的操作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值