spark

最新推荐文章于 2024-10-01 19:24:51 发布

weixin_46538294

最新推荐文章于 2024-10-01 19:24:51 发布

阅读量43

点赞数 1

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46538294/article/details/134470764

版权

1、Spark中的缓存和检查点的区别?

存储位置：缓存是将数据可以存储在内存中，磁盘或者对外内存中，而检查点是将数据存储在磁盘/HDFS中

生命周期：缓存时临时储存，当Spark应用结束后，缓存也就会自动失效，或者调用 unpersist 也会清除缓存

检查点一但保存了，就是永久的，只要不手动删除，检查点的数据会一直存在，即使程序已经退出

血缘关系：缓存是不会阶段依赖关系的，因为缓存是一个临时存储，当失效后，可以通过血缘关系，重新计算

检查点会截断依赖关系，因为检查点认为数据是可以进行可靠存储的，比如存储到HDFS，不会发送丢失不需要重新计算

2、Spark的shuffle机制?

Hashshuffle：优化前：上游的RDD的每个分片都会产生和下游分区数量相等的文件的数量，每个文件对应下游的分区数据，这样导致产生大量的分区文件，对IO影响也是非常大的最终影响效率

优化后：把原有上游每一个RDD生产成与下游等同的分区数量转换为由每一个executor来生成与下游等同的分区数量，从而减少的文件数量的产生，从而降低了IO，提升了效率

Sort书丰富了的机制：

普通机制：将处理的数据先写入到内存中，当内存中的数据达到一定的阈值后，就会触发数据溢写，将数据溢写到磁盘上，在溢写的时候会对数据进行分区操作，以及排序操作，形成的文件分好区排好序的数据，溢写完成后，还会将多个溢写的数据合并为最终的大数据文件，同时这个文件数据还会携带有一个索引文件，用于后续加载读取文件中的数据

bapass机制：比普通机制少了排序的操作，所以在某些情况下bypass的机制执行效率可能会高于普通机制，毕竟干的活少了

使用的条件：1-要求RDD的分区数量不能超过200个

2-要求上游的RDD不允许进行提前聚合的操作

weixin_46538294

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。