Spark学习系列一

最新推荐文章于 2023-10-12 16:40:29 发布

xiaochengzi0419

最新推荐文章于 2023-10-12 16:40:29 发布

阅读量86

点赞数

分类专栏： spring框架研读

本文链接：https://blog.csdn.net/xiaochengzi0419/article/details/118974751

版权

2 篇文章 0 订阅

订阅专栏

spark-submit --master yarn --deploy-mode client

在这里插入图片描述

在spark中，什么情况下，会产生shuffle

reduceByKey,groupByKey,sortByKey,countByKey,join等等

spark shuffle一共经历了几个过程:
1:未优化的 Hash Based Shuffle
2:优化后的 Hash Bashed Shuffle
3: Sort-Based Shuffle

在这里插入图片描述
so:如果有100个map task,100个result task，那么本地磁盘会产生10000个本地，磁盘io过多，影响性能

在这里插入图片描述
so:此时文件的数量变成了 cPU core 数量 * result task 数量，比如每个节点上有2个cpu,有100个resulttask,那么每个节点上会产生200个文件

在这里插入图片描述

checkpoint功能:

针对Spark Job，如果我们担心某些关键的，在后面会反复使用RDD,因为节点故障导致数据丢失，那么可以针对该RDD启动checkpoint机制，实现容错和高可用
checkpoint 类似于快照机制
首先调用SparkContext的setCheckpointDir()方法，设置一个容错的文件系统目录(HDFS),然后对RDD调用checkpoint()方法

在这里插入图片描述

关注