spark的suffer过程

5. spark shuffle

​ what is shuffle? spark/mr作业在执行过程中,数据重排的过程,主要发生在mr的话,就在map输出和reduce输入的过程,如果在spark就发生在窄依赖阶段和宽依赖阶段。

​ shuffle操作是分布式计算不可避免的一个过程,同事也是分布式计算最消耗性能的一个部分。

5.1. spark shuffle执行过程

​ 在spark中由于不同的ShuffleManager的的配置,会造成shuffle执行的流程不一样,spark发展至今,shuffle经历了如下三个阶段:

  1. 未经优化hashShuffleManager

  2. 经过优化的hashShuffleManager—>shuffleGroup 0.8出现

  3. SortShuffleManager 1.2以后成为默认

    到底应该使用哪一个shuffleManager来负责shuffle的执行,可以通过spark参数在sparkconf或者spark-sbumit脚本进行控制:spark.shuffle.manager=hash/sort(sort为默认)

5.1.1. 未经优化HashShuffleManager

[外链图片转存失败(img-gKUFDIO5-1563632545719)(assets/1561360923042.png)]

5.1.2 经过优化的HashShuffleManager

​ shuffleGroup

​ [外链图片转存失败(img-lHUxGB4s-1563632545723)(assets/1561362956975.png)]

5.1.3 SortShuffleManager

5.1.3.1. 普通的SortShuffleManager

[外链图片转存失败(img-njL400yQ-1563632545725)(assets/1561363917207.png)]

​ 其中最后的多个磁盘文件会合并成一个磁盘文件,这样会减少网络IO的次数,提高执行效率,通过为了表示磁盘文件中的数据属于哪一个resultTask,那么在写入的当中将对应的元数据信息写入到索引文件中,主要包含的就是一个Tuple3(partition, offset, length),其中partition就指定了这个segment数据片段属于哪一个下游的resultTask,offset和length决定这个segment数据数据内容是哪些。

5.1.3.2. 基于ByPass机制的SortShuffleManager

​ 上述普通的SortShuffleManager虽然效率很高,但是相比较于HashShufflemanager多了排序阶段,如果我们的shuffle操作不需要进行排序,反而这个操作会降低执行的效率。

​ 所谓为了有选择的在shuffle时候进行排序或者不进行排序,那么我们就可以开启bypass机制,来控制在shuffle的时候不进行排序。执行过程如下图:

[外链图片转存失败(img-l7shKe01-1563632545726)(assets/1561364216747.png)]

​ 如何去开启bypass机制:

spark.shuffle.sort.bypassMergeThreshold,默认值200来指定是否进行bypass机制。

​ 也就是说如果并行度是200以下的话不会进行排序,spark.default.parallelism控制全局并行度。所以如果我们不想在shuffle中进行排序的话,那么我们应该尽可能将spark.shuffle.sort.bypassMergeThreshold值调大一点。

5.2. Spark shuffle常见的优化参数

spark.reducer.maxSizeInFlight48Mreduce read的时候每次从map端读取的最大的数据量,也就是reduce端shuffle read的缓冲区的大小。所以如果shufflemapTask生成的数据量很多,reduce的内存又有保障,通过调整这个参数,比如98M,可以减少网络拉取的次数,这样在一定程度上能提高效率。
spark.shuffle.compresstrue在shuffle过程中往磁盘写数据的过程中开启压缩操作,较少数据体积。对应的压缩算法通过参数spark.io.compression.codec来执行,默认为lz4
spark.shuffle.file.buffer32Kshuffle write过程中往磁盘文件中写的那个BufferedOutputStream的缓冲区大小,默认32k,比如64k,96k等等。
spark.shuffle.io.maxRetries3表示的是shuffle read如果失败,从shuffle write的文件拉取的最大重试次数。如果网络不稳定,我们为了避免失败,可以调大这个参数的值,比如10次。
spark.shuffle.io.retryWait5s在两次重试之间,不是立马执行,需要一定的等待时间,这个retryWait配置这个间隔时间。所以网络不稳定,我们可以调大这个参数的值,让程序正常执行,比如30s, 60s。
spark.shuffle.sort.bypassMergeThreshold200是否在shuffle过程中进行排序,如果不希望进行排序,建议调大该值。
spark.shuffle.memoryFraction0.2用于reduceTask存储拉取过来的数据,进行聚合操作的executor的内存比例。如果持久化操作较少,而shuffle操作较多,可以调大该比例,比如0.3.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值