Spark Shuffler之SortShuffleManager实现及3种ShuffleWrite策略选择与源码分析

最新推荐文章于 2022-02-13 01:08:12 发布

秣码一盏

最新推荐文章于 2022-02-13 01:08:12 发布

阅读量453

点赞数

文章标签： spark 大数据 java hadoop

本文链接：https://blog.csdn.net/ylltw01/article/details/105645224

版权

本文主要探讨Spark中的SortShuffleManager，包括其初始化、ShuffleManager接口的6个核心方法，特别是ShuffleWrite的3种策略选择：BypassMergeSortShuffleHandle、SerializedShuffleHandle和BaseShuffleHandle。此外，还介绍了SortShuffleWriter和BlockStoreShuffleReader的实现细节。

摘要由CSDN通过智能技术生成

前序

在Spark的历史版本中，对于Shuffle Manager有两种实现。在1.2版本之前的Hash Base Shuffler，以及从1.2版本开始后的基于Sort Base Shuffler。至于Hash Base Shuffler，目前以及被移除，也不是本文重点。本文主要介绍基于Sort Base Shuffler的3中Shuffler Write的选择策略，以及SortShuffleManager的部分源代码分析。

ShufflerManager初始化

在SparkEnv中，进行了ShfflerManager的初始化，其源代码如下：

    val shortShuffleMgrNames = Map(
      "sort" -> classOf[org.apache.spark.shuffle.sort.SortShuffleManager].getName,
      "tungsten-sort" -> classOf[org.apache.spark.shuffle.sort.SortShuffleManager].getName)
    val shuffleMgrName = conf.get(config.SHUFFLE_MANAGER)
    val shuffleMgrClass =
      shortShuffleMgrNames.getOrElse(shuffleMgrName.toLowerCase(Locale.ROOT), shuffleMgrName)
    val shuffleManager = instantiateClass[ShuffleManager](shuffleMgrClass)

如源码所示，在获取配置参数spark.shuffle.manager（默认为sort）后，其实无论该参数为sort还是tungsten-sort其选择的ShufflerManager均为SortShuffleManager。

ShuffleManager

在介绍SortShuffleManager类之前，由于该类继承自ShuffleManager，因此先介绍下ShuffleManager接口。该接口提供了6个基本的方法，如下所示。

1.registerShuffle

  def registerShuffle[K, V, C](
      shuffleId: Int,
      numMaps: Int,
      dependency: ShuffleDependency[K, V, C]): ShuffleHandle

根据输入参数，返回对应的shuffleHandle类。具体参数如下：
shuffleId：即当前shuffle id。
numMaps：父Rdd的分区数。
dependency：宽依赖，shuffle所依赖的信息，包含父Rdd，分区函数，排序函数，聚合函数，是否需要map端聚合等信息。更详细见ShuffleDependency类。

最低0.47元/天解锁文章

秣码一盏

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark Shuffler之SortShuffleManager实现及3种ShuffleWrite策略选择与源码分析

前序在Spark的历史版本中，对于Shuffle Manager有两种实现。在1.2版本之前的Hash Base Shuffler，以及从1.2版本开始后的基于Sort Base Shuffler。至于Hash Base Shuffler，目前以及被移除，也不是本文重点。本文主要介绍基于Sort Base Shuffler的3中Shuffler Write的选择策略，以及SortShuffleM...
复制链接

扫一扫