【Spark源码】RDD shuffle 读磁盘与写磁盘

九筒-

于 2021-05-15 17:37:50 发布

阅读量471

点赞数

分类专栏：源码分析大数据文章标签： spark 大数据 scala 源码

本文链接：https://blog.csdn.net/weixin_44343282/article/details/116856173

版权

大数据同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

源码分析

8 篇文章 1 订阅

订阅专栏

RDD shuffle

shuffle阶段涉及磁盘读写，以图示为例，紫色RDD与ShuffleRDD之间会进行磁盘读写操作，紫色RDD进行磁盘写操作，ShuffleRDD进行磁盘读操作
在这里插入图片描述

写磁盘
读磁盘

核心代码

//读磁盘
  override def compute(split: Partition, context: TaskContext): Iterator[(K, C)] = {
    val dep = dependencies.head.asInstanceOf[ShuffleDependency[K, V, C]]
    val metrics = context.taskMetrics().createTempShuffleReadMetrics()
    SparkEnv.get.shuffleManager.getReader(
      dep.shuffleHandle, split.index, split.index + 1, context, metrics)
      .read()
      .asInstanceOf[Iterator[(K, C)]]
  }
//写磁盘
    val mapId = if (SparkEnv.get.conf.get(config.SHUFFLE_USE_OLD_FETCH_PROTOCOL)) {
      partitionId
    } else context.taskAttemptId()
    dep.shuffleWriterProcessor.write(rdd, dep, mapId, context, partition)
  }

写磁盘分析源码步骤

在DAGScheduler.scala文件找到submitMissingTasks()方法，找到阶段1ShuffleMapStage
进入ShuffleMapTask类中，该类继承父类Task
查看父类Task的run()方法，其中runTask()是抽象方法，需要在子类中重写
回到ShuffleMapTask，该子类重写了runTask()方法，shuffleWriterProcessor.write()与写文件有关
进入write()方法，获取写对象writer，执行写方法write()
进入writer.write()方法，该方法为抽象方法
进入commitAllPartitions()方法，同样commitAllPartitions()也为抽象方法
找到其实现类，进入writeIndexFileAndCommit()方法，该方法与索引文件有关
判断索引文件和数据文件是否存在，这部分代码与索引文件和数据文件有关

读磁盘分析源码步骤

在DAGScheduler.scala文件找到submitMissingTasks()方法，找到阶段2 ResultStage，进入ResultTask类中
找到重写的runTask方法
进入getOrCompute()
进入computeOrReadCheckpoint()
进入compute()
compute()为抽象方法，每个RDD都要实现该方法，因为此时的RDD为shuffledRDD（如开头图片所示），进入ShuffledRDD
与读磁盘相关

九筒-

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【Spark源码】RDD shuffle 读磁盘与写磁盘

RDD shuffleshuffle阶段涉及磁盘读写，以图示为例，紫色RDD与ShuffleRDD之间会进行磁盘读写操作，紫色RDD进行磁盘写操作，ShuffleRDD进行磁盘读操作写磁盘读磁盘核心代码//读磁盘 override def compute(split: Partition, context: TaskContext): Iterator[(K, C)] = { val dep = dependencies.head.asInstanceOf[ShuffleDepe
复制链接

扫一扫