spark - makeRDD源码解析

最新推荐文章于 2022-08-21 15:29:38 发布

键盘 | 书生

最新推荐文章于 2022-08-21 15:29:38 发布

阅读量259

点赞数

分类专栏： spark core

本文链接：https://blog.csdn.net/weixin_43976998/article/details/109143097

版权

spark - makeRDD源码解析

1.实际是调用parallelize(seq, numSlices)方法，makeRDD只是对parallelize做了一层封装

2.查看parallelize方法可以发现，实际对数据读取规则定义的是ParallelCollectionRDD方法

def parallelize[T: ClassTag](
      seq: Seq[T],
      numSlices: Int = defaultParallelism): RDD[T] = withScope {
    assertNotStopped()
    new ParallelCollectionRDD[T](this, seq, numSlices, Map[Int, Seq[String]]())
  }

3.在ParallelCollectionRDD中调用了slice(data, numSlices)定义了具体切分规则，下面对slice方法具体分析

def slice[T: ClassTag](seq: Seq[T], numSlices: Int): Seq[Seq[T]] = {
    if (numSlices < 1) {
      //分区数必须大于1
      throw new IllegalArgumentException("Positive number of partitions required")
    }
    // Sequences need to be sliced at the same set of index positions for operations
    // like RDD.zip() to behave as expected
    // 将根据切片数，对序列长度切分，返回可迭代tuple，每个切片的（from，until）位置,
    // 集合不能均分，多余的数据放在最后一个分区
    //例

最低0.47元/天解锁文章

键盘 | 书生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark - makeRDD源码解析

spark - makeRDD源码解析1.实际是调用parallelize(seq, numSlices)方法，makeRDD只是对parallelize做了一层封装2.查看parallelize方法可以发现，实际对数据读取规则定义的是ParallelCollectionRDD方法def parallelize[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withSc...
复制链接

扫一扫