SparkCore02 MapPatitionsWithIndex

最新推荐文章于 2023-05-12 23:17:30 发布

陈同学�

最新推荐文章于 2023-05-12 23:17:30 发布

阅读量141

点赞数

本文链接：https://blog.csdn.net/weixin_43866666/article/details/113857202

版权

SparkCore02

RDD创建方式

Parallelized Coleections [test]
External Datasets [FS]
算子转换得到 [Transformation]

RDD操作

transformation
从一个存在得RDD到一个新得数据集
a==>b==>c lazy 操作不会触发作业得执行
action
返回一个值到driver program(终端)
立刻执行真正得产生作业(job)在spark中运行

MapPatitionsWithIndex 可查看每个分区内得元素

   sc.parallelize(List(1,2,3,4,5),2).mapPartitionsWithIndex((index, partition) => {
      println("这是一个分区")
      partition.map(x => s"分区$index,元素$x")
    }).foreach(println)
    
这是一个分区
分区0,元素1
分区0,元素2
这是一个分区
分区1,元素3
分区1,元素4
分区1,元素5

cogroup