SparkCore02 MapPatitionsWithIndex

SparkCore02

RDD创建方式

  1. Parallelized Coleections [test]
  2. External Datasets [FS]
  3. 算子转换得到 [Transformation]

RDD操作

  1. transformation
    从一个存在得RDD到一个新得数据集
    a==>b==>c lazy 操作 不会触发作业得执行
  2. action
    返回一个值到driver program(终端)
    立刻执行 真正得产生作业(job)在spark中运行

MapPatitionsWithIndex 可查看每个分区内得元素

   sc.parallelize(List(1,2,3,4,5),2).mapPartitionsWithIndex((index, partition) => {
      println("这是一个分区")
      partition.map(x => s"分区$index,元素$x")
    }).foreach(println)
    
这是一个分区
分区0,元素1
分区0,元素2
这是一个分区
分区1,元素3
分区1,元素4
分区1,元素5

cogroup

内部为迭代得东西  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值