SparkCore02
RDD创建方式
- Parallelized Coleections [test]
- External Datasets [FS]
- 算子转换得到 [Transformation]
RDD操作
- transformation
从一个存在得RDD到一个新得数据集
a==>b==>c lazy 操作 不会触发作业得执行 - action
返回一个值到driver program(终端)
立刻执行 真正得产生作业(job)在spark中运行
MapPatitionsWithIndex 可查看每个分区内得元素
sc.parallelize(List(1,2,3,4,5),2).mapPartitionsWithIndex((index, partition) => {
println("这是一个分区")
partition.map(x => s"分区$index,元素$x")
}).foreach(println)
这是一个分区
分区0,元素1
分区0,元素2
这是一个分区
分区1,元素3
分区1,元素4
分区1,元素5
cogroup
内部为迭代得东西