spark RDD基础装换操作--ZipWithindex操作

最新推荐文章于 2022-07-21 15:25:56 发布

菩提树下的呆子

最新推荐文章于 2022-07-21 15:25:56 发布

阅读量1.2k

点赞数

分类专栏： spark 文章标签： spark 大数据

本文链接：https://blog.csdn.net/weixin_43744732/article/details/104133703

版权

spark 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

16.ZipWithindex操作

创建由字母A~E组成的RDD，然后将每个元素与其对应的索引值进行合并。

scala>  val rddData1 = sc.parallelize(Array("A","B","C","D","E"))
rddData1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[0] at parallelize at <console>:24

scala>  val rddData2 = rddData1.zipWithIndex()
rddData2: org.apache.spark.rdd.RDD[(String, Long)] = ZippedWithIndexRDD[1] at zipWithIndex at <console>:26

scala>  rddData2.collect
res0: Array[(String, Long)] = Array((A,0), (B,1), (C,2), (D,3), (E,4))

说明：
ZipWithindex操作将RDD中的元素与该元素在RDD中的索引进行合并。其第1步需要先生成索引号RDD，即“ZipWithindexRDD”；第2步将原始RDD与“ZipWithindexRDD”进行zip操作

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

菩提树下的呆子

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark RDD基础装换操作--ZipWithindex操作

16.ZipWithindex操作创建由字母A~E组成的RDD，然后将每个元素与其对应的索引值进行合并。scala> val rddData1 = sc.parallelize(Array("A","B","C","D","E"))rddData1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[0] at para...
复制链接

扫一扫