Spark中RDD的Key-Value型Transformation算子操作（二）

最新推荐文章于 2023-09-05 22:06:28 发布

zjh_746140129

最新推荐文章于 2023-09-05 22:06:28 发布

阅读量620

点赞数

分类专栏： Spark hadoop 文章标签： Spark Transformation算子 RDD

本文链接：https://blog.csdn.net/zjh_746140129/article/details/80465413

版权

25 篇文章 1 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

  Spark算子大致上可分为三大类算子： 

      Value数据类型的Transformation算子，这种变换不触发提交作业，针对处理的数据项是Value型的数据。 

      Key-Value数据类型的Transformation算子，这种变换不触发提交作业，针对处理的数据项是Key-Value型的数据。 

      Action算子，这类算子会触发SparkContext提交作业。 

  1、mapValues 

  mapValues是针对[K,V]中对V的值进行map 

  2、combineByKey 

  使用用户设置好的聚合函数对每个Key中对Value进行组合(combine)，可以将输入类型为 RDD[(K,V)] 转成RDD[(K,C)] 

  3、reduceByKey 

  对元素为KV对的RDD中Key相同对元素对Value进行binary_function的reduce操作，因此Key相同的多个元素的值被reduce为一个值，然后与原RDD中的Key组成一个新的KV对 

  4、partitionBy 

  对RDD进行分区操作 

  5、cogroup 

  cogroup指对两个RDD中对KV元素，每个RDD中相同Key中对元素中的元素分别聚合成一个集合 

  6、join 

  对两个需要连接对RDD进行cogroup函数操作 

7、leftOutJoin

  8、rightOutJoin 

关注

专栏目录