Spark中RDD的Key-Value型Transformation算子操作(二)

Spark算子大致上可分为三大类算子:
    Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。
    Key-Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Key-Value型的数据。
    Action算子,这类算子会触发SparkContext提交作业。



1、mapValues
mapValues是针对[K,V]中对V的值进行map



2、combineByKey
使用用户设置好的聚合函数对每个Key中对Value进行组合(combine),可以将输入类型为 RDD[(K,V)] 转成RDD[(K,C)]


3、reduceByKey
对元素为KV对的RDD中Key相同对元素对Value进行binary_function的reduce操作,因此Key相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对


4、partitionBy
对RDD进行分区操作


5、cogroup
cogroup指对两个RDD中对KV元素,每个RDD中相同Key中对元素中的元素分别聚合成一个集合



6、join
对两个需要连接对RDD进行cogroup函数操作

7、leftOutJoin


8、rightOutJoin

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值