Spark学习日记1

* 针对RDD有两种操作:

1. transformation: 将源RDD转化为另一个RDD,即返回值是rdd

常见的有filter, union, map, flatMap,intersection, cartesian,intersection, reduceByKey(Pari RDD所有)操作

2. action:对RDD进行计算求值, 其中用的是惰性求值,即当调用到之后才真正的计算

常见的有take,count,reduce, reduce, fold, foreach,


* 为了保存RDD中间的求值状态,可以选择不同程度的持久化, 例如:

rdd.persist(StrorageLevel.DISK_ONLY)

默认的是序列化方式存在JVM缓冲中, MEMORY_ONLY_SER


* Pari RDD的转化操作:

1. reduceByKey : 将相同key的键值对进行规约,比如 [{1,2}, {1,3}, {2, 3}] 进行 rdd.reduceByKey((x, y) => x + y) 后,变为[{1,5}, {2, 3}]

2. groupByKey

3. combineByKey(createCombiner, mergeValue, mergeCombiners, partitioner)

4. mapValues(func)

5. flatMapValues(func)

6. keys

7. values

8. sortByKey()

******* 二元RDD*****

9. subsctractByKey

10. join

11. rightOrderJoin

12. leftOrderJoin

13. cogroup


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值