Spark的常用算子与详解

Spark算子分为两类:Transformation(转换算子)和Action行动算子

Transformation算子,用来将RDD进行转化,构建RDD的血缘关系。
Action算子,它是用来触发RDD的计算,得到RDD的相关计算结果或者将RDD保存在文件系统中。

Transformation常用算子:

  • map:将所有的元素取出,经过func函数转换成一个新的RDD
  • filter:返回一个新的RDD,该RDD经过func函数计算,返回true的元素
  • flatMap:先经过map函数,再进行flat压平
  • union:合并,将两个RDD中的数据进行合并,返回一个新的RDD(取并集)
  • intersection:合并,(取交集)
  • distinct:去重,对原来的RDD进行去重,返回新的RDD
  • partitionBy:分区,有分区可以重新分(可以做一些数据的合并,还有数据倾斜的问题)
  • sortByKey:按照K进行排序
  • sortBy:指定某一个元素进行排序

Action常用算子:

  • reduce:通过func函数聚集RDD中所有元素,必须是可交换,可并联的
  • collect:将RDD中的元素打印出来
  • count:统计一个多少条数据
  • first:取出RDD中第一个元素
  • take(N):取出RDD中前N个值
  • top(N):排序取前N,从大到小
  • takeOedered(N):排序取出前N个值,从小到大
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值