Spark之RDD动作算子(Action)大全

本文介绍了Spark中RDD的常用动作算子,包括count、countByKey、countByValue、collect、collectAsMap、top、take、takeOrdered、takeSample、first、reduce、foreach、foreachPartition、lookup、max、min、saveAsTextFile、saveAsSequenceFile、saveAsObjectFile、aggregate和fold。这些算子用于触发RDD计算,并返回结果或保存数据。
摘要由CSDN通过智能技术生成

前面已经给大家讲过RDD原理以及常用的转换算子,今天就再给大家说说RDD的动作算子有哪些,以便大家更能全面的理解和掌握。

对于动作算子来说,本质上动作算子是通过SparkContext执行提交作业操作,触发RDD DAG(有向无环图)的执行;所有的动作算子都是急迫型(non-lazy),RDD遇到Action就会立即计算。

常用动作算子

count

  • 返回数据集中的元素的个数

案例:

val rdd=sc.parallelize(List(1,2,3,4,5,6))
rdd.count

//6

countByKey

  • 针对(K,V)类型的RDD,返回一个(K,Int)的map,表示每一个key对应的元素个数。

案例:

val rdd = sc.parallelize(List((1,3),(1,2),(1,4),(2,3),(3,6),(3,8)),3)
rdd.countByKey

//scala.collection.Map[Int,Long] = Map(3 -> 2, 1 -> 3, 2 -> 1)

countByValue

  • 根据数据集每个元素相同的内容来计数。返回相同内容的元素对应的条数。

案例:

val rdd = sc.parallelize(List((1,3),(1,2),(1,4),(2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值