Spark： ------ RDD的Actions的动作算子

最新推荐文章于 2024-04-10 22:24:15 发布

姜同学的学习笔记

最新推荐文章于 2024-04-10 22:24:15 发布

阅读量155

点赞数

分类专栏： spark 文章标签： apache spark

本文链接：https://blog.csdn.net/weixin_45764675/article/details/105282847

版权

spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Spark任何一个计算任务，有且仅有一个动作算子，用于触发job的执行。将RDD中的数据写出到外围系统或者传递给Driver主程序。

reduce( func )

该算子能够对远程结果进行计算，然后将计算结果返回给Driver。计算文件中的字符数

scala> sc.textFile("file:///root/t_word").map(_.length).reduce(_+_)
res3: Int = 64

collect()

将远程RDD中数据传输给Driver端。通常用于测试环境或者RDD中数据非常的小的情况才可以使用Collect算子，否则Driver可能因为数据太大导致内存溢出。

scala> sc.textFile("file:///root/t_word").collect
res4: Array[String] = Array(this is a demo, hello spark, "good good study ", "day day
up ", come on baby)

foreach( func )

在数据集的每个元素上运行函数func。通常这样做是出于副作用，例如更新累加器或与外部存储系统交互。

scala> sc.textFile("file:///root/t_word").foreach(line=>println(line))

count()

返回RDD中元素的个数

scala> sc.textFile("file:///root/t_word").count()
res7: Long = 5

first()|take( n )

first：取第一个元素，take（n）取前n个元素

scala> sc.textFile("file:///root/t_word").first
res9: String = this is a demo
scala> sc.textFile("file:///root/t_word").take(1)
res10: Array[String] = Array(this is a demo)
scala> sc.textFile("file:///root/t_word").take(2)
res11: Array[String] = Array(this is a demo, hello spark)

takeSample( withReplacement , num , [ seed ])

随机的从RDD中采样num个元素，并且将采样的元素返回给Driver主程序。因此这和sample转换算子有很大的区别。第三个参数默认可以不给如果给了 1L 那么1L得到的不会变， 2L同理

scala> sc.textFile("file:///root/t_word").takeSample(false,2)
res20: Array[String] = Array("good good study ", hello spark)

scala>  sc.textFile("file:///root/t_word").takeSample(false,3,1L)
res55: Array[String] = Array(come on baby, good good study, this is a demo)

scala>  sc.textFile("file:///root/t_word").takeSample(false,3,2L)
res56: Array[String] = Array(come on baby, this is a demo, hello spark)

scala>  sc.textFile("file:///root/t_word").takeSample(false,3,1L)
res57: Array[String] = Array(come on baby, good good study, this is a demo)```

takeOrdered

takeOrdered( n , [ordering] )

返回RDD中前N个元素，用户可以指定比较规则

scala> case class User(name:String,deptNo:Int,salary:Double)
defined class User
scala> var
userRDD=sc.parallelize(List(User("zs",1,1000.0),User("ls",2,1500.0),User("ww",2,1000.0
)))
userRDD: org.apache.spark.rdd.RDD[User] = ParallelCollectionRDD[51] at parallelize at
<console>:26
scala> userRDD.takeOrdered
def takeOrdered(num: Int)(implicit ord: Ordering[User]): Array[User]
scala> userRDD.takeOrdered(3)
<console>:26: error: No implicit Ordering defined for User.
userRDD.takeOrdered(3)
scala> implicit var userOrder=new Ordering[User]{
| override def compare(x: User, y: User): Int = {
| if(x.deptNo!=y.deptNo){
| x.deptNo.compareTo(y.deptNo)
| }else{
| x.salary.compareTo(y.salary) * -1
| }
| }
| }
userOrder: Ordering[User] = $anon$1@7066f4bc
scala> userRDD.takeOrdered(3)
res23: Array[User] = Array(User(zs,1,1000.0), User(ls,2,1500.0), User(ww,2,1000.0))

saveAsTextFile( path )

将数据集的元素作为文本文件（或一组文本文件）写入本地的给定目录中文件系统、HDFS或任何其他Hadoop支持的文件系统。Spark会调用RDD中元素的toString方法将元素以文本行的形式写入到文件中。

scala> sc.textFile("file:///root/t_word").flatMap(_.split("
")).map((_,1)).reduceByKey(_+_).sortBy(_._1,true,1).map(t=>
t._1+"\t"+t._2).saveAsTextFile("hdfs:///demo/results02")

saveAsSequenceFile( path )

该方法只能用于RDD[(k,v)]类型。并且K/v都必须实现Writable接口，由于使用Scala编程，Spark已经实现隐式转换将Int, Double, String, 等类型可以自动的转换为Writable

scala> sc.textFile("file:///root/t_word").flatMap(_.split("
")).map((_,1)).reduceByKey(_+_).sortBy(_._1,true,1).saveAsSequenceFile("hdfs:///demo/r
esults03")
scala> sc.sequenceFile[String,Int]("hdfs:///demo/results03").collect
res29: Array[(String, Int)] = Array((a,1), (baby,1), (come,1), (day,2), (demo,1),
(good,2), (hello,1), (is,1), (on,1), (spark,1), (study,1), (this,1), (up,1))

姜同学的学习笔记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark： ------ RDD的Actions的动作算子

Spark任何一个计算任务，有且仅有一个动作算子，用于触发job的执行。将RDD中的数据写出到外围系统或者传递给Driver主程序。reduce( func )该算子能够对远程结果进行计算，然后将计算结果返回给Driver。计算文件中的字符数scala> sc.textFile("file:///root/t_word").map(_.length).reduce(_+_)r...
复制链接

扫一扫