SparkRDD算子练习

最新推荐文章于 2024-04-29 00:48:59 发布

笨凉~~

最新推荐文章于 2024-04-29 00:48:59 发布

阅读量2.5k

点赞数 4

本文链接：https://blog.csdn.net/weixin_55983492/article/details/119560812

版权

练习一：

val list = List(("zhangsan",85),("zhangsan",90),("zhangsan",76),("lisi",80),("lisi",75),("lisi",89))

要求：

1. 创建对应的RDD，命名为rdd

2. 使用map算子，将rdd的数据进行转换操作

输出每个同学的平均分

scala> val list = List(("zhangsan",85),("zhangsan",90),("zhangsan",76),("lisi",80),("lisi",75),("lisi",89))
scala> val rdd = sc.parallelize(list)
//将相同key的值聚合到一起
scala> val rdd1 = rdd.reduceByKey((a,b)=>a+b)
//查看结果
scala> rdd1.collect()
res5: Array[(String, Int)] = Array((zhangsan,251), (lisi,244))
//让rdd1的每个元素做的输出x._1第一个元素不变,x._2第二个元素做除3的操作
scala> val rdd2 = rdd1.map(x=>(x._1,x._2/3))
//查看结果
scala> rdd2.collect()
res6: Array[(String, Int)] = Array((zhangsan,83), (lisi,81))

练习二：

val arr = Array(1,2,3,4,5)

要求：

1. 创建对应的RDD，命名为rdd

2. 使用map算子，将rdd的数据进行转换操作

分别使用count()、first()、take()、reduce()、foreach()等方法输出

scala> val arrRdd = sc.parallelize(Array(1,2,3,4,5))
//计数
scala> arrRdd.count()
res7: Long = 5
//返回第一个元素
scala> arrRdd.first()
res8: Int = 1
//返回前三个元素
scala> arrRdd.take(3)
res9: Array[Int] = Array(1, 2, 3)
//做聚合统计
scala> arrRdd.reduce((a,b)=>a+b)
res10: Int = 15
//让arrRdd中每个元素做println()的输出操作
scala> arrRdd.foreach(x=>println(x))
1
2
3
4
5
//简化
scala> arrRdd.foreach(println)
1
2
3
4
5

练习三：

val arr = Array(88,85,90)

要求：
1. 创建对应的RDD，命名为rdd1

2. 使用map算子，将rdd1的数据进行转换操作

使用zip()方法，输出的格式<--zhangsan，88--> <--lisi,85-->...

scala> val rdd1 = sc.parallelize(Array(88,85,90))
scala> val rdd2 = sc.parallelize(Array("zhangsan","lisi","wangwu"))
//做拉链操作，一个rdd1中元素对应一个rdd2中元素返回新的rdd
scala> val rdd3 = rdd1.zip(rdd2)
//查看结果
scala> rdd3.collect()
res13: Array[(Int, String)] = Array((88,zhangsan), (85,lisi), (90,wangwu))
scala> val rdd4 = rdd2.zip(rdd1)
scala> rdd4.collect()
res14: Array[(String, Int)] = Array((zhangsan,88), (lisi,85), (wangwu,90))

练习四：、

val list = List("dog","an","cat","an","cat")

要求：
1. 创建对应的RDD，命名为rdd

2. 使用map算子，将rdd的数据进行转换操作

先输出rdd中每个元素的长度，再使用zip()方法

最后去重

输出格式：<--dog,3--> <--an,2-->...

val rdd = sc.parallelize(List("dog","an","cat","an","cat"))
//第一步：通过获取rdd中每个元素的长度创建新的rdd1
scala> val rdd1 = rdd.map(_.length)
scala> rdd1.collect()
res16: Array[Int] = Array(3, 2, 3, 2, 3)
//第二步：通过zip把rdd1和rdd组合创建rdd2
scala> val rdd2 = rdd.zip(rdd1)
scala> rdd2.collect()
res17: Array[(String, Int)] = Array((dog,3), (an,2), (cat,3), (an,2), (cat,3))
//第三步：去重
scala> val rdd3 = rdd2.distinct()
//第四步：输出结果
scala> rdd3.collect()
res18: Array[(String, Int)] = Array((an,2), (dog,3), (cat,3))
scala> rdd3.foreach(println)
(an,2)
(dog,3)
(cat,3)

练习五：

val list = List(1,2,3,4,5,6)
要求：
1. 创建对应的RDD，命名为rdd

2. 使用map算子，将rdd的数据进行转换操作
规则如下:
* 偶数转换成该数的平方

* 奇数转换成该数的立方

scala> val rdd = sc.parallelize(List(1,2,3,4,5,6))

//取出偶数元素
scala> val rdd1 = rdd.filter(_ % 2 == 0)
scala> rdd1.collect()
res19: Array[Int] = Array(2, 4, 6)
//换成平方
scala> val rdd2 = rdd1.map(x=>x*x)
scala> rdd2.collect()
res20: Array[Int] = Array(4, 16, 36)
      
//取出奇数元素
scala> val rdd3 = rdd.filter(_ % 2 == 1)
scala> rdd3.collect()
res21: Array[Int] = Array(1, 3, 5)
//换成立方
scala> val rdd4 = rdd3.map(x=>x*x*x)
scala> rdd4.collect()
res22: Array[Int] = Array(1, 27, 125)

//简化：
scala> val rdd1 = rdd.map(x=>if(x%2==0){x*x}else{x*x*x})
//输出
scala> rdd1.foreach(println)
1
4
27
16
125
36

练习六：

有一个数组，数组元素为"dog", "salmon", "salmon", "rat", "elephant"
要求：
1. 创建对应的RDD

2. 使用map算子，将rdd的数据进行转换操作
* 规则如下:
* 将字符串与该字符串的长度组合成一个元组，例如：dog --> (dog,3),salmon --> (salmon,6)

scala> val rdd = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"))

//第一步：通过获取rdd中每个元素的长度创建新的rdd1
scala> val rdd1 = rdd.map(_.length)
scala> rdd1.collect()
res23: Array[Int] = Array(3, 6, 6, 3, 8)
//第二步：通过zip把rdd1和rdd组合创建rdd2
scala> val rdd2 = rdd.zip(rdd1)
scala> rdd2.collect()
res24: Array[(String, Int)] = Array((dog,3), (salmon,6), (salmon,6), (rat,3), (elephant,8))
//第三步：去重
scala> val rdd3 = rdd2.distinct()
//第四步：输出结果
scala> rdd3.collect()
res25: Array[(String, Int)] = Array((salmon,6), (rat,3), (dog,3), (elephant,8))

//简化
scala> val rdd1 = rdd.map(x=>(x,x.length()))
//输出
scala> rdd1.foreach(println)
(dog,3)
(salmon,6)
(salmon,6)
(rat,3)
(elephant,8)

练习七：

有一个words.txt文件，内容如下：
hello,world,hello,spark
good,nice,good,do
要求：
将该文件上传到HDFS下/spark/test目录下，并创建RDD数据集，然后完成以下步骤：

scala> val rdd = sc.textFile("/spark/test/word.txt")
scala> rdd.collect()
res0: Array[String] = Array(hello,world,hello,spark, good,nice,good,do)
scala> rdd.count
res13: Long = 2
//第一步：对所给数据创建的rdd切割分词
cala> val rdd1 = rdd.flatMap(x=>x.split(","))
scala> rdd1.collect()
res1: Array[String] = Array(hello, world, hello, spark, good, nice, good, do) 
scala> rdd1.count
res15: Long = 8   
//第二步：每个单词计数为1
scala> val rdd2 = rdd1.map(x=>(x,1))
scala> rdd2.collect()
res2: Array[(String, Int)] = Array((hello,1), (world,1), (hello,1), (spark,1), (good,1), (nice,1), (good,1), (do,1))    
//第三步：对相同单词个数进行累加
scala> val rdd3 = rdd2.reduceByKey((a,b)=>a+b)
scala> rdd3.collect()
res3: Array[(String, Int)] = Array((spark,1), (do,1), (nice,1), (hello,2), (good,2), (world,1))
//第四步：过滤出单词个数大于一个的
scala> val rdd4 = rdd3.map(x=>(x._1,x._2>1))
scala> rdd4.collect()
res5: Array[(String, Boolean)] = Array((spark,false), (do,false), (nice,false), (hello,true), (good,true), (world,false))
//简化
scala> val rdd4 = rdd3.filter(x=>x._2>1)
//第五步：输出结果
scala> rdd4.foreach(println)
(hello,2)
(good,2)

练习八：

某商店上午卖出10本 spark 书籍，每本50元，4本 Hadoop 书籍，每本40元，下午卖出20本 spark 书籍，每本40元，10本 Hadoop 书籍，每本30元。
现要求求出这两本书这一天销售的平均价格。
数据如下：
spark,10,50
spark,20,40
hadoop,4,40
hadoop,10,30

提示：List(("spark",(10,50)),("hadoop",(4,40)),("hadoop",(10,30)),("spark",(20,40)))

要求：
//第一步：通过给定数据通过集合并行化创建rdd
scala> val rdd = sc.parallelize(List(("spark",(10,50)),("hadoop",(4,40)),("hadoop",(10,30)),("spark",(20,40))))
//第二步：求出不同书籍一天收入总和以及出售本数
scala> val rdd1 = rdd.reduceByKey((a,b)=>(a._1*a._2+b._1*b._2,a._1+b._1)) 
scala> rdd1.collect()
res19: Array[(String, (Int, Int))] = Array((spark,(1300,30)), (hadoop,(460,14)))    
//第三步：求出每本平均售价
scala> val rdd2 = rdd1.map(x=>(x._1,x._2._1/x._2._2))    
//输出结果
scala> rdd2.foreach(println)
(spark,43)
(hadoop,32)

练习九：

List(("Bob","spark"),("Lily","hadoop"),("Candy","hive")，("Bob","hbase"),("Bob","hive"))

根据姓名对所学书籍分组

求出每个人的书籍本数

根据项目排序

输出结果

综合案例

有一份数据格式如下的文档：

日期，姓名，app,下载渠道，地区，版本号

1. 2017-08-14,Lily,Facebook,360 Shop,NewYork,v1.0 
2. 2017-08-14,Bob,Facebook,Amazon Appstore,NewYork,v1.2 
3. 2017-08-14,Lily,Facebook,360 Shop,Washington,v1.2 
4. 2017-08-14,Lily,Facebook,Google Play Store,Washington,v2.0 
5. 2017-08-14,Candy,YouTube,app store,Chicago,v1.8 
6. 2017-08-14,Lily,Facebook,Google Play Store,Washington,v2.0 
7. 2017-08-14,Candy,YouTube,app store,Chicago,v1.9 
8. 2017-08-15,Candy,YouTube,app store,Chicago,v2.0 
9. 2017-08-15,Candy,YouTube,app store,Chicago,v2.3 
10. 2017-08-15,Lily,Facebook,360 Shop,NewYork,v2.0 
11. 2017-08-15,Bob,Facebook,Amazon Appstore,NewYork,v1.2 
12. 2017-08-15,Bob,Facebook,Amazon Appstore,NewYork,v1.5 
13. 2017-08-15,Candy,YouTube,app store,Chicago,v2.9

需求：不考虑地区，列出版本升级情况。

结果格式：日期，姓名，app，下载渠道，升级前版本，升级后版本。

例：数据：

1. 2017-08-14,Lily,Facebook,360 Shop,NewYork,v1.0 
2. 2017-08-14,Lily,Facebook,360 Shop,Washington,v1.2 
3. 2017-08-14,Lily,Facebook,360 Shop,NewYork,v2.0

结果：

1. (2017-08-14,Lily,Facebook,360 Shop,v1.0,v1.2） 
2. (2017-08-14,Lily,Facebook,360 Shop,v1.2,v2.0）

要求：

//根据需求，去除城市字段

//按key分组，key是除城市字段和版本号字段以外的所有字段，value是版本号

//过滤版本号重复的(例：（v2.0,v2.0）)以及版本号只有一个的(例（v1.0）)

//拆分重新组合（例：(key,（v2.0,v2.5,v3.0))拆分成(key,（v2.0,v2.5）)(key,(v2.5,v3.0)）)

//按需求整理输出格式(例：（2017-08-14,Lily,Facebook,360 Shop,v1.2,v2.0）)

//执行foreach操作，打印出结果

笨凉~~

关注

4
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
SparkRDD算子练习

练习一：scala> val list = List(("zhangsan",85),("zhangsan",90),("zhangsan",76),("lisi",80),("lisi",75),("lisi",89))scala> val rdd = sc.parallelize(list)//将相同key的值聚合到一起scala> val rdd1 = rdd.reduceByKey((a,b)=>a+b)//查看结果scala> rdd1.collect
复制链接

扫一扫