SparkRdd算子练习

最新推荐文章于 2023-11-21 15:08:22 发布

意由

最新推荐文章于 2023-11-21 15:08:22 发布

阅读量814

点赞数 3

文章标签： scala spark

本文链接：https://blog.csdn.net/weixin_57405709/article/details/119572403

版权

练习一：

val rdd = sc.parallelize(List("dog","an","cat","an","cat"))

第一步：通过获取rdd中每个元素的长度创建新的rdd1

第二步：通过zip把rdd1和rdd组合创建rdd2

第三步：去重

第四步：输出结果

val rdd = sc.parallelize(List("dog","an","cat","an","cat"))
//第一步：通过获取rdd中每个元素的长度创建新的rdd1
val rdd1 = rdd.map(_.length)
rdd1.collect()
//第二步：通过zip把rdd1和rdd组合创建rdd2
val rdd2 = rdd.zip(rdd1)
rdd2.collect()
//第三步：去重
val rdd3 = rdd2.distinct()
//第四步：输出结果
rdd3.collect()
rdd3.foreach(println)

练习二

val list = List(1,2,3,4,5,6)

要求：

创建对应的RDD，命名为rdd

使用map算子，将rdd的数据进行转换操作

规则如下:

* 偶数转换成该数的平方

* 奇数转换成该数的立方

val list = List(1,2,3,4,5,6)
//偶数元素
val rdd1 = rdd.filter(_ % 2 == 0)
rdd1.collect()
//换成平方
val rdd2 = rdd1.map(x=>x*x)
rdd2.collect()
//奇数元素
val rdd3 = rdd.filter(_ % 2 == 1)
rdd3.collect()
//换成立方
val rdd4 = rdd3.map(x=>x*x*x)
//输出
rdd4.collect()

练习三

有一个数组，数组元素为"dog", "salmon", "salmon", "rat", "elephant"

要求：

创建对应的RDD

使用map算子，将rdd的数据进行转换操作

* 规则如下:

* 将字符串与该字符串的长度组合成一个元组，例如：dog --> (dog,3),salmon --> (salmon,6)

//第一步：通过获取rdd中每个元素的长度创建新的rdd1
val rdd1 = rdd.map(_.length)
rdd1.collect()
//第二步：通过zip把rdd1和rdd组合创建rdd2
val rdd2 = rdd.zip(rdd1)
rdd2.collect()
//第三步：去重
val rdd3 = rdd2.distinct()
//第四步：输出结果
rdd3.collect()

练习四

有一个words.txt文件，内容如下：

hello,world,hello,spark

good,nice,good,do

要求：

将该文件上传到HDFS下/spark/test目录下，并创建RDD数据集，然后完成以下步骤：

        第一步：对所给数据创建的rdd切割分词

第二步：每个单词计数为1

        第三步：对相同单词个数进行累加

        第四步：过滤出单词个数大于一个的

        第五步：输出结果

//第一步: 将文件加载数据并创建Rdd
val rdd = sc.textFile("/spark/test/word.txt")
//第二步：对所给数据创建的rdd切割分词
val rdd1 = rdd.flatMap(x=>x.split(","))
//第三步：每个单词计数为1
val rdd2 = rdd1.map(x=>(x,1))
//第四步：对相同单词个数进行累加
val rdd3 = rdd2.reduceByKey((a,b)=>a+b)
//第五步：过滤出单词个数大于一个的
val rdd4 = rdd3.map(x=>(x._1,x._2>1))
//第六步：输出结果
rdd4.foreach(println)

练习五

某商店上午卖出10本 spark 书籍，每本50元，4本 Hadoop 书籍，每本40元，下午卖出20本 spark 书籍，每本40元，10本 Hadoop 书籍，每本30元。

现要求求出这两本书这一天销售的平均价格。

数据如下：

spark,10,50

spark,40,25

hadoop,5,40

hadoop,10,25

提示：List(("spark",(10,50)),("hadoop",(5,40)),("hadoop",(10,25)),("spark",(40,25)))

要求：

          第一步：通过给定数据通过集合并行化创建rdd

          第二步：求出不同书籍一天收入总和以及出售本数

          第三步：求出每本平均售价

第四步：输出结果

//第一步：通过给定数据通过集合并行化创建rdd
val rdd = sc.parallelize(List(("spark",(10,50)),("hadoop",(4,40)),("hadoop",(10,30)),("spark",(20,40))))
//第二步：求出不同书籍一天收入总和以及出售本数
val rdd1 = rdd.reduceByKey((a,b)=>(a._1*a._2+b._1*b._2,a._1+b._1)) 
//第三步：求出每本平均售价
val rdd2 = rdd1.map(x=>(x._1,x._2._1/x._2._2))    
//输出结果
rdd2.foreach(println)

意由

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
SparkRdd算子练习

练习一：valrdd=sc.parallelize(List("dog","an","cat","an","cat"))第一步：通过获取rdd中每个元素的长度创建新的rdd1第二步：通过zip把rdd1和rdd组合创建rdd2第三步：去重第四步：输出结果val rdd = sc.parallelize(List("dog","an","cat","an","cat"))//第一步：通过获取rdd中每个元素的长度创建新的rdd1val rdd1 = rdd.map(_....
复制链接

扫一扫