RDD编程初级实践（基于Python）

最新推荐文章于 2021-06-19 16:21:06 发布

Carriage77

最新推荐文章于 2021-06-19 16:21:06 发布

阅读量1.1k

点赞数 2

文章标签： spark

本文链接：https://blog.csdn.net/weixin_45100128/article/details/117709260

版权

RDD编程初级实践

实验配置：系统:Ubuntu Kylin | 环境：Spark | 编程语言：Python

文章目录

一、实验目的
二、实验环境
三.实验内容
四.实验步骤
五.总结

一、实验目的

（1）熟悉Spark的RDD基本操作及键值对操作；
（2）熟悉使用RDD编程解决实际具体问题的方法。

二、实验环境

（1）操作系统：Ubuntu16.04
（2）Spark版本：2.4.0
（3）Python版本：3.4.3

三.实验内容

3.1 pyspark交互式编程

第一部分实验采用数据集"data.txt"

该数据集包含了某大学计算机系的成绩，数据格式如下所示：

Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
……

通过数据集，我们将完成以下内容：
（1）该系总共有多少学生；
（2）该系共开设了多少门课程；
（3）Tom同学的总成绩平均分是多少；
（4）求每名同学的选修的课程门数；
（5）该系DataBase课程共有多少人选修；
（6）各门课程的平均分是多少；
（7）使用累加器计算共有多少人选了DataBase这门课。

3.2 编写独立应用程序实现数据去重

对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。
第二部分实验给出门课的成绩文本（A.txt、B.txt），下面是输入文件和输出文件的一个样例，供参考。

//输入文件A的样例如下：
20200101    x
20200102    y
20200103    x
20200104    y
20200105    z
20200106    z
//输入文件B的样例如下：
20200101    y
20200102    y
20200103    x
20200104    z
20200105    y
//根据输入的文件A和B合并得到的输出文件C的样例如下：
20200101    x
20200101    y
20200102    y
20200103    x
20200104    y
20200104    z
20200105    y
20200105    z
20200106    z

3.3 编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。
第三部分实验采用数据集（Algorithm.txt、Database.txt、Python.txt）。数据集格式如下：

//Algorithm成绩：
小明 92
小红 87
小新 82
小丽 90
//Database成绩：
小明 95
小红 81
小新 89
小丽 85
//Python成绩：
小明 82
小红 83
小新 94
小丽 91
//平均成绩如下：
    (小红,83.67)
    (小新,88.33)
    (小明,89.67)
    (小丽,88.67)

3.4 实验数据下载

我已将本次实验所需要用到的所有数据集放在了百度网盘，可以点击这里到百度网盘下载（提取码：y3f5）

四.实验步骤

4.1pyspark交互式编程

1.将数据集data.txt放置在usr/local/spark/data目录下
可以通过奶牛快传将数据拷入虚拟机

2.请根据给定的实验数据，在pyspark中通过编程来计算以下内容：

（1）该系总共有多少学生；

实现代码：

lines = sc.textFile("file:///usr/local/spark/data/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x:x[0])
sum = res.distinct()
sum.count()

实现过程及结果：
在这里插入图片描述
（2）该系共开设了多少门课程；

实现代码：

res = line.map(lambda x:x.split(",").map(lambda x:x[1]))
dis_res = res.distinct()
dis_res.count()

实现过程及结果：
在这里插入图片描述
（3）Tom同学的总成绩平均分是多少；

实现代码：

res = lines.map(lambda x:x.split(",")).filter(lambda x:x[0]==“Tom”)
score = res.map(lambda x:int(x[2]))
num = res.count() 
sum_score = score.reduce(lambda x,y:x+y) 
avg = sum_score/num 
print(avg)

实现过程及结果：
在这里插入图片描述
（4）求每名同学的选修的课程门数；

实现代码：

lines = sc.textFile("file:///usr/local/spark/data/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x:(x[0],1))
each_res = res.reduceByKey(lambda x,y:x+y)
each_res.foreach(print)

实现过程及结果：
在这里插入图片描述
（5）该系DataBase课程共有多少人选修；

实现代码：

lines = sc.textFile("file:///usr/local/spark/data/data.txt")
res = lines.map(lambda x:x.split(",")).filter(lambda x:x[1] == 'DataBase')
res.count()

实现过程及结果：
在这里插入图片描述
（6）各门课程的平均分是多少；

实现代码：

res = lines.map(lambda x:x.split(",")).map(lambda x:(x[1],(int(x[2]),1)))
temp = res.reduceByKey(lambda x,y:(x[0]+y[0],x[1]+y[1]))
avg = temp.map(lambda x:(x[0],round(x[1][0]/x[1][1],2)))
avg.foreach(print)

实现过程及结果：
在这里插入图片描述
（7）使用累加器计算共有多少人选了DataBase这门课。

实现代码：

lines = sc.textFile("file:///usr/local/spark/data/data.txt")
res = lines.map(lambda x:x.split(",")).filter(lambda x:x[1] == 'DataBase')
accum = sc.accumulator(0)
res.foreach(lambda x:accum.add(1))
accum.value

实现过程及结果：
在这里插入图片描述

4.2编写独立应用程序实现数据去重

1.将数据集“A.txt”和“B.txt”放置在usr/local/spark/mycode目录下
在这里插入图片描述

2.在当前目录下新建一个remdup.py文件

vim remdup.py

3.进行程序编写，编写完成后保存并退出

from pyspark import SparkContext
sc = SparkContext('local','remdup')
lines1 = sc.textFile("file:///usr/local/spark/mycode/A.txt")
lines2 = sc.textFile("file:///usr/local/spark/mycode/B.txt")
lines = lines1.union(lines2)
distinct_lines = lines.distinct()
res = distinct_lines.sortBy(lambda x:x)
res.repartition(1).saveAsTextFile("file:///usr/local/spark/mycode/result/")

在这里插入图片描述
4.在命令行上输入python3 remdup.py，执行程序。

python3 remdup.py

在这里插入图片描述
5.进入usr/local/spark/mycode/result目录下查看结果

在这里插入图片描述

4.3编写独立应用程序实现求平均值问题

1.将数据（Algorithm.txt、Database.txt、Python.txt）放置在usr/local/spark/mycode/avgscore目录下

在这里插入图片描述
2.在当前目录下新建一个avgscore.py文件

vim avgscore.py

3.进入编辑，对程序进行编写，完成后保存退出

from pyspark import SparkContext
sc= SparkContext('local','avgscore')
lines1 = sc.textFile("file:///usr/local/spark/mycode/avgscore/Algorithm.txt")
lines2 = sc.textFile("file:///usr/local/spark/mycode/avgscore/Database.txt")
lines3 = sc.textFile("file:///usr/local/spark/mycode/avgscore/Python.txt")
lines = lines1.union(lines2).union(lines3)
distinct_lines = lines.distinct()
lines4 = distinct_lines.sortBy(lambda x:x).filter(bool)
data = lines4.map(lambda x:x.split(" ")).map(lambda x:(x[0],(int(x[1]),1)))
res = data.reduceByKey(lambda x,y:(x[0]+y[0],x[1]+y[1]))
result = res.map(lambda x:(x[0],round(x[1][0]/x[1][1],2)))
result.repartition(1).saveAsTextFile("file:///usr/local/spark/mycode/avgscore/result")

在这里插入图片描述

4.对程序进行运行

在这里插入图片描述
5.进入usr/local/spark/mycode/avgscore目录下查看结果

在这里插入图片描述

五.总结

通过本次实验操作，我们系统地熟悉Spark的RDD基本操作及键值对操作，同时也了解到如何使用RDD编程解决实际具体问题的方法。真诚希望这次实验对正在观看这篇文章的你有所帮助，同时本人也处于学习过程，如果有错误的地方欢迎在评论区指出，咱们一起进步，一起成长。

Carriage77

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
RDD编程初级实践（基于Python）

RDD编程初级实践实验配置：系统:Ubuntu Kylin | 环境：Spark | 编程语言：Python文章目录一、实验目的二、实验环境三.实验内容3.1 pyspark交互式编程3.2 编写独立应用程序实现数据去重3.3 编写独立应用程序实现求平均值问题3.4 实验数据下载四.实验步骤4.1pyspark交互式编程4.2编写独立应用程序实现数据去重4.3编写独立应用程序实现求平均值问题五.总结一、实验目的（1）熟悉Spark的RDD基本操作及键值对操作；（2）熟悉使用RDD编程解决实
复制链接

扫一扫