在SPARK中实现RDD编程

最新推荐文章于 2023-12-19 16:55:55 发布

weixin_47797671

最新推荐文章于 2023-12-19 16:55:55 发布

阅读量1.6k

点赞数 4

文章标签： spark

本文链接：https://blog.csdn.net/weixin_47797671/article/details/117793220

版权

目录：
一．实现pyspark交互式编程，分析某大学计算机系的成绩，完成如下需求：
（1）该系总共有多少学生；
（2）该系共开设了多少门课程；
（3）Tom同学的总成绩平均分是多少；
（4）求每名同学的选修的课程门数；
（5）该系DataBase课程共有多少人选修；
（6）各门课程的平均分是多少；
（7）使用累加器计算共有多少人选了DataBase这门课。

二．编写独立应用程序实现数据去重
对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。本文给出门课的成绩（A.txt、B.txt）。
三．编写独立应用程序实现求平均值问题
每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。本文给出门课的成绩（Algorithm.txt、Database.txt、Python.txt）

本次实验实现平台：操作系统：Ubuntu16.04、Spark版本：2.4.0、Python版本：3.4.3。

1）pyspark交互式编程
（1）该系总共有多少学生（代码及其结果如下图所示）；
在这里插入图片描述

（2）该系共开设了多少门课程（代码及其结果如下图所示）；
在这里插入图片描述

（3）Tom同学的总成绩平均分是多少（代码及其结果如下图所示）；
在这里插入图片描述

（4）求每名同学的选修的课程门数（代码及其结果如下图所示）；
在这里插入图片描述

（5）该系DataBase课程共有多少人选修（代码及其结果如下图所示）；
在这里插入图片描述

（6）各门课程的平均分是多少（代码及其结果如下图所示）；
在这里插入图片描述

（7）使用累加器计算共有多少人选了DataBase这门课（代码及其结果如下图所示）：
在这里插入图片描述

2）编写独立应用程序实现数据去重
（1）对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。首先创建C.py文件，导入SparkContext。导入A,B文件，使用union方法合并两文件并使用distinct方法去重，然后使用sortBy方法进行排序。最后将结果放入result文件中，如下图所示。
在这里插入图片描述

（2）运行C.py文件，得到结果文件part-00000，如下图所示。
在这里插入图片描述

（3）最终结果如下图所示。
在这里插入图片描述

3）编写独立应用程序实现求平均值问题
（1）编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。首先创建avg_sc.py文件，加载三个文件生成RDD，然后合并三个文件并做拆分。最后使用reduceByKey方法进行分组统计。
在这里插入图片描述

（2）运行avg_sc.py文件，得到结果文件part-00000，如下图所示。
在这里插入图片描述

（4）最终结果如下图所示。
在这里插入图片描述

weixin_47797671

关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
4
评论
在SPARK中实现RDD编程

1）pyspark交互式编程（1）该系总共有多少学生（代码及其结果如下图所示）；（2）该系共开设了多少门课程（代码及其结果如下图所示）；（3）Tom同学的总成绩平均分是多少（代码及其结果如下图所示）；（4）求每名同学的选修的课程门数（代码及其结果如下图所示）；（5）该系DataBase课程共有多少人选修（代码及其结果如下图所示）；（6）各门课程的平均分是多少（代码及其结果如下图所示）；（7）使用累加器计算共有多少人选了DataBase这门课（代码及其结果如下图所示）：2）编写独立应用程序实现
复制链接

扫一扫