RDD编程初级实践

最新推荐文章于 2023-05-13 18:13:15 发布

yu²er

最新推荐文章于 2023-05-13 18:13:15 发布

阅读量631

点赞数 1

文章标签： spark hadoop 大数据

本文链接：https://blog.csdn.net/yyrwlp/article/details/117956034

版权

这篇博客介绍了如何使用Spark的RDD进行数据处理，包括计算学生数量、课程门数、特定课程选修人数、平均分等。同时，演示了如何合并并去重文件，以及计算平均成绩。涉及的工具包括pyspark、Spark和Hadoop。

摘要由CSDN通过智能技术生成

`RDD编程初级实践`

1、需求描述

本次实验主要掌握熟悉Spark的RDD基本操作及键值对操作；熟悉使用RDD编程解决实际具体问题的方法。
本次课题有三个需求，具体的需求如下所示：
1、请根据给定的实验数据，在pyspark中通过编程来计算以下内容：
（1）该系总共有多少学生；
（2）该系共开设了多少门课程；
（3）Tom同学的总成绩平均分是多少；
（4）求每名同学的选修的课程门数；
（5）该系DataBase课程共有多少人选修；
（6）各门课程的平均分是多少；
（7）使用累加器计算共有多少人选了DataBase这门课。
2、对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。本文给出门课的成绩（A.txt、B.txt）下面是输入文件和输出文件的一个样例。
3、每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。本文给出门课的成绩（Algorithm.txt、Database.txt、Python.txt），下面是输入文件和输出文件的一个样例。
2、环境介绍
本次的环境主要是在linux上完成，操作系统：Ubuntu16.04；Spark版本：2.4.0；Python版本：3.4.3。buntu是一个以桌面应用为主的Linux操作系统，Ubuntu提供了一个健壮、功能丰富的计算环境，既适合家庭使用又适用于商业环境。Spark是目前使用最多的大数据框架，Spark可以比Hadoop快100倍，在内存不够存放所有数据的情况下快Hadoop 10倍。
3、数据来源描述
本次课题使用的数据主要有A.txt、Algorithm.txt、B.txt、data.txt、Database.txt、Python.txt。
data.txt该数据集包含了某大学计算机系的成绩，数据格式如下所示：
Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
……
输入文件A的样例如下：
20200101 x
20200102 y
20200103 x
20200104

最低0.47元/天解锁文章

yu²er

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
RDD编程初级实践

RDD编程初级实践1、需求描述本次实验主要掌握熟悉Spark的RDD基本操作及键值对操作；熟悉使用RDD编程解决实际具体问题的方法。本次课题有三个需求，具体的需求如下所示：1、请根据给定的实验数据，在pyspark中通过编程来计算以下内容：（1）该系总共有多少学生；（2）该系共开设了多少门课程；（3）Tom同学的总成绩平均分是多少；（4）求每名同学的选修的课程门数；（5）该系DataBase课程共有多少人选修；（6）各门课程的平均分是多少；（7）使用累加器计算共有多少人选了Dat.
复制链接

扫一扫