- 需求描述
本次实验需要完成:1.pyspark交互式编程;2.编写独立应用程序实现数据去重;3.编写独立应用程序实现求平均值问题。
其中pyspark交互式编程需要根据给定的实验数据data.txt,在pyspark中通过编程来计算以下内容,分别为:1.该系总共有多少学生;2.该系共开设了多少门课程;3.Tom同学的总成绩平均分是多少;4.求每名同学的选修的课程门数;5.该系DataBase课程共有多少人选修;6.各门课程的平均分是多少;7.使用累加器计算共有多少人选了DataBase这门课。
编写独立应用程序实现数据去重需要对于两个输入文件A.txt和B.txt,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。
编写独立应用程序实现求平均值问题需要对给出门课的成绩(Algorithm.txt、Database.txt、Python.txt),每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。
- 环境介绍
本次实验在笔记本上进行,笔记本配置为:
型号:联想ThinkBook 15 2021款 酷睿版
CPU:11th Gen Intel(R) Core(TM) i5-1135G7 @ 2.40GHz
内存:16GB
显卡:Intel(R) Iris(R) Xe Graphics
硬盘:西数SN530 512GB M.2 NVMe 固态硬盘
Windows版本:Windows 10 家庭中文版 20H2
虚拟机环境:Oracle VM VirtualBox
操作系统:Ubuntu16.04
Spark版本:2.4.0
Python版本:3.4.3
Hadoop版本:2.7.1
HBase版本:1.1.5
- 数据来源描述