1、需求描述
本次实验需要熟悉Spark的RDD基本操作及键值对操作、熟悉使用RDD编程解决实际具体问题的方法。pyspark交互式编、编写独立应用程序实现数据去重、编写独立应用程序实现求平均值问题。spark的编码格式是utf-8,其他的格式会有乱码,所以文件要使用utf-8编码。
2、环境介绍
虚拟机:Oracle VM VirtualBox。
操作系统:Ubuntu16.04。
Spark版本:2.4.0。
Python版本:3.4.3。
3、数据来源描述
数据来源于老师课堂发布文件data.txt,编写的A文件、编写B文件、Algorithm文件、database文件、python文件。
4、数据上传及上传结果查看
本作业提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示
题1图
对于两个输入文件A和B,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。本文给出门课的成绩(A.txt、B.txt)下面是输入文件和输出文件的一个样例