RDD编程初级实践
pyspark交互式编程
-
问题需求:提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:
Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
…… -
在操作系统:Ubuntu16.04,Spark版本:2.1.0,Python版本:3.5.2。把数据data.txt放入/usr/local/spark目录下,生成RDD,打印数据内容
-
该系总共有多少学生,生成RDD,求总数
-
该系共开设了多少门课程,生成RDD,拆分记录获取课程信息,去除课程中的重复信息