实验目的
(1)熟悉Spark的RDD基本操作及键值对操作;
(2)熟悉使用RDD编程解决实际具体问题的方法。
实验环境
操作系统:Ubuntu16.04
Spark版本:2.4.0
Python版本:3.4.3
二、实验内容和要求
1.pyspark交互式编程
提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:
Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
————————————————
pyspark代码如下:
(1) 该系总共有多少学生;
lines = sc.textFile("file:///usr/local/spark/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x: x[0])
distinct_res = res.distinct()
distinct_res.count()
265
(2) 该系共开设了多少门课程;
lines = sc.textFile("file:///usr/local/spark/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x:x[1])
distinct_res = res.distinct()
distinct_res.count()
8
(3) Tom同学的总成绩平均分是多少
lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")
res = lines.map(lambda x:x.split(