大数据平台架构实验六---Spark计算模型

【实验目的】

  1. 掌握大数据处理与分析的基本思路与流程。
  2. 掌握常用的数据载入、数据预处理方法。
  3. 掌握基本的数据分析方法。

【实验要求】

  1. 保存程序,并自行存档;
  2. 最终的程序都必须经过测试,验证是正确的;
  3. 认真记录实验过程及结果,回答实验报告中的问题。

【实施环境】(使用的材料、设备、软件) Linux操作系统环境,python程序设计语言,Jupyter Notebook编程环境。

【实验内容】
某班进行期末语文、数学、英语考试,得到了每位同学的考试成绩,现需要进行成绩的统计(具体数据如图1所示,其中第一列为语文,第二列为数学,第三列为英语)。请使用Spark计算模型,采用python或scala编程语言,完成下列任务计算。

在这里插入图片描述

1.打开jupyter notebook
在这里插入图片描述
2.启动hadoop
在这里插入图片描述
3.桌面新建experiment06文本
在这里插入图片描述
jupyter中新建python3程序,重命名为experiment06
在这里插入图片描述
备注:如果之前运行过sparkContext,需要先停止
在这里插入图片描述
4.1 计算数据集中样本数(行数)
注意这里应先导入findspark,初始化后再导入pyspark
在这里插入图片描述
在这里插入图片描述
4.2 统计并输出单科满分者
在这里插入图片描述
4.3 统计并输出单科0分者
在这里插入图片描述
4.4 统计并输出单科最高分者
在这里插入图片描述
4.5 统计并输出单科的总分
在这里插入图片描述
4.6 统计并输出每人的总分
在这里插入图片描述
4.7 统计并输出总分最高分者
在这里插入图片描述
4.8 统计并输出总分最低分者
在这里插入图片描述
4.9 统计并输出每科平均分
在这里插入图片描述
4.10 统计并输出总分的前三名
在这里插入图片描述
5.关闭hadoop
在这里插入图片描述

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值