大数据平台架构实验六---Spark计算模型

最新推荐文章于 2024-02-13 11:21:16 发布

chaRon522

最新推荐文章于 2024-02-13 11:21:16 发布

阅读量733

点赞数

分类专栏：大数据平台架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43588190/article/details/106711178

版权

大数据平台架构专栏收录该内容

6 篇文章 6 订阅

订阅专栏

【实验目的】

掌握大数据处理与分析的基本思路与流程。
掌握常用的数据载入、数据预处理方法。
掌握基本的数据分析方法。

【实验要求】

保存程序，并自行存档；
最终的程序都必须经过测试，验证是正确的；
认真记录实验过程及结果，回答实验报告中的问题。

【实施环境】（使用的材料、设备、软件） Linux操作系统环境，python程序设计语言，Jupyter Notebook编程环境。

【实验内容】
某班进行期末语文、数学、英语考试，得到了每位同学的考试成绩，现需要进行成绩的统计（具体数据如图1所示，其中第一列为语文，第二列为数学，第三列为英语）。请使用Spark计算模型，采用python或scala编程语言，完成下列任务计算。

在这里插入图片描述

1.打开jupyter notebook
在这里插入图片描述
2.启动hadoop

3.桌面新建experiment06文本

jupyter中新建python3程序，重命名为experiment06

备注：如果之前运行过sparkContext，需要先停止

4.1 计算数据集中样本数（行数）
注意这里应先导入findspark，初始化后再导入pyspark
在这里插入图片描述

4.2 统计并输出单科满分者

4.3 统计并输出单科0分者

4.4 统计并输出单科最高分者

4.5 统计并输出单科的总分

4.6 统计并输出每人的总分

4.7 统计并输出总分最高分者

4.8 统计并输出总分最低分者
在这里插入图片描述
4.9 统计并输出每科平均分

4.10 统计并输出总分的前三名

5.关闭hadoop

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
大数据平台架构实验六---Spark计算模型

【实验目的】掌握大数据处理与分析的基本思路与流程。掌握常用的数据载入、数据预处理方法。掌握基本的数据分析方法。【实验要求】保存程序，并自行存档；最终的程序都必须经过测试，验证是正确的；认真记录实验过程及结果，回答实验报告中的问题。【实施环境】（使用的材料、设备、软件） Linux操作系统环境，python程序设计语言，Jupyter Notebook编程环境。【实验内容】某班进行期末语文、数学、英语考试，得到了每位同学的考试成绩，现需要进行成绩的统计（具体数据如图1.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。