RDD编程初级实践-课程论文

  1. 需求描述

本次实验需要对给定数据进行RDD的基本操作,使用RDD编程实现解决具体问题的方法。内容要求分为三个部分:

  1. pyspark交互式编程

根据给定大学成绩数据集,用pyspark来进行编程,分析并计算以下内容:

(1)该系总共有多少学生;

(2)该系共开设了多少门课程;

(3)Tom同学的总成绩平均分是多少;

(4)求每名同学的选修的课程门数;

(5)该系DataBase课程共有多少人选修;

(6)各门课程的平均分是多少;

(7)使用累加器计算共有多少人选了DataBase这门课。

2.编写独立应用程序实现数据去重

对于两个输入文件A和B,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。文件C的样例如下:

20200101    x

20200101    y

20200102    y

20200103    x

20200104    y

20200104    z

20200105    y

20200105    z

20200106    z

3.编写独立应用程序实现求平均值问题

编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。

 

  1. 环境介绍

该实验考察学生对使用PySpark进行编程的熟悉程度。Spark是专为大规模数据处理设计的快速通用计算引擎,是与Hadoop相似的开源集群计算环境,但在某些工作负载方面表现得比Hadoop更优秀。

本实验使用Oracle VM VirtualBox上的Linux操作系统Ubuntu Kylin,版本为16.04,虚拟机上需要架构好Spark(2.4.0)环境。本实

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值