RDD编程初级实践

  1. 需求描述

本次实验需要完成:1.pyspark交互式编程;2.编写独立应用程序实现数据去重;3.编写独立应用程序实现求平均值问题。

其中pyspark交互式编程需要根据给定的实验数据data.txt,在pyspark中通过编程来计算以下内容,分别为:1.该系总共有多少学生;2.该系共开设了多少门课程;3.Tom同学的总成绩平均分是多少;4.求每名同学的选修的课程门数;5.该系DataBase课程共有多少人选修;6.各门课程的平均分是多少;7.使用累加器计算共有多少人选了DataBase这门课。

编写独立应用程序实现数据去重需要对于两个输入文件A.txt和B.txt,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。

编写独立应用程序实现求平均值问题需要对给出门课的成绩(Algorithm.txt、Database.txt、Python.txt),每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。

 

  1. 环境介绍

本次实验在笔记本上进行,笔记本配置为:

型号:联想ThinkBook 15 2021款 酷睿版

CPU:11th Gen Intel(R) Core(TM) i5-1135G7 @ 2.40GHz

内存:16GB

显卡:Intel(R) Iris(R) Xe Graphics

硬盘:西数SN530 512GB M.2 NVMe 固态硬盘

Windows版本:Windows 10 家庭中文版 20H2

虚拟机环境:Oracle VM VirtualBox

操作系统:Ubuntu16.04

Spark版本:2.4.0

Python版本:3.4.3

Hadoop版本:2.7.1

HBase版本:1.1.5

 

  1. 数据来源描述

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值