2021-06-05

最新推荐文章于 2022-12-02 12:28:10 发布

ZhangHongCheng98

最新推荐文章于 2022-12-02 12:28:10 发布

阅读量306

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/weixin_46878541/article/details/117602342

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

RDD编程初级实践

1.实验目的
2.实验平台
3.实验内容和要求
4.总结

1.实验目的

（1）熟悉Spark的RDD基本操作及键值对操作；
（2）熟悉使用RDD编程解决实际具体问题的方法。

2.实验平台

操作系统：Ubuntu16.04
安装教程：http://dblab.xmu.edu.cn/blog/337-2/
Spark版本：2.4.0
安装教程：http://dblab.xmu.edu.cn/blog/931-2/
Python版本：3.4.3

3.实验内容和要求

实验一：pyspark交互式编程

请到教材官网的“下载专区”的“数据集”中下载data.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示：

姓名	课程	成绩
Tom	DataBase	80
Tom	Algorithm	50
Tom	DataStructure	60
Jim	DataBase	90
Jim	Algorithm	60
Jim	DataStructure	80
……

请根据给定的实验数据，在pyspark中通过编程来计算以下内容：

a.该系总共有多少学生；

在这里插入图片描述

b.该系共开设了多少门课程；

在这里插入图片描述

c.Tom同学的总成绩平均分是多少；

在这里插入图片描述

d.求每位同学的选修的课程门数

在这里插入图片描述

e.该系DataBase课程共有多少人选修；

在这里插入图片描述

f. 使用累加器计算共有多少人选了DataBase这门课；

在这里插入图片描述

实验二：编写独立应用程序实现数据去重

对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。下面是输入文件和输出文件的一个样例，供参考。

输入文件A的样例如下：

A
20170101	x
20170102	y
20170103	x
20170104	y
20170105	z
20170106	z

输入文件B的样例如下：

B
20170101	y
20170102	y
20170103	x
20170104	z
20170105	y

根据输入的文件A和B合并得到的输出文件C的样例如下：

C
20170101	x
20170101	y
20170102	y
20170103	x
20170104	y
20170104	z
20170105	y
20170105	z
20170106	z

(1) 假设当前目录为/usr/local/spark/sparksqldata/remdup，在当前目录下新建一个remdup.py文件

在这里插入图片描述

(2) 最后在目录/usr/local/spark/sparksqldata/remdup下执行下面命令执行程序（注意执行程序时请先退出pyspark shell，否则会出现“地址已在使用”的警告）

在这里插入图片描述

(3) 在目录/usr/local/spark/mycode/sparksqldata/result下即可得到结果文件part-00000。

在这里插入图片描述

实验三：编写独立应用程序实现求平均值问题

(1) 假设当前目录为/usr/local/spark/sparksqldata/avgscore，在当前目录下新建一个avgscore.py；

在这里插入图片描述

(2) 最后在目录/usr/local/spark/sparksqldata/avgscore下执行下面命令执行程序（注意执行程序时请先退出pyspark shell，否则会出现“地址已在使用”的警告）。

在这里插入图片描述

(3) 在目录/usr/local/spark/mycode/sparksqldata/result下即可得到结果文件part-00000。

在这里插入图片描述

4.总结

按照步骤进行环境的安装，然后熟悉命令即可完成。

【注】本文章根据林子雨安装教程完成

ZhangHongCheng98

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
2021-06-05

RDD编程初级实践1.实验目的2.实验平台3.实验内容和要求实验一：pyspark交互式编程a.该系总共有多少学生；b.该系共开设了多少门课程；c.Tom同学的总成绩平均分是多少；d.求每位同学的选修的课程门数e.该系DataBase课程共有多少人选修；f. 使用累加器计算共有多少人选了DataBase这门课；实验二：编写独立应用程序实现数据去重(1) 假设当前目录为/usr/local/spark/sparksqldata/remdup，在当前目录下新建一个remdup.py文件(2) 最后在目录/usr
复制链接

扫一扫