RDD编程初级实践（基于python）

最新推荐文章于 2023-10-04 00:00:00 发布

weixin_51125289

最新推荐文章于 2023-10-04 00:00:00 发布

阅读量376

点赞数 2

文章标签： spark

本文链接：https://blog.csdn.net/weixin_51125289/article/details/117638785

版权

本文介绍了使用pyspark进行RDD编程的实验，包括实验目的、环境配置、数据集描述和实验步骤。实验内容涵盖数据去重、计算平均值等任务，涉及数据处理和统计分析，旨在熟悉Spark RDD的基本操作和解决实际问题。

摘要由CSDN通过智能技术生成

1.实验目的

（1）熟悉Spark的RDD基本操作及键值对操作；
（2）熟悉使用RDD编程解决实际具体问题的方法。

2.实验环境

（1）操作系统：Ubuntu16.04
（2）Spark版本：2.4.0
（3）Python版本：3.4.3

3.实验数据

3.1pyspark交互式编程（实验描述）

第一部分实验采用数据（data.txt）
该数据集包含了某大学计算机系的成绩，数据格式如下所示：

Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
……

3.2编写独立应用程序实现数据去重（实验描述）

对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C.第二部分实验采用数据集（A.txt 、B.txt）.数据集格式（A.txt、B.txt）如下：`

输入文件A的样例如下：
20200101    x
20200102    y
20200103    x
20200104    y
20200105    z
20200106    z
输入文件B的样例如下：
20200101    y
20200102    y
20200103    x
20200104    z
20200105    y
根据输入的文件A和B合并得到的输出文件C的样例如下：
20200101    x
20200101    y
20200102    y
20200103    x
20200104    y
20200104    z
20200105    y
20200105    z
20200106    z

3.3编写独立应用程序实现求平均值问题（实验描述）

每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。第三部分实验采用数据集（Algorithm.txt、Database.txt、Python.txt）。数据集格式如下

Algorithm成绩：
小明 92
小红 87
小新 82
小丽 90
Database成绩：
小明 95
小红 81
小新 89
小丽 85
Python成绩：
小明 82
小红 83
小新 94
小丽 91
平均成绩如下：
    (小红,83.67)
    (小新,88.33)
    (小明,89.67)
    (小丽,88.67)

3.4实验数据下载

点击此处对实验数据进行免费下载

4.实验步骤

4.1pyspark交互式编程

1.将数据集data.txt放置在usr/local/spark/data目录下
在这里插入图片描述
2.请根据给定的实验数据，在pyspark中通过编程来计算以下内容：
（1）该系总共有多少学生；
实现代码：

lines = sc.textFile("file:///usr/local/spark/data/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x:x[0])
sum = res.distinct()
sum.count(

最低0.47元/天解锁文章

weixin_51125289

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
RDD编程初级实践（基于python）

RDD编程初级实践（基于python）1.实验目的2.实验环境3.实验数据3.1pyspark交互式编程（实验描述）3.2编写独立应用程序实现数据去重（实验描述）3.3编写独立应用程序实现求平均值问题（实验描述）3.4实验数据下载4.实验步骤4.1pyspark交互式编程4.2编写独立应用程序实现数据去重4.3编写独立应用程序实现求平均值问题1.实验目的（1）熟悉Spark的RDD基本操作及键值对操作；（2）熟悉使用RDD编程解决实际具体问题的方法。2.实验环境（1）操作系统
复制链接

扫一扫