RDD编程初级实践

最新推荐文章于 2023-12-18 14:41:47 发布

Ｈｊｂ

最新推荐文章于 2023-12-18 14:41:47 发布

阅读量666

点赞数

文章标签： python spark 大数据 hadoop linux

本文链接：https://blog.csdn.net/weixin_53910050/article/details/117790333

版权

RDD编程初级实践

实验目的
实验环境
二、实验内容和要求
- 1.pyspark交互式编程
- 2.编写独立应用程序实现数据去重
3.编写独立应用程序实现求平均值问题

实验目的

（1）熟悉Spark的RDD基本操作及键值对操作；
（2）熟悉使用RDD编程解决实际具体问题的方法。

实验环境

操作系统：Ubuntu16.04
Spark版本：2.4.0
Python版本：3.4.3

二、实验内容和要求

1.pyspark交互式编程

提供分析数据data.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示：
Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
————————————————

pyspark代码如下：

（1）该系总共有多少学生；

lines = sc.textFile("file:///usr/local/spark/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x: x[0])
distinct_res = res.distinct()
distinct_res.count()
265

（2）该系共开设了多少门课程；

lines = sc.textFile("file:///usr/local/spark/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x:x[1]) 
distinct_res = res.distinct()
distinct_res.count()
8

（3） Tom同学的总成绩平均分是多少

lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")
res = lines.map(lambda x:x.split(

最低0.47元/天解锁文章

Ｈｊｂ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
RDD编程初级实践

RDD编程初级实践实验目的实验环境二、实验内容和要求1.pyspark交互式编程2.编写独立应用程序实现数据去重3.编写独立应用程序实现求平均值问题实验目的（1）熟悉Spark的RDD基本操作及键值对操作；（2）熟悉使用RDD编程解决实际具体问题的方法。实验环境操作系统：Ubuntu16.04Spark版本：2.4.0Python版本：3.4.3二、实验内容和要求1.pyspark交互式编程提供分析数据data.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示：Tom,.
复制链接

扫一扫