2021-06-05

最新推荐文章于 2024-05-21 09:47:21 发布

weixin_48070037

最新推荐文章于 2024-05-21 09:47:21 发布

阅读量807

点赞数 1

文章标签： spark

本文链接：https://blog.csdn.net/weixin_48070037/article/details/117603018

版权

RDD编程初级实践

一、pyspark交互编程
二、编程独立应用程序实现数据去重
三.编写独立应用程序实现求平均值问题

一、pyspark交互编程

1.该系总共有多少学生

(1).进入spark路径下创建一个sparksqldata的文件

mkdir sparksqldata

(2).进入下载文件夹查看data.txt文件

cd /home/hadoop/下载
ls

(3).cp拷贝命令，将data.txt文件拷贝到sparksqldata目录下

cp data.txt /usr/local/spark/sparksqldata/

(4).进入sparksqldata目录查看data.txt文件

cd /usr/local/spark/sparksqldata/
ls

（5）启动pyspark

pyspark

spark启动

(6).加载数据集，获取每行数据的第1列；去重操作；取元素总个数

lines = sc.textFile('file///usr/local/spark/sparksqldata/data.txt')
res = lines.map(lambda x:x.split(",")).map(lambda x:x[0])
distinst_res = res.distinct()
distinct_res.count()

在这里插入图片描述

2.该系共开设了多少门课程

lines = sc.textFile('file///usr/local/spark/sparksqldata/data.txt')
res = lines.map(lambda x:x.split(",")).map(lambda x:x[1])
distinst_res = res.distinct()
distinct_res.count()

在这里插入图片描述

3.Tom同学的总成绩平均分是多少

lines = sc.textFile('file///usr/local/spark/sparksqldata/data.txt')
res = lines.map(lambda x:x.split(",")).filter(lambda x:x[0]=='Tom'</

最低0.47元/天解锁文章

weixin_48070037

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
2021-06-05

RDD编程初级实践一、pyspark交互编程1.该系总共有多少学生2.该系共开设了多少门课程3.Tom同学的总成绩平均分是多少4.求每名同学的选修的课程门数5.该系DataBase课程共有多少人选修6.各门课程的平均分是多少7.使用累加器计算共有多少人选了DataBase这门课二、编程独立应用程序实现数据去重三.编写独立应用程序实现求平均值问题一、pyspark交互编程1.该系总共有多少学生(1).进入spark路径下创建一个sparksqldata的文件mkdir sparksqldata(
复制链接

扫一扫