spark 使用RDD求出各部门薪水总额及最大薪水

最新推荐文章于 2024-03-31 22:34:35 发布

蜜桃零度

最新推荐文章于 2024-03-31 22:34:35 发布

阅读量1.9k

点赞数 2

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46767998/article/details/106051340

版权

这篇博客介绍了如何使用Spark的RDD API来计算员工薪资数据中的各部门薪水总额和最大薪资。通过读取emp.csv文件，进行数据处理和转换，利用reduceByKey()和groupByKey()函数实现计算。文章强调了Spark基于内存计算的优势，以提高效率。

摘要由CSDN通过智能技术生成

其目的在于对 Spark 有个初步的认识，了解RDD 的用法。 Spark 与 Hadoop 最大的区别是 Spark 基于内存计算，降低因 I/O 交互带来的计算效率损耗。spark在逻辑算法上优于Hadoop，但其他算法不一定。
emp.csv表内容如下：在这里插入图片描述

1.启动spark
在这里插入图片描述
出现下图为成功
2.读取文件3.分割表，用map()对文本进行分割，每行转换成列表形式，逗号为间隔
collect算子执行整个计算（惰性计算，从这里才真正开始计算
4.构造需要的数据（部门号，工资

最低0.47元/天解锁文章

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
spark 使用RDD求出各部门薪水总额及最大薪水

1.启动spark出现下图为成功2.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。