spark scala 编写词频统计案例

最新推荐文章于 2024-08-05 00:07:11 发布

古月皮皮

最新推荐文章于 2024-08-05 00:07:11 发布

阅读量544

点赞数 1

文章标签： scala spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_64358432/article/details/130362094

版权

在 home/hzb 下新建 test.txt 文件

vim test.txt

1.从 Linux 本地文件系统加载数据创建 RDD

scala> val lines=sc.textFile("file:///home/hzb/test.txt")
lines: org.apache.spark.rdd.RDD[String] = file:///home/hzb/test.txt MapPartitionsRDD[1] at textFile at <console>:24

2.转换算子通过 flatMap 转换算子把文件内容拆分成一个个单词

scala> val words=lines.flatMap(line=>line.split(" "))
words: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[2] at flatMap at <console>:25

3.通过 Map 算子返回一个新的数据集

scala> val wordAndOne=words.map(word=>(word,1))
wordAndOne: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[3] at map at <console>:25

4.通过groupByKey 算子操作文件内容中所有单词进行分组

scala> val wordCount=wordAndOne.reduceByKey((a,b)=>a+b)
wordCount: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceByKey at <console>:25

5.打印 wordCoount

scala> wordCount.foreach(println)

6.词凭统计结果

(scala,1)
(spark,3)
(itcast,3)
(hadoop,2)
(heima,1)

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
spark scala 编写词频统计案例

2.转换算子通过 flatMap 转换算子把文件内容拆分成一个个单词。4.通过groupByKey 算子操作文件内容中所有单词进行分组。在 home/hzb 下新建 test.txt 文件。1.从 Linux 本地文件系统加载数据创建 RDD。3.通过 Map 算子返回一个新的数据集。5.打印 wordCoount。
复制链接

扫一扫

古月皮皮 CSDN认证博客专家 CSDN认证企业博客

码龄3年

13: 原创

129万+: 周排名

105万+: 总排名

5929: 访问

: 等级

143: 积分

440: 粉丝

12: 获赞

6: 评论

22: 收藏

私信

关注

热门文章

分类专栏

线程 4篇

最新评论

Wechat 电脑双开
CSDN-Ada助手: 恭喜您撰写了第13篇博客！标题“Wechat 电脑双开”听起来非常有趣。您对于Wechat的深入研究和分享让读者受益匪浅。希望您能继续坚持创作，为我们带来更多有趣而实用的内容。或许，下一步您可以探讨一下如何在Wechat电脑双开的同时保护用户隐私或增加安全性方面的实用建议。谦虚地说，我期待着您未来的创作，感谢您对Wechat社群的贡献！
线程方法 -- 礼让线程
CSDN-Ada助手: 非常感谢用户分享的第四篇博客，标题为“线程方法 -- 礼让线程”。这篇博客深入浅出地介绍了线程方法中的礼让线程，让读者能够轻松理解并应用到实际开发中。恭喜用户能够持续创作，希望在未来的博客中，能够更多地分享自己在实践中的经验和心得，让读者更好地掌握相关知识。再次感谢用户的分享，期待更多精彩的博客！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
线程方法--守护线程
CSDN-Ada助手: 恭喜您写出了这篇关于守护线程的博客！很高兴看到您持续不断地创作，让我们读者受益匪浅。接下来，建议您可以尝试写一些实际应用场景下的线程方法，如线程池、同步与互斥等，让我们更深入地了解线程的实际运用。期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
多进程创建
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/614663612。
多进程创建
CSDN-Ada助手: 恭喜你开启了博客创作之旅！多进程创建是一个非常实用的技术，期待看到更多你的分享。希望你能够不断进步，让我们一起成长。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。