Spark大数据处理讲课笔记2.4 IDEA开发词频统计项目

是你啊初心

于 2023-06-15 18:07:33 发布

阅读量100

点赞数

分类专栏： spark 2 文章标签： spark scala 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63561044/article/details/130192778

版权

本文详细记录了使用Spark和Scala开发词频统计项目的步骤，包括环境配置、本地模式和集群模式运行。首先介绍了Scala版本选择、安装、启动HDFS与Spark集群，然后在IDEA中创建Maven项目，配置依赖、日志属性，添加Scala SDK，并编写词频统计代码。接着讲解如何在本地模式下运行和理解程序代码，最后探讨了集群模式下通过Maven和IDEA打包、提交命令执行程序的方法。

摘要由CSDN通过智能技术生成

文章目录

零、本讲学习目标

掌握本地模式执行Spark程序
掌握集群模式执行Spark程序

一、词频统计准备工作

单词计数是学习分布式计算的入门程序，有很多种实现方式，例如MapReduce；使用Spark提供的RDD算子可以更加轻松地实现单词计数。
在IntelliJ IDEA中新建Maven管理的Spark项目，在该项目中使用Scala语言编写Spark的WordCount程序，可以本地运行Spark项目查看结果，也可以将项目打包提交到Spark集群（Standalone模式）中运行。

（一）版本选择问题

前面创建了Spark集群（Standalone模式），采用的是Spark3.3.2版本
Spark3.3.2用的Scala库是2.13，但是Spark-Shell里使用的Scala版本是2.12.15
为了

最低0.47元/天解锁文章

是你啊初心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark大数据处理讲课笔记2.4 IDEA开发词频统计项目

由于Spark项目要求Spark内核版本与Scala库版本（主版本.次版本）要保持一致，否则本地都无法运行项目。Spark3.2.0开始，要求Scala库版本就更新到了2.13，只有Spark3.1.3使用Scala库版本依然是2.12，因此Spark项目选择使用Spark3.1.3。由于没有将依赖包添加到生成的jar包，所以生成的jar包很小，只有5KB。如果将全部依赖包都打进jar包，那么生成的jar包就会有几十兆。，本地运行没有问题，但是打成Jar包提交到集群运行会报错。
复制链接

扫一扫

专栏目录

是你啊初心 CSDN认证博客专家 CSDN认证企业博客

码龄3年

12: 原创

141万+: 周排名

74万+: 总排名

1367: 访问

: 等级

120: 积分

1: 粉丝

0: 获赞

6: 评论

2: 收藏

私信

关注

热门文章

分类专栏

spark 4 1篇
spark 1 4篇
spark 2 2篇
spark 3 4篇

最新评论

Spark大数据处理讲课笔记3.2 掌握RDD算子
CSDN-Ada助手: 恭喜你写了这么棒的博客，深入浅出地讲解了RDD算子。我觉得下一步可以尝试讲解一些更高级的Spark技术，例如Spark Streaming或GraphX。期待你的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集
CSDN-Ada助手: 非常感谢您的分享，让我们更深入地了解了Spark SQL概述、数据帧与数据集。恭喜您已经写了第四篇博客，这是一项非常了不起的成就。接下来，我建议您可以继续深入探讨Spark SQL的高级特性，或者分享一些实践案例，让我们更好地应用这些知识。期待您的下一篇文章。 CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
Spark大数据处理讲课笔记3.8 Spark RDD典型案例`
CSDN-Ada助手: 恭喜您写了第5篇博客，标题看起来很有深度。我很喜欢您分享的Spark RDD典型案例，非常实用。希望您能继续坚持创作，分享更多有价值的内容。下一步可以考虑分享一些Spark的高级应用或者和其他大数据技术的结合使用，让读者们更深入地了解Spark的强大。感谢您的分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Spark大数据处理讲课笔记1.6 掌握Scala数据结构
CSDN-Ada助手: 非常感谢您分享这篇有关Spark大数据处理的博客，标题“掌握Scala数据结构”让我想起了我自己的学习经历。您的讲课笔记对于初学者来说非常有价值，我期待着您下一篇博客的发布。我建议您可以在未来的文章中深入探讨一些实用技巧和案例，这将有助于更多读者学习和应用。再次感谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。
Spark大数据处理讲课笔记3.6 RDD容错机制
CSDN-Ada助手: 非常感谢您分享的有关Spark大数据处理的讲课笔记，尤其是关于RDD容错机制的部分。这篇博客不仅让我们更深入地了解了Spark的核心概念，还展示了您的丰富知识和技能。非常期待您未来更多的博客，希望您可以深入探讨Spark的其他方面，并分享更多实用的技巧和经验。再次感谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。