文章目录
零、本讲学习目标
- 掌握本地模式执行Spark程序
- 掌握集群模式执行Spark程序
一、词频统计准备工作
- 单词计数是学习分布式计算的入门程序,有很多种实现方式,例如MapReduce;使用Spark提供的RDD算子可以更加轻松地实现单词计数。
- 在IntelliJ IDEA中新建Maven管理的Spark项目,在该项目中使用Scala语言编写Spark的WordCount程序,可以本地运行Spark项目查看结果,也可以将项目打包提交到Spark集群(Standalone模式)中运行。
(一)版本选择问题
-
前面创建了Spark集群(Standalone模式),采用的是Spark3.3.2版本
-
Spark3.3.2用的Scala库是2.13,但是Spark-Shell里使用的Scala版本是2.12.15