本节讲解使用Spark SQL实现经典的单词计数程序WordCount。数据来源仍然是HDFS中的/input/words.txt文件,该文件内容如下:
hello hadoop
hello java
hello scala
java
具体操作步骤如下:
1. 新建Maven项目
在Maven项目的pom.xml中添加Spark SQL的Maven依赖库,代码如下:
<!-- Spark核心依赖库 -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>3.2.1</version>
</dependency>
<!-- Spark SQL依赖库 -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.12</artifactId>
<version>3.2.1</version>
</dependency>
2. 编写程序