三十、《大数据项目实战之用户行为分析》Spark SQL实现单词计数

最新推荐文章于 2024-04-15 16:10:48 发布

大数据张老师

最新推荐文章于 2024-04-15 16:10:48 发布

阅读量403

点赞数

分类专栏： # 手把手搭建企业级大数据搜索引擎用户行为分析系统文章标签：大数据 spark sql

本文链接：https://blog.csdn.net/xiaosa5211234554321/article/details/127411412

版权

手把手搭建企业级大数据搜索引擎用户行为分析系统专栏收录该内容

43 篇文章 14 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本节讲解使用Spark SQL实现经典的单词计数程序WordCount。数据来源仍然是HDFS中的/input/words.txt文件，该文件内容如下：

hello hadoop
hello java
hello scala
java

具体操作步骤如下：

1. 新建Maven项目

在Maven项目的pom.xml中添加Spark SQL的Maven依赖库，代码如下：

<!-- Spark核心依赖库 -->

<dependency>

   <groupId>org.apache.spark</groupId>

   <artifactId>spark-core_2.12</artifactId>

   <version>3.2.1</version>

</dependency>

<!-- Spark SQL依赖库 -->

<dependency>

   <groupId>org.apache.spark</groupId>

   <artifactId>spark-sql_2.12</artifactId>

   <version>3.2.1</version>

</dependency>

2. 编写程序

了解本专栏

超级会员免费看

大数据张老师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
三十、《大数据项目实战之用户行为分析》Spark SQL实现单词计数

创建方法是使用SparkSession.builder()创建一个Builder类型的构建器，然后调用Builder的getOrCreate()方法获取已有的SparkSession对象。可以直接在IDEA中运行上述单词计数程序，也可以将master("local[*]")中的local[*]改为Spark集群的Master地址，然后提交到Spark集群中运行。接下来可以执行SQL命令了。可以看出，lines Dataset将单词文件中的每一行看作一个元素，并且所有元素组成了一列，列名默认为value。
复制链接

扫一扫