十五、Spark SQL案例分析

最新推荐文章于 2023-05-15 16:32:52 发布

zlwm000

最新推荐文章于 2023-05-15 16:32:52 发布

阅读量397

点赞数

文章标签： spark sql scala

本文链接：https://blog.csdn.net/zlwm000/article/details/125327259

版权

本文介绍了如何使用Spark SQL进行词频统计。首先从HDFS读取words.txt文件，然后通过flatMap切分单词，创建数据帧，再将其转换为临时视图，执行SQL分组查询并按频率降序排列，最后展示词频统计结果。

摘要由CSDN通过智能技术生成

一、使用Spark SQL实现词频统计

（一）数据源 - words.txt

在这里插入图片描述

(二）创建Maven项目

创建Maven项目 - SparkSQLWordCount

在这里插入图片描述

（三）添加依赖和构建插件

在pom.xml文件里添加依赖和构建插件

<?xml version="1.0" encoding="UTF-8"?>

4.0.0

<groupId>net.hw.wc</groupId>
<artifactId>SparkSQLWordCount</artifactId>
<version>1.0-SNAPSHOT</version>

<dependencies>
    <dependency>
        <groupId>org.scala-lang</groupId>
        <artifactId>scala-library</artifactId>
        <version>2.11.8</version>
    </dependency>
    <depe