SparkSql学习---单词词频统计案例

卓_尔_不_凡

已于 2024-04-30 21:20:54 修改

阅读量302

点赞数 1

分类专栏： spark-sql 案例实战文章标签：学习 hadoop 大数据 linux spark

于 2024-04-23 22:42:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46164667/article/details/138140871

版权

案例实战同时被 2 个专栏收录

23 篇文章

订阅专栏

8 篇文章

订阅专栏

本文介绍了如何使用Python的PySpark库在Spark环境中，通过SQL和DataSourceLanguage(DSL)风格处理文本文件（words.txt），统计单词频率并展示结果。展示了从RDD到DataFrame的转换以及使用`explode`和`split`函数的操作过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据源：words.txt

hello spark
hello hadoop
hello flink

代码：

# coding:utf8

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType
import pandas as pd
from pyspark.sql import functions as F


if __name__ == '__main__':
    # 0. 构建执行环境入口对象SparkSession
    spark = SparkSession.builder.appName("test").master("local[*]").getOrCreate()
    sc = spark.sparkContext

    # TODO 1: SQL 风格进行处理
    rdd = sc.textFile("../data/input/words.txt").flatMap(lambda x: x.split(" ")).map(lambda x: [x])
    print(rdd.collect())
    df = rdd.toDF(["word"])

    # 注册DF为表格
    df.createTempView("words")

    spark.sql("SELECT word, COUNT(*) AS cnt FROM words GROUP BY word ORDER BY cnt DESC").show()


    # TODO 2: DSL 风格处理
    df = spark.read.format("text").load("../data/input/words.txt")

    # withColumn方法
    # 方法功能: 对已存在的列进行操作, 返回一个新的列, 如果名字和老列相同, 那么替换, 否则作为新列存在
    df2 = df.withColumn("value", F.explode(F.split(df['value'], " ")))
    df2.groupBy("value").count().withColumnRenamed("value", "word").withColumnRenamed("count", "cnt").\
        orderBy("cnt", ascending=False).show()

运行结果：

卓_尔_不_凡

博客等级

码龄5年

53
原创

530
点赞

383
收藏

424
粉丝

关注

私信

热门文章

分类专栏

案例实战 23篇
Pytorch 2篇
爬虫
Python 11篇
Java 2篇
Hive 6篇
数仓搭建 5篇
Hadoop 10篇
spark 12篇
spark-sql 8篇
Linux 1篇

展开全部收起

最新评论

File contains parsing errors: file:///etc/yum.repos.d/nginx.repo报错解决，文件配置出现问题
2401_87514572: 看了好多评论没解决，这个重新安装就解决了，谁懂一个Linus小白的快乐
hadoop学习---基于Hive的教育平台数据仓库分析案例（一）
m0_72369705: # 客户表 sqoop import \ --connect jdbc:mysql://192.168.52.150:3306/scrm \ --username root \ --password 123456 \ --query 'SELECT *, "2021-09-27" AS start_time FROM customer where 1=1 and $CONDITIONS' \ --hcatalog-database itcast_dimen \ --hcatalog-table customer \ -m 1 你好，作者大大，这是你的文章《基于hive教育平台数据仓库分析案例二》中的数据采集的 DIM层维度表里的一段代码，我想问问这段代码是放在脚本里面执行吗，还是放在哪里执行。要是放在脚本里执行可以给一个完整的脚本吗？求求了，一定要回我，目前我只能向你发一天信息
hadoop学习---基于Hive的数据仓库相关函数机制及其优化方案
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hadoop学习---基于Hive的航空公司客户价值的LRFCM模型案例
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hadoop学习---基于Hive的教育平台数据仓库分析案例（一）
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。