Spark Streaming实现WordCount

最新推荐文章于 2023-04-27 00:05:32 发布

爱吃鬼

最新推荐文章于 2023-04-27 00:05:32 发布

阅读量397

点赞数 1

分类专栏： spark

本文链接：https://blog.csdn.net/weixin_45639174/article/details/104416682

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

利用Spark Streaming实现WordCount

需求：监听某个端口上的网络数据，实时统计出现的不同单词个数。

1，需要安装一个nc工具：sudo yum install -y nc

2，执行指令：nc -lk 9999 -v

import os
#### 配置spark driver和pyspark运行时，所使用的python解释器路径
PYSPARK_PYTHON = " "    # pyspark 路径
JAVA_HOME=' '    # java 路径
SPARK_HOME = " "    # spark 路径
#### 当存在多个版本时，不指定很可能会导致出错
os.environ["PYSPARK_PYTHON"] = PYSPARK_PYTHON
os.environ["PYSPARK_DRIVER_PYTHON"] = PYSPARK_PYTHON
os.environ['JAVA_HOME']=JAVA_HOME
os.environ["SPARK_HOME"] = SPARK_HOME

from pyspark.sql import SparkSession
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

if __name__ == "__main__":

    spark = SparkSession.builder.appName("xxx").getOrCreate()
    sc = spark.sparkContext

    #参数2：指定执行计算的时间间隔
    ssc = StreamingContext(sc, 1)
    #监听ip，端口上的上的数据
    lines = ssc.socketTextStream('localhost',9999)
    #将数据按空格进行拆分为多个单词
    words = lines.flatMap(lambda line: line.split(" "))
    #将单词转换为(单词，1)的形式
    pairs = words.map(lambda word:(word,1))
    #统计单词个数
    wordCounts = pairs.reduceByKey(lambda x,y:x+y)
    #打印结果信息，会使得前面的transformation操作执行
    wordCounts.pprint()
    #启动StreamingContext
    ssc.start()
    #等待计算结束
    ssc.awaitTermination()

可视化查看效果：http://主机IP:4040

点击streaming，查看效果

爱吃鬼

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Spark Streaming实现WordCount

利用Spark Streaming实现WordCount需求：监听某个端口上的网络数据，实时统计出现的不同单词个数。1，需要安装一个nc工具：sudo yum install -y nc2，执行指令：nc -lk 9999 -vimport os#### 配置spark driver和pyspark运行时，所使用的python解释器路径PYSPARK_PYTHON = " " #...
复制链接

扫一扫

专栏目录