Spark Streaming编程实现流的词频操作

目录

实训记录:

采用Spark Streamin 编程实现文件流统计词频操作,附上截图说明。

采用Spark Streaming 编程实现套接字流统计词频操作,附上截图说明。

采用Structured Streaming 编程实现字节流统计词频操作,附上截图说明。

采用Structured Streaming 编程实现json文件统计各地区销量操作,附上截图说明。

实训记录:

一、采用Spark Streamin 编程实现文件流统计词频操作,附上截图说明。

在/opt/apps/code/ch6目录下新建一个.py文件,用来编写流的操作

往ch6 文件夹下传输三个文本文件,用来模拟真实输入的数据流,以spark-submit命令运行上面编写好的py文件

(rz是 xshell7 的传输文件的一个常见命令)

读取数据前,将需要读取的文件流放在根目录下的logfile目录下

到此就完成了Spark Streaming编程实现文件流的词频统计操作。

二、采用Spark Streaming 编程实现套接字流统计词频操作,附上截图说明。

还是老样子,Spark Streaming 编程翻译过来就是创建一个新的.py文件实现词频统计的操作

提前准备好两个终端,一个用作套接字流的输入,一个用作程序的运行

套接字流的输入:这里使用nc命令,linux自带的写入程序;参数 l (local-主机),k (端口号);

利用spark-submit 运行socket_streaming.py得到统计好的词频

三、采用Structured Streaming 编程实现字节流统计词频操作,附上截图说明。

在code/ch7创建一个py文件编写字流统计的程序

运行程序 (注意:要先启动hadoop)

字节流的写入

查看结果

四、采用Structured Streaming编程实现json文件流统计各省各地区销量操作。截图说明

编写程序,产生json文件

运行程序 - 产生文件

查看结果

编写程序 -- 各个地区购买行为的统计

运行程序 -- 查看各个地方购买行为的统计结果

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值