目录
采用Spark Streamin 编程实现文件流统计词频操作,附上截图说明。
采用Spark Streaming 编程实现套接字流统计词频操作,附上截图说明。
采用Structured Streaming 编程实现字节流统计词频操作,附上截图说明。
采用Structured Streaming 编程实现json文件统计各地区销量操作,附上截图说明。
实训记录:
一、采用Spark Streamin 编程实现文件流统计词频操作,附上截图说明。
在/opt/apps/code/ch6目录下新建一个.py文件,用来编写流的操作
往ch6 文件夹下传输三个文本文件,用来模拟真实输入的数据流,以spark-submit命令运行上面编写好的py文件
(rz是 xshell7 的传输文件的一个常见命令)
读取数据前,将需要读取的文件流放在根目录下的logfile目录下
到此就完成了Spark Streaming编程实现文件流的词频统计操作。
二、采用Spark Streaming 编程实现套接字流统计词频操作,附上截图说明。
还是老样子,Spark Streaming 编程翻译过来就是创建一个新的.py文件实现词频统计的操作
提前准备好两个终端,一个用作套接字流的输入,一个用作程序的运行
套接字流的输入:这里使用nc命令,linux自带的写入程序;参数 l (local-主机),k (端口号);
利用spark-submit 运行socket_streaming.py得到统计好的词频
三、采用Structured Streaming 编程实现字节流统计词频操作,附上截图说明。
在code/ch7创建一个py文件编写字流统计的程序
运行程序 (注意:要先启动hadoop)
字节流的写入
查看结果
四、采用Structured Streaming编程实现json文件流统计各省各地区销量操作。截图说明
编写程序,产生json文件
运行程序 - 产生文件
查看结果
编写程序 -- 各个地区购买行为的统计
运行程序 -- 查看各个地方购买行为的统计结果