Spark Streaming编程实现流的词频操作

向往自由的金鱼姬

已于 2023-11-18 23:16:44 修改

阅读量225

点赞数

分类专栏： spark编程基础文章标签： spark 大数据分布式

于 2023-11-18 23:14:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_65123909/article/details/134458415

版权

spark编程基础专栏收录该内容

6 篇文章 0 订阅

订阅专栏

目录

实训记录：

采用Spark Streamin 编程实现文件流统计词频操作，附上截图说明。

采用Spark Streaming 编程实现套接字流统计词频操作，附上截图说明。

采用Structured Streaming 编程实现字节流统计词频操作，附上截图说明。

采用Structured Streaming 编程实现json文件统计各地区销量操作，附上截图说明。

实训记录：

一、采用Spark Streamin 编程实现文件流统计词频操作，附上截图说明。

在/opt/apps/code/ch6目录下新建一个.py文件，用来编写流的操作

往ch6 文件夹下传输三个文本文件，用来模拟真实输入的数据流，以spark-submit命令运行上面编写好的py文件

（rz是 xshell7 的传输文件的一个常见命令）

读取数据前，将需要读取的文件流放在根目录下的logfile目录下

到此就完成了Spark Streaming编程实现文件流的词频统计操作。

二、采用Spark Streaming 编程实现套接字流统计词频操作，附上截图说明。

还是老样子，Spark Streaming 编程翻译过来就是创建一个新的.py文件实现词频统计的操作

提前准备好两个终端，一个用作套接字流的输入，一个用作程序的运行

套接字流的输入：这里使用nc命令，linux自带的写入程序；参数 l （local-主机），k （端口号）；

利用spark-submit 运行socket_streaming.py得到统计好的词频

三、采用Structured Streaming 编程实现字节流统计词频操作，附上截图说明。

在code/ch7创建一个py文件编写字流统计的程序

运行程序（注意：要先启动hadoop）

字节流的写入

查看结果

四、采用Structured Streaming编程实现json文件流统计各省各地区销量操作。截图说明

编写程序，产生json文件

运行程序 - 产生文件

查看结果

编写程序 -- 各个地区购买行为的统计

运行程序 -- 查看各个地方购买行为的统计结果

向往自由的金鱼姬

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Spark Streaming编程实现流的词频操作

往ch6 文件夹下传输三个文本文件，用来模拟真实输入的数据流，以spark-submit命令运行上面编写好的py文件。套接字流的输入：这里使用nc命令，linux自带的写入程序；还是老样子，Spark Streaming 编程翻译过来就是创建一个新的.py文件实现词频统计的操作。在/opt/apps/code/ch6目录下新建一个.py文件，用来编写流的操作。提前准备好两个终端，一个用作套接字流的输入，一个用作程序的运行。运行程序 -- 查看各个地方购买行为的统计结果。运行程序 - 产生文件。
复制链接

扫一扫

专栏目录

向往自由的金鱼姬 CSDN认证博客专家 CSDN认证企业博客

码龄3年

24: 原创

113万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

358: 积分

97: 粉丝

117: 获赞

12: 评论

156: 收藏

私信

关注

热门文章

分类专栏

最新评论

关于Oracle数据库闪回技术
CSDN-Ada助手: 非常高兴看到你的第19篇博客，题为“关于Oracle数据库闪回技术”。恭喜你不断地探索和分享关于Oracle数据库的知识。闪回技术作为数据库恢复和故障排除的重要工具，在实际应用中具有重要意义。我希望你在博客中能够更深入地探讨Oracle数据库闪回技术的原理和应用场景，比如具体的实施步骤、常见问题的解决方案等。这样可以帮助读者更好地理解和应用这一技术。同时，你也可以考虑拓展一些相关主题，比如与其他数据库恢复技术的比较，或是与闪回技术相辅相成的数据库备份策略等。这样可以为读者提供更全面的数据库管理知识。继续保持创作的热情，相信你的博客会吸引更多对Oracle数据库感兴趣的读者。谦虚地说，我期待着你未来更多有关Oracle数据库的精彩分享。
关于Matplotlib数据可视化基础
CSDN-Ada助手: 恭喜您发布了这篇关于Matplotlib数据可视化基础的博客！您的文章通俗易懂，让我对Matplotlib有了更深入的了解。希望您能继续分享更多关于数据可视化的知识，也可以考虑结合其他数据可视化工具或者实际案例进行更深入的探讨。期待您的下一篇作品！祝您创作顺利！
数据库用户管理
CSDN-Ada助手: 恭喜您撰写了第16篇关于数据库用户管理的博客！您的文章内容丰富，对数据库用户管理有着深入的理解和独特的见解。希望您能继续保持创作的热情和动力，为读者带来更多有价值的内容。下一步，或许可以考虑分享一些实际案例或者操作经验，让读者更加深入地了解数据库用户管理的实际操作技巧。期待您的更多精彩内容！
在虚拟机里怎么安装Hive？Hive与SQL的交互应用
CSDN-Ada助手: 恭喜你写了第15篇博客！看了你的文章，对在虚拟机里安装Hive和Hive与SQL的交互应用有了更深入的了解。不过我觉得你可以尝试写一些关于Hive的高级应用或者与其他大数据工具的整合应用，这样可以让读者有更多的学习内容。期待你的下一篇文章！谢谢你的分享和努力！
表空间的管理
CSDN-Ada助手: 恭喜用户写了第9篇博客！标题为“表空间的管理”，这是一个非常有价值的主题。通过深入了解和掌握表空间的管理，您为读者提供了宝贵的知识和指导。我非常期待您下一篇博客的发布，希望您能继续分享有关数据库管理的经验和技巧。也许您可以考虑探讨一些高级的表空间管理技术，或者分享一些实际案例以帮助读者更好地应用这些概念。谦虚地说，我相信您的下一篇博客将会再次带给读者们更多的启发和收获！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。