Spark知识点（SparkStreaming）

最新推荐文章于 2022-07-18 11:06:18 发布

森林里的北极猿

最新推荐文章于 2022-07-18 11:06:18 发布

阅读量346

点赞数

分类专栏：大数据文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/weixin_49113403/article/details/125752409

版权

大数据专栏收录该内容

11 篇文章 1 订阅

订阅专栏

SparkStreaming是什么？

SparkStirng称为准实时（秒，分钟），微批次（时间）数据处理框架

简单的体会

创建环境对象

val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Streaming")
val ssc: StreamingContext = new StreamingContext(sparkConf, Seconds(3))

StreamingContext中第一个参数代表环境的配置，第二个参数表示 批处理的周期 （采集周期）

在这里插入图片描述
这里进行的wordCount的Demo，输入数据的时候利用空格隔开
他不能使用ssc.stop()直接关闭，运行程序直接结束，我们还怎么传数据？
所以我们启动采集器，加上等待采集器的执行

这里我们利用netcat工具（使用方法，在netcat文件夹下，启动cmd程序，输入指令）
然后同时运行我们的程序
在这里插入图片描述
可以看到当我们输入单词的时候，控制台每隔3秒就会输出统计的信息，但是这个信息并不会累计，这就叫无状态数据操作

无状态数据操作

只对当前的采集周期内的数据进行处理

有状态数据操作

在这里插入图片描述
注意的是：
在使用有状态数据操作是，使用checkpoint保存数据，因为我需要存储数据，存哪里？存内存中？如果数据流很多很大，不久内存就会溢出，所以得用checkpoint

transform操作

没有transform的操作
在这里插入图片描述

transform后的操作

在这里插入图片描述
其实就是Dstream转换为RDD进行操作，那和Dstream有什么区别？
他们其实就是执行位置，因为每一个执行周期都会形成一个RDD，而transform后，就可以在每一个执行周期都能够进行自己的转换。最外层的Driver端只会执行一次。

窗口操作（WindowOperations）

怎么理解？
假定我的采集周期为3s，但是我并不想立刻处理，我等3个采集周期后才进行处理，这个就涉及到了窗口函数的范围了（图中蓝色的框）。处理完以后，我是不是得“滑动”到下一个地方再进行采集？
在这里插入图片描述
这个窗口的滑动，会导致数据发生一个曲线的改变

（hello，1）=>（hello，3）=>（hello，2）=>（hello，0）。。。。。

窗口函数的范围应该是 采集周期 的 整数倍

在这里插入图片描述

但是问题是他会有一个重复的数据，这个时候我们调整一下“步长”，也就是窗口下一次滑动的距离，当“步长”大于或者等于窗口函数范围的时候，就不会有重复数据。（大于的时候会造成数据的丢失）
在这里插入图片描述

优雅的关闭

什么时候关闭，当逻辑发生改变，业务发生改变的时候。
如果我们直接关闭，还有一些数据没有处理完成，就不太好了
流式任务需要 7*24 小时执行，但是有时涉及到升级代码需要主动停止程序，但是分
布式程序，没办法做到一个个进程去杀死，所有配置优雅的关闭就显得至关重要了。

这个时候我们可以使用外部系统来控制内部程序关闭

在这里插入图片描述

在这里插入图片描述
这里获取了文件系统也就是HDFS，然后再文件系统中，取得一个路径，就是stopSpark，判断是否存在，如果存在，我们再判断是否是存在状态，我们可以再进行关闭。

数据恢复

因为我们把程序停止了，再启动的时候，数据需要恢复过来
在这里插入图片描述

森林里的北极猿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark知识点（SparkStreaming）

SparkStirng称为准实时（秒，分钟），微批次（时间）数据处理框架StreamingContext中第一个参数代表环境的配置，第二个参数表示批处理的周期（采集周期）这里进行的wordCount的Demo，输入数据的时候利用空格隔开他不能使用ssc.stop()直接关闭，运行程序直接结束，我们还怎么传数据？所以我们启动采集器，加上等待采集器的执行这里我们利用netcat工具（使用方法，在netcat文件夹下，启动cmd程序，输入指令）然后同时运行我们的程序可以看到当我们输入单词的时候，
复制链接

扫一扫