SparkStreaming-架构与抽象

最新推荐文章于 2024-08-02 21:43:57 发布

进击的小民工_97

最新推荐文章于 2024-08-02 21:43:57 发布

阅读量203

点赞数

分类专栏： Spark 文章标签： spark big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44085996/article/details/120490164

版权

Spark 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

1.说明

SparkStreaming使用“微批次”的架构，把流式计算当做一系列连续的小规模批次处理来对待。SparkStreaming从各种输入源中读取数据，并把数据分组为小的批次。新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候，一个新的批次创建出来，在该区间内收到的数据都会被添加到这个批次中。在时间区间结束时，批次停止增长。时间区间的大小是由批次间隔这个参数决定的。批次间隔一般设在500毫秒到几秒之间，由应用开发者配置。每个输入批次都形成一个RDD，以Spark作业的方式处理并生成其他的RDD。处理的结果可以以批处理的方式传给外部系统。高层次的架构如图：

SparkStreaming的编程抽象是离散化流，也就是DStream。它是一个RDD序列，每个RDD代表数据流中一个时间片内的数据。

SparkStreaming 在Spark的驱动程序——工作节点的结构的执行过程如下图所示。SparkStreaming为每个输入源启动对应的接收器。接收器以任务的形式运行在应用的执行器进程中，从输入源收集数据并保存为RDD。它们收集到输入数据后会把数据复制到另一个执行器进程来保障容错性（默认行为）。数据保存在执行器进程的内存中，和缓存RDD的方式一样。驱动器程序中的StreamingContext会周期性的运行Spark作业来处理这些数据，把数据与之前时间区间中的RDD进行整合。

进击的小民工_97

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkStreaming-架构与抽象

1.说明 SparkStreaming使用“微批次”的架构，把流式计算当做一系列连续的小规模批次处理来对待。SparkStreaming从各种输入源中读取数据，并把数据分组为小的批次。新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候，一个新的批次创建出来，在该区间内收到的数据都会被添加到这个批次中。在时间区间结束时，批次停止增长。时间区间的大小是由批次间隔这个参数决定的。批次间隔一般设在500毫秒到几秒之间，由应用开发者配置。每个输入批次都形成一个RDD，以Spark作业的方式处...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。