SparkStreaming — 数据接收原理

SparkStreaming的数据接收原理

  Spark Streaming数据接收主要是发生在Receiver启动之后,启动的一个组件BlockGenerator,通过这个组件来进行数据的接收和存储。具体的流程如下:
数据接收
  如上图所示,假设Receiver接收的数据源来自Kafka。Receiver启动的时候会先启动BlockGenerator,调用它的start方法启动BlockGenerator。
  BlockGenerator首先将接收到数据存储到一个currentBuffer的缓存中,接着BlockIntervalTimer定时器会每隔一段时间(默认200ms),就去将currentBuffer中的数据封装为一个block;将封装好的block加入到blocksForPushing队列中,它里面存储的是一个一个的block(默认大小是10),然后blockPushingThread,这个线程会从blocksForPushing中取出block,将其推送到pushArrayBuffer中,然后将这里面的block数据保存到Executor对应的BlockManager中,并且发送一份blockInfo信息到ReceiverTracker中。
  以上就是数据接收和存储过程,这里主要是使用了BlockGenerator这个组件,它里面有两个重要的部分,一个是将数据封装成block的定时器,一个是将产生的Block进行推送保存到BlockManager上,以及发送到ReceiverTracker上。这里需要注意两个参数,一个是封装block的间隔block interval,spark.streaming.blockInterval 默认是200ms,还有就是存储block的队列大小spark.streaming.blockQueueSize,默认是10,这两个参数可以调节。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值