本文主要介绍四个问题:
- 什么是Spark Streaming实时计算?
- Spark实时计算原理流程是什么?
- Spark 2.X下一代实时计算框架Structured Streaming
- Spark Streaming相对其他实时计算框架该如何技术选型?
本文主要针对初学者,如果有不明白的概念可了解之前的博客内容。
1、什么是Spark Streaming?
与其他大数据框架Storm、Flink一样,Spark Streaming是基于Spark Core基础之上用于处理实时计算业务的框架。其实现就是把输入的流数据进行按时间切分,切分的数据块用离线批处理的方式进行并行计算处理,原理如下图。
(什么是Spark Core ?Spark Core就是基于RDD数据抽象用于数据并行处理的基础组件,详细可参考 Spark 核心API开发 了解RDD算子)
输入的数据流经过Spark Streaming的receiver,数据切分为DStream(类似RDD,DStream是Spark Streaming中流数据的逻辑抽象),然后DStream被Spark Core的离线计算引擎执行并行