30分钟概览Spark Streaming 实时计算

本文介绍了Spark Streaming的基本概念,解释了其将实时数据按时间切分进行离线处理的原理,并对比了Spark 2.0的Structured Streaming,讨论了实时计算的技术选型,包括延迟、容错和吞吐量等方面。
摘要由CSDN通过智能技术生成

本文主要介绍四个问题:

  • 什么是Spark Streaming实时计算?
  • Spark实时计算原理流程是什么?
  • Spark 2.X下一代实时计算框架Structured Streaming
  • Spark Streaming相对其他实时计算框架该如何技术选型?

本文主要针对初学者,如果有不明白的概念可了解之前的博客内容。

1、什么是Spark Streaming?

与其他大数据框架Storm、Flink一样,Spark Streaming是基于Spark Core基础之上用于处理实时计算业务的框架。其实现就是把输入的流数据进行按时间切分,切分的数据块用离线批处理的方式进行并行计算处理,原理如下图。

(什么是Spark Core ?Spark Core就是基于RDD数据抽象用于数据并行处理的基础组件,详细可参考 Spark 核心API开发 了解RDD算子)

Spark Streaming原理

输入的数据流经过Spark Streaming的receiver,数据切分为DStream(类似RDD,DStream是Spark Streaming中流数据的逻辑抽象),然后DStream被Spark Core的离线计算引擎执行并行

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值