Spark Streaming : 实时计算框架㈠

⚆Pearl

已于 2022-05-22 18:39:54 修改

阅读量1.8k

点赞数 2

分类专栏： spark 文章标签： spark

于 2022-05-22 18:35:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58330979/article/details/124913868

版权

在传统的数据处理过程中，往往先将数据存入数据库中，当需要的时候再去数据库中进行检索查询，将处理的结果返回给请求的用户；另外，hadoop中的MapReduce这类大数据处理框架，更多应用在离线计算场景中。

而对于一些实时性要求高的场景，期望延迟在秒甚至毫秒级别，就需要引出一种新的数据计算机构-流式计算，而无边界的数据进行连续不断的处理、聚合和分析。

实时性要求高的场景：

网上购物的实时大屏

双十一，网上商城实时订单销售额和产品数量大屏显示，要求：

（1）数据量大，可能秒上万订单量

（2）快速的处理，按要求统计不同维度销售订单额

此时：传统的批处理、离线处理、处理历史数据是无法满足要求的。

目录

一、流式计算处理模式

1. spark streaming介绍

2. 数据流程

3. 计算思想

Spark Streaming 数据抽象 DStream

二、案例实现：

案例1：连接到node2 8888端口，接收实时数据做分析。

（1）在node2运行

（2）在node1上运行

（3）、设置日志级别

（4）、从SparkConf创建StreamingContext并指定5s的批处理大小

（5）、启动连接到node2 8888端口上，使用收到的数据创建DStream

（6）、启动流计算环境StreamingContext

一、流式计算处理模式

模式一：所有输入记录按一条接一条的处理。

模式二：微批处理（batch）

将输入的数据以某一时间间隔T，切分成多个微批量数据，然后对每个批量数据进行处理。spark streaming采用的就是这种方式。

1. spark streaming介绍

官网：Apache Spark™ - Unified Engine for large-scale data analytics

Spark streaming在spark中的位置

Spark streaming是spark生态系统中的一个重要框架，它建立在spark core之上。

2. 数据流程

spark streaming 是一个基于spark core 之上的实时计算框架，可以从很多数据源消费数据，并进行实时的处理，最后，可以将结果存储到Hdfs，数据库或实时仪表板，具有高吞吐量和容错能力强的特点。

官网：Spark Structured Streaming | Apache Spark

3. 计算思想

spark

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark Streaming : 实时计算框架㈠

一、流式计算处理模式：1. spark streaming介绍；2. 数据流程；3. 计算思想；Spark Streaming 数据抽象 DStream二、案例实现：案例1：连接到node2 8888端口，接收实时数据做分析。设置日志级别；从SparkConf创建StreamingContext并指定5s的批处理大小；启动连接到node2 8888端口上，使用收到的数据创建DStream；启动流计算环境StreamingContext。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

⚆Pearl 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。