Spark Streaming简介

最新推荐文章于 2024-01-01 16:34:18 发布

yiyidsj

最新推荐文章于 2024-01-01 16:34:18 发布

阅读量384

点赞数

分类专栏：大数据人工智能互联网文章标签： spark 大数据大数据开发大数据学习大数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yiyidsj/article/details/104269600

版权

Spark Streaming是Spark核心API的扩展，提供高吞吐、容错的实时数据处理能力。支持Kafka、Flume等数据源，使用map、reduce等函数进行复杂计算，并将结果存储。DStream作为其抽象概念，内部由RDD序列构成，每批数据对应一个RDD实例。Spark Engine处理DStream队列中的批数据，实现流处理。

摘要由CSDN通过智能技术生成

Spark Streaming 是 Spark 核心 API 的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。

Spark Streaming 支持从多种数据源获取数据，包括 Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP Sockets。从数据源获取数据之后，可以使用诸如 map、reduce、join 和 window 等高级函数进行复杂算法的处理，最后还可以将处理结果存储到文件系统、数据库和现场仪表盘中。

在 Spark 统一环境的基础上，可以使用 Spark 的其他子框架，如机器学习、图计算等，对流数据进行处理。Spark Streaming 处理的数据流如图 1 所示。

图 1 Spark Streaming处理的数据流示意

与 Spark 的其他子框架一样，Spark Streaming 也是基于核心 Spark 的。Spark Streaming 在内部的处理机制是，接收实时的输入数据流，并根据一定的时间间隔（如 1 秒）拆分成一批批的数据，然后通过 Spark Engine 处理这些批数据，最终得到处理后的一批批结果数据。它的工作原理如图 2 所示。

图 2 Spark Streaming 原理示意

Spark Streaming 支持一个高层的抽象，叫

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark Streaming简介

Spark Streaming 是 Spark 核心 API 的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming 支持从多种数据源获取数据，包括 Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP Sockets。从数据源获取数据之后，可以使用诸如 map、reduce、join 和 window 等高级函数进行复杂算...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。