Spark Streaming 简介

最新推荐文章于 2024-08-16 09:21:03 发布

汉森X

最新推荐文章于 2024-08-16 09:21:03 发布

阅读量1.9k

点赞数 1

分类专栏： Spark

本文链接：https://blog.csdn.net/xu__cg/article/details/68059966

版权

Spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

批量计算与流计算

-----------------------------

数据总体上可以分为静态数据和流数据。对静态数据和流数据的处理，对应着两种截然不同的计算模式：批量计算和实时计算。批量计算以“静态数据”为对象，可以在很充裕的时间内对海量数据进行批量处理，计算得到有价值的信息。Hadoop就是典型的批处理模型，由HDFS和HBase(底层依旧是HDFS)存放大量的静态数据，由MapReduce负责对海量数据执行批量计算。流数据必须采用实时计算，实时计算最重要的一个需求是能够实时得到计算结果，一般要求响应时间为秒级。当只需要处理少量数据时，实时计算并不是问题；但是，在大数据时代，不仅数据格式复杂、来源众多，而且数据量巨大，这就对实时计算提出了很大的挑战。因此，针对流数据的实时计算——流计算，应运而生。

对于一个流计算系统来说，它应达到如下需求：
• 高性能。处理大数据的基本要求，如每秒处理几十万条数据。
• 海量式。支持TB级甚至是PB级的数据规模。
• 实时性。必须保证一个较低的延迟时间，达到秒级别，甚至是毫秒级别。
• 分布式。支持大数据的基本架构，必须能够平滑扩展。
• 易用性。能够快速进行开发和部署。
• 可靠性。能可靠地处理流数据。

流计算处理过程

----------------------------------

流计算处理过程包括数据实时采集、数据实时计算和实时查询服务：
• 数据实时采集：数据实时采集阶段通常采集多个数据源的海量数据，需要保证实时性、低延迟与稳定可靠。以日志数据为例，由于分布式集群的广泛应用，数据分散存储在不同的机器上，因此需要实时汇总来自不同机器上的日志数据。目前有许多互联网公司发布的开源分布式日志采集系统均可满足每秒数百MB的数据采集和传输需求，如Facebook的Scribe、LinkedIn的Kafka、淘宝的TimeTunnel，以及基于Hadoop的Chukwa和Flume等。

数据实时计算：流处理系统接收数据采集系统不断发来的实时数据，实时地进行分析计算，并反馈实时结果。
实时查询服务：流计算的第三个阶段是实时查询服务，经由流计算框架得出的结果可供用户进行实时查询、展示或储存。

图10-5-流计算的数据处理流程

Spark Streaming

------------------------------

SparkStreaming是Spark生态系统中的重要组成部分，在实现上复用Spark计算引擎。如图所示，Spark Streaming支持的数据源有很多，如Kafka、Flume、TCP等。SparkStreaming内部的数据表示形式为DStream（DiscretizedStream，离散的数据流），其接口设计与RDD非常相似，这使得它对Spark用户非常友好。SparkStreaming的核心思想是把流式处理转化为“微批处理”，即以时间为单位切分数据流，每个切片内的数据对应一个RDD，进而可以采用Spark引擎进行快速计算。由于SparkStreaming采用了微批处理方式，是近实时的批处理系统，而不是严格意义上的流式处理系统。

与Storm对比

----------------------

另一个著名的开源流式计算引擎是Storm，这是一个真正的流式处理系统，它每次从数据源读一条数据，然后单独处理。相比于SparkStreaming，Storm有更快速的响应时间（小于一秒），更适合低延迟的应用场景，比如信用卡欺诈系统，广告系统等。相比之下，SparkStreaming的优势是吞吐量大，响应时间也可以接受（秒级），并且兼容Spark系统中的其他工具库如MLlib和GraphX。对于时间不敏感且流量很大的系统，Spark Streaming是更优的选择。