Spark Structured Streaming总体实现流程

最新推荐文章于 2024-02-12 18:18:54 发布

一铭

最新推荐文章于 2024-02-12 18:18:54 发布

阅读量1k

点赞数

分类专栏：实战-Spark Structured Streaming 文章标签： spark spark streaming spark原理分析

本文链接：https://blog.csdn.net/zg_hover/article/details/121461582

版权

实战-Spark Structured Streaming 专栏收录该内容

8 篇文章 4 订阅

订阅专栏

Spark Structured Streaming总体实现流程

我们根据一个简单的例子来查看一下Spark Structured Streaming的总体实现流程。

一个简单的Structured Streaming的例子

import pyspark.sql.functions as F

lines = spark \
    .readStream \
    .format("socket") \
    .option("host", "localhost") \
    .option("port", 10002) \
    .load()

# 处理数据
words = lines.select(
   F.explode(
       F.split(lines.value, " ")
   ).alias("word")
)

# 单词计数
wordCounts = words.groupBy("word").count()

# 打印到终端
query = wordCounts \
    .writeStream \
    .outputMode("complete") \
    .format("console") \
    .start()

总体流程

1.创建DataStreamReader

在sparksession中调用readstream函数，这样这样可以得到一个DataStreamReader对象。

def readStream: DataStreamReader = new DataStreamReader(self)

（1）调用DataStreamReader.load()函数开始获取数据源的数据，并把数据保存成DataFrame。

（2）load()函数调用DataSource.lookupDataSource来获取数据源的类对象，并通过返回的类对象来创建数据源对象。可以支持多种数据源对象，比如：kafka、各种文件格式orc等。要注意，socket只是一个实验性质的实现，不能用于生产环境。

（3）根据sparksession的选项（微批，还是持续流（默认））。若是微批，则调用对应的MicroBatchReadSupport实现类的createMicroBatchReader来创建数据源读取对象，若是kafka则会创建：KafkaMicroBatchReader对象。

（4）根据创建的对象，来创建DataFrame：Dataset.ofRows(…)

此时实际上是创建了一个查询计划，后面的各种操作都会基于该执行计划来进行计划的添加。

2.启动流查询：start()

启动流的查询和处理是在dataset被创建完成后进行的写数据流中进行的，其实就是调用:Dataset#writeStream函数。该函数返回一个DataStreamWriter对象。

当调用DataStreamWriter#start()函数时，就开始执行流数据的读取和处理。start()函数会根据source的不同而进行不同的处理。source的类型主要有：

memory
foreach
foreachBatch
非以上三种类型（一般模式）

start()函数的总体流程如下：

当调用DataStreamWriter#start()时会根据以创建的dataframe，调用startQuery开始流数据的获取和处理。

（1）创建数据源读取的对象。根据不同的模式创建的流读取对象也不同。比如：微批的kafka数据读取类为：KafkaMicroBatchReader等等。

（2）读取sparksession的配置选项

（3）调用df.sparkSession.sessionState.streamingQueryManager.startQuery()开始流数据的读取和处理。

3.streamingQueryManager.startQuery()的总体处理逻辑

（1）创建一个query = StreamingQueryWrapper(MicroBatchExecution…)对象，若是continuious模式，会创建StreamingQueryWrapper(new ContinuousExecution())对象。

（2）调用query.streamingQuery.start()，来启动数据处理。

（3）启动QueryExecutionThread线程，运行runStream()函数，在该函数中会调用runActivatedStream函数。

（4）runActivatedStream有两种实现方式，一种是微批：此时运行MicroBatchExecution#runActivatedStream()函数；一种是连续流：执行ContinuousExecution#runActivatedStream函数。

（5）调用ProcessingTimeExecutor#execute函数，该函数会进入一个while(true){…}的循环中，并间隔一定的毫秒数，运行 triggerHandler函数。

（6）triggerHandler函数会创建一个Dataset，并调用Dataset#collect()来触发计算Dataset的查询计划的执行。collectI()函数只会触发任务的执行，不会把实际的数据获取到driver端。

小结

本文分析了Spark Structured Streaming的总体实现流程。通过本文的分析可以对SSS的代码实现有一个大致的脉络，可以按照这个框架再去细看某一个实现的部分。

一铭

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark Structured Streaming总体实现流程

Spark Structured Streaming总体实现流程我们根据一个简单的例子来查看一下Spark Structured Streaming的总体实现流程。一个简单的Structured Streaming的例子import pyspark.sql.functions as Flines = spark \ .readStream \ .format("socket") \ .option("host", "localhost") \ .option("po
复制链接

扫一扫