Spark Structured Streaming实战--对同一流数据进行多种计算

最新推荐文章于 2024-02-12 18:18:54 发布

一铭

最新推荐文章于 2024-02-12 18:18:54 发布

阅读量1.3k

点赞数 1

分类专栏：实战-Spark Structured Streaming spark 文章标签： spark streaming spark流处理 spark实战

本文链接：https://blog.csdn.net/zg_hover/article/details/113274986

版权

spark 同时被 2 个专栏收录

68 篇文章 3 订阅

订阅专栏

实战-Spark Structured Streaming

8 篇文章 4 订阅

订阅专栏

对同一流数据进行多种计算

有时我们可能需要针对同一个流的数据源来进行多种计算，比如：使用同一流数据来计算多个指标，并把计算结果保存到不同的地方。此时，就需要对同一个来源的流使用不同的计算逻辑，并把结果写出到不同的存储系统中。

Spark Strucutured Streaming提供了针对同一个数据源流进行不同逻辑计算并对结果进行不同的sink的方式。

这就是在Spark Strucutured Streaming的writestream中提供的foreach和foreachBatch接口。

Foreach和ForeachBatch

foreach

允许对微批的每一行数据自定义写出逻辑。
foreachBatch

不仅可以自定义写出逻辑，还可以自定义任意的处理逻辑。

可以看出，这两者有所差别：foreach可以自定义写出的逻辑；而foreachBatch除了具有foreach的特点外，可以自定义处理逻辑，所以相对比较灵活。

ForeachBatch的编程模式

对于foreachBatch的编程模式可以通过通过图1来表示：
foreachBatch_programe_model

先读取流数据，此时得到的是一个流式的dataframe。它和spark sql的dataframe差不多，但常规dataframe的有些操作它不支持，在源码实现时，只是在常规的dataset结构中添加了一个流式数据集的标识符加以区分。

foreachBatch的编码模板

streamingDF.writeStream.foreachBatch { (batchDF: DataFrame, batchId: Long) =>
  // Transform and write batchDF 
}.start()

例如：

streamingDF.writeStream.foreachBatch { (batchDF: DataFrame, batchId: Long) =>
  batchDF.persist()
  
  batchDF.xxx1.write.format(...).save(...)  // 位置1
  batchDF.xxx2.write.format(...).save(...)  // 位置2
  
  batchDF.unpersist()
}

从以上示例代码可以看出，对来自同一数据源的每个微批的数据，可以进行不同的处理逻辑，并把处理结果保存到不同的存储位置。

foreach的编码模式

def process_row(row):
    # Write row to storage
    pass

query = streamingDF.writeStream.foreach(process_row).start()

实战

以下例子是python的代码，针对同一个流数据，分别进行了两种处理逻辑，并得到了两个结果，然后把这两个结果分别写出到了不同的位置。

这里只是计算了两个指标，当然也可以继续添加逻辑计算。

#!/usr/bin/env python
# -*- coding:utf-8 -*-
#
from __future__ import print_function

import sys 

from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
from pyspark.sql.functions import split


# 计算第一个指标，并按json格式写出
def func1(df):
    wc = df.groupBy('word').count()
    wc.write.mode("append").format("json").save("/tmp/sparktest/json/")

# 计算第二个指标，并按csv格式写出
def func2(df):
  	# 这里可以进行其他操作
    wc2 = df.groupBy('word').count()
    wc2.write.mode("append").format("csv").save("/tmp/sparktest/csv/")


func_list = [func1, func2]

# 总数据处理逻辑
def foreach_batch_function(df, epoch_id):
    df.persist()
    # Transform and write batchDF
    for f in func_list:
        f(df)
    df.unpersist()


# 任务代码
if __name__ == "__main__":
    if len(sys.argv) != 3:
        print("Usage: structured_network_wordcount.py <hostname> <port>",
              															file=sys.stderr)
        sys.exit(-1)

    host = sys.argv[1]
    port = int(sys.argv[2])

    spark = SparkSession\
        .builder\
        .appName("StructuredNetworkWordCount")\
        .getOrCreate()

    spark.sparkContext.setLogLevel("WARN")

    # Create DataFrame representing the stream of input lines from connection to host:port
    lines = spark\
        .readStream\
        .format('socket')\
        .option('host', host)\
        .option('port', port)\
        .load()
        
    # 数据预处理：把流数据行切割成单词的数组
    words = lines.select(
        # explode turns each item in an array into a separate row
        explode(
            split(lines.value, ' ')
        ).alias('word')
    )

    # 进行多种计算逻辑
    query = words.writeStream\
                 .foreachBatch(foreach_batch_function).start()

    query.awaitTermination()

提交任务

开启一个终端，并在终端中输入以下命令：

$ nc -lk 10002
hello world
hello world 1
hello world 2
just do it !

这里使用本地模式提交。因为使用了接收socket的流数据，但socket是实验产品，官方不建议在生产环境下使用。

./bin/spark-submit --master local dostream/word_count_v2.py localhost 10002

注意事项

（1）默认情况下，foreachBatch只提供至少一次写(at-least-once write)保证。但是，您可以使用提供给函数的batchId来对输出进行重复数据删除，并获得只执行一次的保证。

（2）foreachBatch不能与连续模式（continuous）一起工作，因为它基本上依赖于流查询的微批处理执行。如果以连续模式写入数据，则使用foreach。

一铭

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录