双流join(SparkStreaming)

最新推荐文章于 2022-11-29 16:32:03 发布

☞空白页

最新推荐文章于 2022-11-29 16:32:03 发布

阅读量1k

点赞数 1

分类专栏： Spark

本文链接：https://blog.csdn.net/weixin_44441757/article/details/109678105

版权

一、概述1.1 需求分析Spark Streaming实现两个流的join操作，如：一个流是订单数据，另一个流是订单详情数据，现需要将两个流按照某个公共字段连接进行join操作，同时订单数据和订单详情数据理论上是同时产生的，但考虑到实际情况即：延迟，结合Spark Streaming的批次处理实时数据的理念，这两个流的数据不一定是同时到达的，意思就是订单一的数据已经过来了，可能订单详情一的一系列数据早到或者迟到，这就导致直接做join时会join不上，且数据会丢失。1.2 需求实现为了保证早

摘要由CSDN通过智能技术生成

一、概述

1.1 需求分析

Spark Streaming实现两个流的join操作，如：一个流是订单数据，另一个流是订单详情数据，现需要将两个流按照某个公共字段连接进行join操作，同时订单数据和订单详情数据理论上是同时产生的，但考虑到实际情况即：延迟，结合Spark Streaming的批次处理实时数据的理念，这两个流的数据不一定是同时到达的，意思就是订单一的数据已经过来了，可能订单详情一的一系列数据早到或者迟到，这就导致直接做join时会join不上，且数据会丢失。

1.2 需求实现

为了保证早到的数据或者迟到的数据在某个时间点能够被join上，因此需要对数据做缓存处理。前提是两个流的批次大小必须一样。首先需要明白订单数据和订单详情数据是一对多的关系，即一个订单数据可能对应多个订单详情数据（一个订单买了很多商品）。

考虑订单数据，不管订单数据来早还是来晚都需要做缓存，站在订单数据的角度上，即使同批次join上了也不能确定还有没有对应的其他订单详情数据有没有来，是来过了还是没有来，因此订单数据需要先和同批次进行join，然后无条件缓存自身同时还需要查询订单详情的缓存，缓存自身为了等待来晚的订单详情数据，查询订单详情缓存为了寻找来早的订单详情数据。

考虑订单详情数据，若同批次join上，那就结束了（该数据的生命周期结束），若同批次没有join上需要查询订单数据缓存尝试join为了确保订单数据有没有先到，若还是没有join上那就以为了这条数据来早了，因此就缓存自身等待订单数据，也就是说同批次join上意味着没有没有延迟；查找订单缓存join上意味着自己来晚了，没有join上缓存自身意味着自己来早了

二、实现

2.1 几个问题

2.1.1 采用什么样的 join

Spark Streaming中有四个join分别是join、leftOuterJoin、rightOuterJoin、fullOuterJoin

import org.apache.spark.{SparkConf, SparkContext}

object Test {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf().setAppName("join").setMaster("local[*]")
        val sc = new SparkContext(conf)
        val rdd1 = sc.makeRDD(List((1, "a"), (2, "b"), (3, "c")))
        val rdd2 = sc.makeRDD(List((1, "a1"), (1, "a2"), (4, "d1")))
        println("join: " + rdd1.join(rdd2).collect().toList)
        println("leftOuterJoin: " + rdd1.leftOuterJoin(rdd2).collect().toList)
        println("rightOuterJoin: " + rdd1.rightOuterJoin(rdd2).collect().toList)
        println("fullOuterJoin: " + rdd1.fullOuterJoin(rdd2).collect().toList)
    }
}

最终结果

join: List((1,(a,a1)), (1,(a,a2)))
leftOuterJoin: List((1,(a,Some(a1))), (1,(a,Some(a2))), (2,(b,None)),

最低0.47元/天解锁文章

☞空白页

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
双流join(SparkStreaming)

一、概述1.1 需求分析Spark Streaming实现两个流的join操作，如：一个流是订单数据，另一个流是订单详情数据，现需要将两个流按照某个公共字段连接进行join操作，同时订单数据和订单详情数据理论上是同时产生的，但考虑到实际情况即：延迟，结合Spark Streaming的批次处理实时数据的理念，这两个流的数据不一定是同时到达的，意思就是订单一的数据已经过来了，可能订单详情一的一系列数据早到或者迟到，这就导致直接做join时会join不上，且数据会丢失。1.2 需求实现为了保证早
复制链接

扫一扫