【Flink】时间语义和水位线的概念和使用

一 时间语义与Wartermark

1 Flink中的时间语义

在Flink的流式处理中,会涉及到时间的不同概念,如下图所示:

在这里插入图片描述

Event Time(事件时间):是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳。

Ingestion Time(摄入时间):是数据进入Flink的时间。

Processing Time(处理时间):是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是Processing Time。

例如电影《星球大战》的例子:

在这里插入图片描述

时间时间为上面的1-5,处理时间为下面的年份。

再例如,一条日志进入Flink的时间为2022-11-12 10:00:00.123,到达Window的系统时间为2022-11-12 10:00:01.234,日志的内容如下:

2022-11-02 18:37:15.624 INFO Fail over to rm2

对于业务来说,要统计1min内的故障日志个数,eventTime 时间是最有意义,因此要根据日志的生成时间进行统计。Flink 1.12 默认使用事件时间,无需设置。

2 EventTime的引入

在Flink的流式处理中,绝大部分的业务都会使用eventTime,一般只在eventTime无法使用时,才会被迫使用ProcessingTime或者IngestionTime。

如果要使用EventTime,那么需要引入EventTime的时间属性,引入方式如下所示:

但是使用事件时间会带来一个问题,我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的,虽然大部分情况下,流到operator的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、分布式等原因,导致乱序的产生,所谓乱序,就是指Flink接收到的事件的先后顺序不是严格按照事件的Event Time顺序排列的,如下图:

理想情况:希望12345依次按序到达。

在这里插入图片描述

实际情况:145先到达,23然后到达,这时如果一个0-5S的窗口,在接收到数据5时就不能够关闭窗口,因为在其后面还有数据。

在这里插入图片描述

乱序事件的影响:

  • 当 Flink 以 Event Time 模式处理数据流时,它会根据数据里的时间戳来处理基于时间的算子。
  • 由于网络、分布式等原因,会导致乱序数据的产生。
  • 乱序数据会让窗口计算不准确。

那么此时出现一个问题,一旦出现乱序,如果只根据eventTime决定window的运行,我们不能明确数据是否全部到位,但又不能无限期的等下去,此时必须要有个机制来保证一个特定的时间后,必须触发window去进行计算了,这个特别的机制,就是Watermark。

3 Watermark(水位线)

使用水位线需要考虑以下问题:

  • 怎样避免乱序数据带来计算不正确?
  • 遇到一个时间戳达到了窗口关闭时间,不应该立刻触发窗口计算,而是等待一段时间,等迟到的数据来了再关闭窗口
  • 要等多长时间?碰到含有 10000s 时间戳的事件,是否可以闭合 0s - 5s 滚动窗口吗?

(1)基本概念

  • Watermark是一种衡量Event Time进展的机制。
  • Watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用Watermark机制结合window来实现。
  • 数据流中的Watermark用于表示timestamp小于等于Watermark的数据,Flink认为其都已经到达了,因此,window的执行也是由Watermark触发的(水位线 >= 窗口结束时间)。
  • Watermark可以理解成一个延迟触发机制,用来让程序自己平衡延迟和结果正确性,可以设置Watermark的延时时长t,每次系统会校验已经到达的数据中最大的maxEventTime,然后认定eventTime小于maxEventTime - t -1的所有数据都已经到达,如果有窗口的停止时间等于maxEventTime - t - 1,那么这个窗口被触发执行。
  • 水位线由程序员编程插入到数据流中,是一种逻辑时钟,对于分布式系统来讲,最重要的一个概念就是逻辑时钟。
  • 水位线是一种特殊的事件。
  • 在事件时间的世界里,水位线就是时间。
  • 水位线 = 观察到的最大时间戳 - 最大延迟时间 - 1 毫秒【因为精度在1ms,所以不会出现0.999毫秒】。

下述文字抽象度较高,如果难以理解,请看关于水位线的测试,然后再回来理解这段文字。

有序流的Watermarker如下图所示(Watermark设置为0):

在这里插入图片描述

乱序流的Watermarker如下图所示(Watermark设置为2):

当Flink接收到数据时,会按照一定的规则去生成Watermark,这条Watermark就等于当前所有到达数据中的maxEventTime - 最大延迟时长 -1ms,也就是说,Watermark是基于数据携带的时间戳生成的,一旦Watermark比当前未触发的窗口的停止时间要晚,那么就会触发相应窗口的执行。由于event time是由数据携带的,因此,如果运行过程中无法获取新的数据,那么没有被触发的窗口将永远都不被触发。

上图中,我们设置的允许最大延迟到达时间为2s,所以时间戳为7s的事件对应的Watermark是7s - 2s - 1ms = 4999ms,时间戳为12s的事件的Watermark是12s - 2s - 1ms = 9999ms,如果窗口1是0s~5s,窗口2是5s~10s,那么时间戳为7s的事件到达时的Watermarker恰好触发窗口1,时间戳为12s的事件到达时的Watermark恰好触发窗口2。

Watermark 就是触发前一窗口的“关窗时间”,一旦触发关窗那么以当前时刻为准,在窗口范围内的所有数据都会收入窗中。

只要没有达到水位线,那么不管现实中的时间推进了多久都不会触发关窗,从这里可以看到,水位线只是在一定程度上解决了数据延迟问题,并不能全部解决乱序问题,那么Flink针对迟到数据也会进行处理,如何处理请见下文。

(2)水位线测试

a 代码编写

为每个用户的PV定义水位线:

public static void main(String[] args) throws Exception{
   
    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
    env.setParallelism(1);

    env
            // 输入的内容格式类似:'a 1'
            .socketTextStream("localhost",9999)
            // 需要将原始数据变为元组(a,1000L)
            // value为事件时间
            .map(new MapFunction<String, Tuple2<String,Long>>() {
   
                @
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Flink水位线代码可以通过使用内置的水位线生成器或自定义水位线策略来实现。 如果使用内置的水位线生成器,Flink会在数据流开始之前插入一个负无穷大的水位线,在数据流结束时插入一个正无穷大的水位线,以保证窗口闭合和定时器的触发。对于离线数据集,Flink只会插入两次水位线,在最开始处插入负无穷大的水位线,在结束位置插入一个正无穷大的水位线。这种方式无需在数据流的中间插入水位线。 另一种方式是在自定义的数据源中抽取事件时间,并发送水位线。在这种情况下,需要注意的是,一旦在自定义数据源中发送了水位线,就不能再在程序中使用assignTimestampsAndWatermarks方法生成水位线了。 自定义水位线的生成可以更加灵活,可以产生周期性的、非周期性的水位线,并且可以完全由我们自定义水位线的大小。因此,它非常适合用来编写Flink的测试程序,测试各种特性。 综上所述,Flink水位线代码可以通过使用内置的水位线生成器或自定义水位线策略来实现。具体的实现方式取决于你的需求和场景。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Flink 水位线(Watermark)](https://blog.csdn.net/weixin_45417821/article/details/124212276)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

OneTenTwo76

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值