Flink活动时间和Watermark入门

Flink在流处理过程中支持不同的时间概念

1.事件时间(EventTime):事件在生产设备上发生的事件,是事件自身的属性。
2.提取时间(IngestionTime):事件到达Flink source的时间、。
3.处理时间(ProcessingTime):flink算子处理事件的系统时间,不需要流和机器间的协调,具有最佳性能和最低延迟
官方介绍图
在这里插入图片描述
什么是水位线(Watermark)
官方解释:Flink中用于衡量事件时间进度的机制是Watermark。Watermark本质上是一个时间戳
作用:允许延迟的数据正常计算

事件源分别在13秒,13秒,16秒产生了三个a事件
在这里插入图片描述
如果时间窗口大小为10秒,窗口间隔为5秒,则时间窗口[5S-15S]应该包含两条a事件(a,2),时间窗口[10S-20S]包含3条a事件(a,3),时间窗口[15S-25S]包含1条a事件(a,1)。
三条a事件

如果13秒有一条产生的事件因为网络阻塞或其他问题而导致延迟6秒到达,即19秒到达。如下图所示,对于窗口2的计算没有影响,因为13秒和19秒都在窗口2的事件跨度内,但是事件的延迟导致窗口1和窗口3的计算结果不准确。
在这里插入图片描述

要解决上述问题,可以考虑使用EventTime作为时间策略,需要设置EventTime并且自定义时间戳抽取方法,下面会详细说明,现在先假定已经将事件时间抽取为EventTime并实现了时间戳抽取功能。则窗口计算的时候,由于13秒的a事件即使延迟6秒到达因为其EventTime不会改变还是属于窗口2[10S-20S]范围内,因此窗口2结果是正确的。窗口3[15S-25S]因为延迟事件a的EventTime不属于其范围内,因此不会计算,窗口3的结果也是正确的,但是窗口1的计算结果仍然是错误的。

在这里插入图片描述

解决窗口1的问题,可以使用水位线或者Allowed Lateness。默认的watermark会取当前的时间戳,也就不能允许延迟到达的事件参与计算。我们可以手动的将窗口计算的事件延迟5S(自己定义),则窗口1将在20S时计算,那么19秒到达的事件a将参与到窗口1的计算(15S-20S到达的其他事件因为EventTime不属于时间窗口1将会被过滤),因此最终可以得到正确的结果。
在这里插入图片描述

代码理解:

flink-1.9.0中流处理默认使用处理时间(ProcessingTime)。
在这里插入图片描述

AssignerWithPeriodicWatermarks是实现自定义watermark需要实现的接口,注释说明在ExcutionConfig类的getAutoWatermarkInterval方法定义了获取当前watermark的时间间隔,我们继续向下走。
在这里插入图片描述
进入ExecutionConfig类中,自动调用getCurrentWatermark()变量值为0
在这里插入图片描述
在这里插入图片描述

上面接口中说明默认的watermark时间戳抽取间隔是0,即调用getCurrentWatermark()方法间隔为0。但是在StreamExecutionEnvironment类中我们可以看到如果是EventTime或者IngestingTime则这个时间间隔会被设置成为200ms。
在这里插入图片描述
那么如果我们选用ProcessingTime,这个时间间隔将是0,是不是getCurrentWatermark()方法将被一直调用呢,其实不是这样。如果调用.assignTimestampsAndWatermarks()方法实现自定义watermark会调用到如下方法,这个方法会初始化一个TimestampsAndPeriodicWatermarksOperator类,这个类是Function的一个子类,有我们常见的open()以及close()方法。
在这里插入图片描述
Function类的open()方法是在程序初始化的时候执行的,我们可以看到这个方法首先获取获取watermarkInterval,并且只有在这个值大于0的时候才回去注册定时任务,如果这个值为0,自然不会注册定时任务,也就不会定时执行了。
在这里插入图片描述
TimestampsAndPeriodicWatermarksOperator类中的onProcessingTime(long timestamp)负责维护定时任务的信息,userFunction.getCurrentWatermark()调用的是自定义或默认的getCurrentWatermark()方法设定当前的watermark,如果当前获取的watermark为空或小于之前获取的wakermark值,那么就不生效,还是用原来大的值,最后再次注册定时任务。
在这里插入图片描述

自定义watermark

1.需要调用assignTimestampsAndWatermarks()方法并传入实现AssignerWithPeriodicWatermarks< T>接口的类
2.实现时间戳抽取方法extractTimestamp(T element, long previousElementTimestamp)
获取当前水位线方法getCurrentWatermark()

例如,使用事件发生时间戳作为EventTime

获取EventTime提取的值timestamp字段,取的是事件的发生时间,这是事件自身的属性。
在这里插入图片描述
自定义watermark生成策略,最大延迟的时间为10S。
在这里插入图片描述

下图为提取时间(IngestionTime)的watermark生成和时间戳提取方法,取当前系统时间和上一次时间戳比较取最大值,生成的watermark延迟1ms。
在这里插入图片描述
刚入门的菜鸟,如果有理解错误的地方,希望能指出来大家一起学习!!!
图片来源:http://vishnuviswanath.com/flink_eventtime.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值