Flink基础学习记录(四)水位线

本文详细探讨了时间语义中的事件时间、水位线概念及其在处理有序和乱序数据中的应用。介绍了水位线的工作原理、生成策略,以及如何处理迟到数据和窗口的动态创建。还涉及了水位线的传递机制和空闲等待策略,以及迟到数据的管理和窗口的推迟关闭。
摘要由CSDN通过智能技术生成

时间语义

事件时间

数据产生的时间

处理时间

数据真正被处理的时刻

水位线(WaterMark)

概念

有序数据(理想)

乱序数据(现实)

处理迟到数据

水位线特性

学吧你就,一学一个不吱声

水位线和窗口的工作原理

每个窗口是独立的新桶,不是复用一个桶。可能会同时出现多个桶。

窗口并非事先创建好,而是动态创建的!!!桶2,当11来了时,才创建。

触发计算窗口关闭 是两个动作!!

生成水位线

原则

低延迟结果正确性做权衡。

API

水位生成策略

有序

WatermarkStrategy.forMonotonousTimestamps()

乱序

WatermarkStrategy.forBoundedOutOfOrderness()

水位线生成原理

乱序

升序

原理

水位线的传递

1、watermark代表某个算子的进度

2、选并行度中最小的事件时间,作为水位线

3、下游多并行度,将水位线广播给下游

水位线空闲等待

因为水位线会选取并行度中水位线最小的,但是某个并行度长时间不来新数据,会导致水位线一直无法推进,窗口无法触发。

这里可以设置空闲等待时长,超过这个时间,则不再考虑

迟到数据处理

窗口允许迟到

推迟关窗

注意:和触发计算是两个动作,不影响触发计算

侧输出流

迟到数据总结

### 回答1: FlinkSQL 可以通过使用 TUMBLE、HOP 和 SESSION 窗口来获取窗口的水位线。在 TUMBLE 窗口中,水位线是窗口结束时间减去窗口大小;在 HOP 窗口中,水位线是窗口结束时间减去滑动步长;在 SESSION 窗口中,水位线是最后一条记录的时间戳加上间隔时间。 ### 回答2: Flink SQL是Apache Flink提供的一种用于处理流数据的SQL查询语言,可以对流式数据进行实时的计算和分析。在Flink SQL中,可以通过一些内置的函数和关键字来获取窗口的水位线水位线(Watermark)是用于处理事件时间的一种机制,用于处理无序事件流时,标记数据流中事件的时间顺序。水位线可以用来控制窗口的触发和计算,确保在窗口关闭之前,所有事件都已经到达。 要获取窗口的水位线,可以使用Flink SQL中提供的内置函数`CURRENT_WATERMARK`。这个函数用于获取当前的水位线时间戳,可以在SQL查询中使用。 例如,我们可以使用以下语句来获取一个滚动窗口(TUMBLE)的水位线: ``` SELECT TUMBLE_END(rowtime, INTERVAL '1' HOUR) AS window_end, CURRENT_WATERMARK() AS watermark FROM myTable GROUP BY TUMBLE(rowtime, INTERVAL '1' HOUR) ``` 在上面的查询中,我们首先通过`TUMBLE`函数定义了一个1小时的滚动窗口,并且使用`TUMBLE_END`函数将窗口的结束时间作为查询结果的一列。然后,在`SELECT`语句中使用`CURRENT_WATERMARK`函数获取当前的水位线时间戳,并将其作为查询结果的另一列。最后,使用`GROUP BY`语句将数据按照窗口进行分组。 通过执行上面的查询,我们可以获取到每个窗口的结束时间和当前的水位线时间戳。这样可以帮助我们了解数据流的进度,并在需要时触发窗口的计算和结果输出。 总之,通过使用Flink SQL中的内置函数`CURRENT_WATERMARK`,我们可以方便地获取窗口的水位线,从而对流式数据进行更加精确的处理和计算。 ### 回答3: Flink SQL 是 Apache Flink 提供的一种使用 SQL 语句处理数据流的方式。在 Flink SQL 中,可以通过使用窗口操作来对数据流进行分组聚合操作,并且可以获取到窗口的水位线水位线(Watermark)是 Flink 中用于处理事件时间(Event Time)语义的重要概念,用于表示消息流中的事件时间进展。在使用窗口操作时,通常需要根据水位线确定窗口的触发时机。 要获取窗口的水位线,首先需要在 SQL 语句中定义一个 EventTime 字段,并且通过 `WATERMARK FOR` 关键字为该字段指定一个水位线生成器。水位线生成器可以使用系统提供的一些预定义的生成策略,也可以自定义实现。 以下是一个示例的 Flink SQL 语句,用于定义一个基于事件时间的窗口,并获取窗口的水位线: ``` CREATE TABLE sensor ( id STRING, temperature DOUBLE, eventTime TIMESTAMP(3), WATERMARK FOR eventTime AS eventTime - INTERVAL '5' SECOND ) WITH ( 'connector.type' = 'kafka', 'connector.topic' = 'sensor-topic', 'connector.startup-mode' = 'latest-offset', 'format.type' = 'json' ); SELECT HOP_START(eventTime, INTERVAL '1' MINUTE) AS windowStart, HOP_END(eventTime, INTERVAL '1' MINUTE) AS windowEnd, WATERMARK(eventTime) AS watermark FROM sensor GROUP BY HOP(eventTime, INTERVAL '1' MINUTE, INTERVAL '10' SECOND); ``` 在上述示例中,首先通过 `CREATE TABLE` 语句定义了一个名为 sensor 的表,其中包含了一个 eventTime 这个字段,并使用 `WATERMARK FOR` 设置了水位线生成器,该生成器会根据 eventTime 减去一个固定的时间间隔来生成水位线。然后使用 `SELECT` 语句获取了基于事件时间的窗口的开始时间、结束时间以及对应的水位线。 总结来说,对于 Flink SQL 来说,要获取窗口的水位线,可以通过在 SQL 语句中定义一个 EventTime 字段,并在该字段上使用 `WATERMARK FOR` 关键字指定一个水位线生成器,然后在查询语句中使用 `WATERMARK` 函数获取窗口的水位线
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值