大数据Flink(七十四):SQL的滑动窗口(HOP)

Flink SQL滑动窗口(HOP)详解
本文介绍了Flink中SQL的滑动窗口(HOP)概念,包括窗口定义、参数设置以及在批处理和流处理模式下的应用。通过实例展示了如何使用Group Window Aggregation和Windowing TVF进行滑动窗口操作,用于计算如同时在线用户等场景。

文章目录

SQL的滑动窗口(HOP)


SQL的滑动窗口(HOP)

滑动窗口定义:滑动窗口也是将元素指定给固定长度的窗口。与滚动窗口功能一样,也有窗口大小的概念。不一样的地方在于,滑动窗口有另一个参数控制窗口计算的频率(滑动窗口滑动的步长)。因此,如果滑动的步长小于窗口大小,则滑动窗口之间每个窗口是可以重叠。在这种情况下,一条数据就会分配到多个窗口当中。举例,有 10 分钟大小的窗口,滑动步长为 5 分钟。这样,每 5 分钟会划分一次窗口,这个窗口包含的数据是过去 10 分钟内的数据,如下图所示。

 

在流模式下,时间属性字段必须是

<think>我们正在讨论FlinkSQL中的滑动窗口HOP)的使用方法。根据引用[1]和引用[3],FlinkSQL提供了滑动窗口函数HOP()滑动窗口有两个参数:窗口大小和滑动步长。在WindowingTVF(表值函数)中,我们可以使用TABLE(HOP(...))来定义滑动窗口,并在GROUPBY子句中使用窗口的起始和结束时间以及分组键。引用[3]中给出了一个具体的示例:1.创建数据源表,其中包含时间属性字段(通过计算列和watermark定义)。2.使用HOP函数定义滑动窗口,并指定时间属性字段、滑动步长和窗口大小。3.在GROUPBY子句中按窗口起始时间、窗口结束时间和维度字段进行分组,然后进行聚合计算。下面我们将按照这个思路,给出一个详细的使用示例,并解释每个部分的作用。步骤:1.定义数据源表(SourceTable):通常需要包含一个时间戳字段,并声明为事件时间属性(使用watermark)。2.使用HOP窗口函数:在查询中,使用TABLE(HOP(TABLE表名,DESCRIPTOR(时间属性字段),滑动步长,窗口大小))来生成滑动窗口。3.进行分组聚合:按窗口的起始时间(window_start)、结束时间(window_end)以及分组键进行分组,然后执行聚合操作。示例:假设我们有一个数据流,包含用户ID(user_id)、产品维度(dim)、交易金额(price)和时间戳(ts)。我们想要每2分钟滑动一次,计算每个产品维度在过去6分钟内的用户数(去重计数)。注意:在FlinkSQL中,时间间隔的表示方法为:INTERVAL'数值'时间单位(如:INTERVAL'2'MINUTE)。创建数据源表:```sqlCREATETABLEsource_table(dimSTRING,user_idBIGINT,priceBIGINT,tsBIGINT,--事件时间的时间戳(毫秒)row_timeASTO_TIMESTAMP(FROM_UNIXTIME(ts/1000)),--将毫秒时间戳转换为TIMESTAMP类型(假设ts是毫秒,先转成秒)WATERMARKFORrow_timeASrow_time-INTERVAL'5'SECOND--定义watermark,允许5秒的延迟)WITH('connector'='kafka',--这里以kafka为例,也可以是其他连接器如'socket''topic'='input_topic','properties.bootstrap.servers'='localhost:9092','format'='json');```使用滑动窗口查询:```sqlSELECTdim,COUNT(DISTINCTuser_id)asuv,window_start,window_endFROMTABLE(HOP(TABLEsource_table,DESCRIPTOR(row_time),INTERVAL'2'MINUTE,--滑动步长为2分钟INTERVAL'6'MINUTE--窗口大小为6分钟))GROUPBYdim,window_start,window_end;```解释:-`HOP`函数的第一个参数是表名(这里是source_table),第二个参数是时间属性列(row_time),第三个参数是滑动步长(2分钟),第四个参数是窗口大小(6分钟)。-该查询会每2分钟滑动一次,每次计算过去6分钟内每个dim的唯一用户数。-窗口的起始和结束时间可以通过`window_start`和`window_end`来获取,并可以在SELECT子句和GROUPBY子句中使用。注意:在Flink1.13及以上版本中,推荐使用WindowingTVF(即TABLE(HOP(...)))的方式,因为这种方式功能更强大,且支持在窗口后进行多维度聚合(比如除了窗口时间外,还可以按其他字段分组)。另外,引用[2]提到FlinkSQL实现基于eventtime的滑动窗口,所以这里我们使用事件时间(row_time)作为窗口的时间依据,并定义了watermark。关于窗口的起始和结束时间的表示:在结果中,window_start和window_end是TIMESTAMP类型,表示窗口的开始和结束时间(左闭右开区间)。如果需要在结果中展示为毫秒时间戳,可以使用UNIX_TIMESTAMP函数转换,如引用[3]中的示例:```sqlSELECTdim,UNIX_TIMESTAMP(CAST(window_startASSTRING))*1000aswindow_start,UNIX_TIMESTAMP(CAST(window_endASSTRING))*1000aswindow_end,COUNT(DISTINCTuser_id)asuv...--其余部分相同```以上就是一个完整的FlinkSQL滑动窗口的使用示例。§§相关问题§§1.FlinkSQL滑动窗口和滚动窗口有什么区别?2.如何设置滑动窗口的步长大于窗口大小?这样设置有什么意义?3.FlinkSQL滑动窗口的聚合结果如何输出?是每次滑动都会输出结果吗?4.在滑动窗口中使用事件时间时,如何处理迟到数据?</think>### Fllink SQL 滑动窗口使用方法详解 在 Flink SQL 中,滑动窗口HOP)通过`HOP()`函数实现,其核心语法结构为: ```sql HOP(TABLE 数据表, DESCRIPTOR(时间属性字段), 滑动步长, 窗口大小) ``` #### 关键参数说明 | 参数 | 说明 | 示例 | |------|------|------| | **时间属性字段** | 定义事件时间的字段 | `row_time` | | **滑动步长** | 窗口每次滑动的间隔 | `INTERVAL '2' SECOND` | | **窗口大小** | 单个窗口覆盖的时间范围 | `INTERVAL '6' SECOND` | #### 完整使用示例 ```sql -- 1. 创建含时间属性的源表 CREATE TABLE source_table ( dim STRING, user_id BIGINT, price BIGINT, `timestamp` BIGINT, -- 原始时间戳(毫秒) row_time AS TO_TIMESTAMP(FROM_UNIXTIME(`timestamp`/1000)), -- 转为TIMESTAMP类型 WATERMARK FOR row_time AS row_time - INTERVAL '5' SECOND -- 定义水位线 ) WITH ( 'connector' = 'kafka', 'topic' = 'transactions', 'properties.bootstrap.servers' = 'localhost:9092', 'format' = 'json' ); -- 2. 执行滑动窗口聚合 SELECT dim, HOP_START(row_time, INTERVAL '2' SECOND) AS window_start, -- 窗口起始时间 HOP_END(row_time, INTERVAL '2' SECOND, INTERVAL '6' SECOND) AS window_end, -- 窗口结束时间 COUNT(DISTINCT user_id) AS uv_count FROM TABLE( HOP( TABLE source_table, DESCRIPTOR(row_time), INTERVAL '2' SECOND, -- 滑动步长2秒 INTERVAL '6' SECOND -- 窗口大小6秒 ) ) GROUP BY dim, window_start, window_end; ``` #### 执行结果示例 ``` dim | window_start | window_end | uv_count -----|-----------------------|-----------------------|--------- A | 2023-01-01 08:00:00 | 2023-01-01 08:00:06 | 15 A | 2023-01-01 08:00:02 | 2023-01-01 08:00:08 | 18 B | 2023-01-01 08:00:00 | 2023-01-01 08:00:06 | 9 ``` #### 核心特性说明 1. **窗口重叠机制** 每个事件会属于多个窗口(窗口大小/滑动步长)个窗口。如示例中: - 窗口大小=6秒,滑动步长=2秒 → 每个事件属于3个窗口 - 窗口计算公式:$N = \frac{\text{窗口大小}}{\text{滑动步长}}$ 2. **时间语义支持** 必须使用**事件时间**(Event Time),需配合`WATERMARK`定义: ```sql WATERMARK FOR row_time AS row_time - INTERVAL '5' SECOND ``` 3. **输出触发机制** 每次窗口滑动都会触发新结果输出(区别于滚动窗口仅结束时输出)[^1][^3]。 4. **TVF 表值函数** 需用`TABLE(HOP(...))`包裹函数,Flink 1.14+ 支持流批统一处理[^3]。 #### 典型应用场景 1. 每5分钟统计过去1小时的独立用户数(金融风控) 2. 每10秒统计过去30秒的交易额峰值(实时监控) 3. 每1分钟统计过去5分钟的异常请求率(网络安全)
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lansonli

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值