Flink_03_Window(个人总结)

    声明: 1. 本文为我的个人复习总结, 并那种从零基础开始普及知识 内容详细全面, 言辞官方的文章
              2. 由于是个人总结, 所以用最精简的话语来写文章
              3. 若有错误不当之处, 请指出
keyBy不仅是为了分组, 同时还是为了能把数据分布到不同分区进行并行计算

所以开窗前最好先.keyBy

如果没keyBy, 那么调用的就是windowAll

TimeWindow:

  1. 滚动窗口

    窗口大小 = 步长

    .timeWindow(Time.seconds(15))
        
    // 或是 在时间语义为事件时间时
    .window(TumblingEventTimeWindows.of(Time.seconds(15)))
    
  2. 滑动窗口

    窗口大小 ≥ 步长, 会有窗口重叠

    .timeWindow(Time.seconds(15),Time.seconds(5))
        
    // 或是 在时间语义为事件时间时
    .window(SlidingEventTimeWindows.of(Time.seconds(15),Time.seconds(5)))
    
  3. 会话窗口

    超过一段时间(session时间范围内)没有接收到新数据就会生成新的窗口

    // 或是 在时间语义为事件时间时  
    .window(EventTimeSessionWindows.withGap(Time.seconds(30)))
    

并不是以最小数据的到来时间作为窗口的起点, 而是由一个计算公式:
TimeWindow类中:

 public static long getWindowStartWithOffset(long timestamp, long offset, long windowSize) {
     // offset默认为0, windowSize%windowSize=0, 
     // 故等价为timetamp-timestamp%windowSize, 即以是windowSize的整数倍 & 最接近而且小于等于 最小数据的时间 作为窗口起点
	// offset一般是用来调时区的, 可由SlidingEventTimeWindows of(Time size, Time slide, Time offset)来设置
     return timestamp - (timestamp - offset + windowSize) % windowSize;
 }

CountWindow:

  1. 滚动窗口

    .countWindow(15)
    
  2. 滑动窗口

    .countWindow(15,5)
    

增量聚合函数:

每来一条数据, 就进行计算(提前计算, 预聚合)

  1. .reduce(new ReduceFunction( )…), 只需要实现reduce方法即可

  2. .aggregate(AggregateFunction<T, ACC, R> function), AggregateFunction麻烦些, 要自己实现好多方法

单独用的时候, 延时低, 但是计算次数太多伤性能

对于调用窗口函数进行聚合时, 最好先调用.aggregate 进行预聚合, 如:

  • .aggregate(AggregateFunction<IN, ACC, OUT>aggFunction,ProcessWindowFunction<IN, OUT, KEY, W> windowFunction)

  • .aggregate(AggregateFunction<IN, ACC, OUT>aggFunction,WindowFunction<IN, OUT, KEY, W>windowFunction)

    第一个参数的输出, 是第二个函数的输入

ProcessWindowFunction的 process方法中Iterable<IN> elements参数, 迭代器里只有一个元素

全窗口函数:

数据都到齐了后, 再进行计算

  1. .apply(new WindowFunction( ){ }) // 方法参数里有当前窗口
  2. .process.(new ProcessWindowFunction( ){ }) // 方法参数里有ctx上下文, 更全些

其他函数:

  1. .trigger( ) 触发器: 定义 window 什么时候关闭, 关闭后触发计算并输出结果

  2. .evitor( ) 移除器: 定义移除某些数据的逻辑

  3. .allowedLateness( ) 允许处理迟到的数据

  4. .sideOutputLateData( ) 将迟到的数据放入侧输出流

  5. .getSideOutput( ) 获取侧输出流

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值