Flink-跟着问题读源码:近24小时或者近XX小时这种SlidingEventTimeWindows相关的问题

本文介绍了在Flink中处理近24小时用户行为标签偏好的复杂算法,涉及窗口拆分、时间戳处理、水印策略、定时器操作以及并行度优化等方面,总结了开发过程中的关键点和问题解决经验。
摘要由CSDN通过智能技术生成

问题描述

这周接到一个新需求,近24小时的用户行为标签偏好跑分,实现的算法逻辑非常复杂,需要对用户的各类行为分别统计并求出比例,再配合各种时间衰减因子、反作弊数据等等。下面针对这次的开发总结下自己的心得,主要是flink window和state方面。

join维表之前预先聚合,否则CP失败
近24小时的window可以拆分为5分钟维度
onTimer
watermark的多次申明
timestamp必须是毫秒否则数据无法输出,也不报错,并且过滤脏数据,
Java中对数的使用,防止负数
并行度问题导致watermark
尽量减少key和window

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值