阿里实时任务计算blink调优技巧

watermark

实时计算可以基于时间属性对数据进行窗口聚合。基于的Event Time时间属性的窗口函数作业中,数据源表的声明中需要使用Watermark方法。

Watermark是一种衡量Event Time进展的机制,它是数据本身的一个隐藏属性,Watermark的定义是数据源表DDL定义的一部分。Flink提供了如下语法定义Watermark。

Watermark 是插入到数据流中的一种特殊的数据,watermark 上带了一个时间戳,其含义是:在这个之后不会收到小于或等于该时间戳的数据。假设数据的乱序程度是1分钟,也就是说等1分钟之后,绝大部分迟到的数据都到了,那么我们就可以定义 watermark 计算方式为偏移1分钟。

总结:
WaterMark的含义是所有时间 t’< t 的事件都已经发生。假如watermark t已经生效,那么后续eventTime小于t的记录都会被丢掉(暂时blink的做法是丢弃这些来的更晚的数据,以后会给用户配置,让更晚的数据也能继续update)。
针对乱序的的流,watermark 至关重要,这样即使一些事件延迟到达,也不至于过于影响window窗口的计算的正确性。
一个物理算子节点在运行时会有多条输入流,算子的watermark取所有流的watermark的最小值。
WATERMARK [watermarkName] FOR <rowtime_field> AS withOffset(<rowtime_field>, offset)
通常一条记录中的某个字段就代表了该记录的发生时间。例如,表中rowtime字段的类型为TIMESTAMP,1501750584000(2017-08-03 08:56:24.000)。定义一个基于该rowtime列,偏移4秒的Watermark的示例如下。

WATERMARK FOR rowtime AS withOffset(rowtime, 4000)
这条数据的Watermark时间为 1501750584000 - 4000 = 1501750580000(2017-08-03 08:56:20.000)。这条数据的Watermark时间含义:时间戳小于1501750580000(2017-08-03 08:56:20.000)的数据已经全部

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值