【原理】Flink如何巧用WaterMark机制解决乱序问题

最新推荐文章于 2024-07-27 07:15:00 发布

大数据架构师Evan

最新推荐文章于 2024-07-27 07:15:00 发布

阅读量869

点赞数 2

文章标签： flink mapreduce hashtable 数据可视化 go

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52346300/article/details/116022090

版权

这是彭文华的第91篇原创

问：数据工程师最期望数据怎么来？

答：按顺序来。

MapReduce当初能用起来，就是因为Map阶段对所有数据都进行排序了，后面的Reduce阶段就可以直接用排序好的数据了。

批处理的时候因为数据已经落地了，咱可以慢慢排序。但是流式数据都是一条一条过来的，这个时候数据到达的时间和出发时的顺序不一致会导致非常多的问题，这该咋整呢？

Sparkstreaming对乱序支持很差，因为它其实是“微批”，不是真正的流。加州伯克利大学AMP实验室设计Spark的时候，想的就是弄一个更快的计算引擎，压根就没打算做成来一条处理一条的流式数据处理。所以对于一些乱序数据根本就不太关心，所以导致Sparkstreaming不能或者不太能支持乱序数据的处理。

但是Flink不行啊，数据一条一条的过来，然后进行窗口处理，乱序会导致各种统计问题，这就得必须解决了。

什么是乱序

一条数据在Flink里，有三个时间：

Event Time：事件产生的时间；
Ingestion Time：事件进入Flink的时间；
Window Processing Time：事件被处理的时间。

</

最低0.47元/天解锁文章

大数据架构师Evan

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
【原理】Flink如何巧用WaterMark机制解决乱序问题

这是彭文华的第91篇原创问：数据工程师最期望数据怎么来？答：按顺序来。MapReduce当初能用起来，就是因为Map阶段对所有数据都进行排序了，后面的Reduce阶段就可以直接用排序好的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。