Flink精确一次的实现举例

最新推荐文章于 2024-05-05 19:28:20 发布

ε(´ο｀*)))

最新推荐文章于 2024-05-05 19:28:20 发布

阅读量315

点赞数

文章标签： flink

本文链接：https://blog.csdn.net/weixin_44651989/article/details/105949898

版权

简单的讲一讲Flink的精确一次是如何实现的，
我简单的举个例子，当时老大给了一个需求，就是讲kafka中的数据通过flink以parquet的格式写入hdfs，当时我就去看了BucketingSink，发现他满足不了这个需求，他能写Sequence、string、和avro，可是去写不了parquet，当时使用的是1.8，在1.10出来的时候就已经弃用了。

紧接着去研究了StreamingFileSink，在写入parquet格式数据的时候，是先把转换好的数据存储在内存中的，默认大小是128MB，当然，Flink也没有提供修改的入口。每过来一条数据都会进行计数，并且基于计数按照一定的规则定期去检查内存你是否达到了128MB，如果过于频繁的检查内存也是会降低效率的，然后将内存中的数据刷到HDFS上面去。
part文件有三种状态：In-progress、pending和finished，这个时候part文件就处于in-progress状态，当设置的检查点时间间隔到了的时候，会去调用StreamingFileSink的snapshotState方法做快照，把文件的in-progress状态转换成pending状态，做快照成功后会调用StreamingFileSink的notifyCheckpointComplete方法通知检查点未完成，并将状态转化成finished。
这样就能保证精确一次的实现，而它的实现则必须基于checkpoint去滚动文件，如果检查点失败，那么文件就不会转换成finished，这样hive在就不会读取到，它也可以基于上一个快照去重新消费。
因为写parquet的时候不能控制碎片文件的大小，我还试着改了一下源码……

ε(´ο｀*)))

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink精确一次的实现举例

简单的讲一讲Flink的精确一次是如何实现的，我简单的举个例子，当时老大给了一个需求，就是讲kafka中的数据通过flink以parquet的格式写入hdfs，当时我就去看了BucketingSink，发现他满足不了这个需求，他能写Sequence、string、和avro，可是去写不了parquet，当时使用的是1.8，在1.10出来的时候就已经弃用了。紧接着去研究了StreamingFi...
复制链接

扫一扫