Flink精确一次的实现举例

简单的讲一讲Flink的精确一次是如何实现的,
我简单的举个例子,当时老大给了一个需求,就是讲kafka中的数据通过flink以parquet的格式写入hdfs,当时我就去看了BucketingSink,发现他满足不了这个需求,他能写Sequence、string、和avro,可是去写不了parquet,当时使用的是1.8,在1.10出来的时候就已经弃用了。

紧接着去研究了StreamingFileSink,在写入parquet格式数据的时候,是先把转换好的数据存储在内存中的,默认大小是128MB,当然,Flink也没有提供修改的入口。每过来一条数据都会进行计数,并且基于计数按照一定的规则定期去检查内存你是否达到了128MB,如果过于频繁的检查内存也是会降低效率的,然后将内存中的数据刷到HDFS上面去。
part文件有三种状态:In-progress、pending和finished,这个时候part文件就处于in-progress状态,当设置的检查点时间间隔到了的时候,会去调用StreamingFileSink的snapshotState方法做快照,把文件的in-progress状态转换成pending状态,做快照成功后会调用StreamingFileSink的notifyCheckpointComplete方法通知检查点未完成,并将状态转化成finished。
这样就能保证精确一次的实现,而它的实现则必须基于checkpoint去滚动文件,如果检查点失败,那么文件就不会转换成finished,这样hive在就不会读取到,它也可以基于上一个快照去重新消费。
因为写parquet的时候不能控制碎片文件的大小,我还试着改了一下源码……

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值