简单的讲一讲Flink的精确一次是如何实现的,
我简单的举个例子,当时老大给了一个需求,就是讲kafka中的数据通过flink以parquet的格式写入hdfs,当时我就去看了BucketingSink,发现他满足不了这个需求,他能写Sequence、string、和avro,可是去写不了parquet,当时使用的是1.8,在1.10出来的时候就已经弃用了。
紧接着去研究了StreamingFileSink,在写入parquet格式数据的时候,是先把转换好的数据存储在内存中的,默认大小是128MB,当然,Flink也没有提供修改的入口。每过来一条数据都会进行计数,并且基于计数按照一定的规则定期去检查内存你是否达到了128MB,如果过于频繁的检查内存也是会降低效率的,然后将内存中的数据刷到HDFS上面去。
part文件有三种状态:In-progress、pending和finished,这个时候part文件就处于in-progress状态,当设置的检查点时间间隔到了的时候,会去调用StreamingFileSink的snapshotState方法做快照,把文件的in-progress状态转换成pending状态,做快照成功后会调用StreamingFileSink的notifyCheckpointComplete方法通知检查点未完成,并将状态转化成finished。
这样就能保证精确一次的实现,而它的实现则必须基于checkpoint去滚动文件,如果检查点失败,那么文件就不会转换成finished,这样hive在就不会读取到,它也可以基于上一个快照去重新消费。
因为写parquet的时候不能控制碎片文件的大小,我还试着改了一下源码……