Flink 同步 Kafka 数据到 HDFS parquet 格式存储 snappy 压缩
在 Flink 1.15 版本对 Source 和 Sink 接口进行了重构,Flink 提供了 File Sink 来写 HDFS,今天这篇文章主要介绍一下如何使用新的接口同步数据到 HDFS 存储格式为 parquet 并且使用 snappy 压缩文件。
整个链路非常的简单,就是从 Kafka 读取数据后中间不做任何处理直接把数据写到 HDFS 上。
KafkaSource
KafkaSource<JasonLeePOJO> source =
KafkaSource.<String>builder