浅议用FlinkKafkaProducer实现sink端的Exactly Once语义

最新推荐文章于 2024-04-29 23:23:54 发布

bigdata_shl

最新推荐文章于 2024-04-29 23:23:54 发布

阅读量169

点赞数

文章标签： flink kafka

本文链接：https://blog.csdn.net/weixin_43864916/article/details/132526258

版权

本文探讨了在Flink数据处理中如何通过FlinkKafkaProducer实现Sink端的Exactly Once语义。利用Flink的checkpoint机制和Kafka的事务特性，确保数据不丢失且不重复。主要涉及Flink程序的配置、Sink算子的状态快照以及Kafka消费者的隔离级别设置。

摘要由CSDN通过智能技术生成

摘要

在一些重要的flink数据加工场景中，实现Exactly Once（精确一次）的数据处理是必须的。Exactly Once意味着flink处理数据既能保证数据不丢失也能保证数据不重复。

整个flink处理链路大致分为 Source -> Transform -> Sink三个环节. 选用支持消息持久化和重置消费位点的kafka组件即可保证Source端的数据精确一次处理。依靠flink自身的checkpoint机制保证Transform阶段的数据精确一次处理。本文讨论选用支持事务的kafka实现Sink端的数据精确一次处理。

正文

基于flink1.13，使用官方提供的写入到kafka的FlinkKafkaProducer。为实现Exactly Once语义，flink程序需要如下相关配置：


//flink作业开启checkpoint
env.enableCheckpointing(interval);

//FlinkKafkaProducer 
Properties producerpros = new Properties();
producerpros.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "xx:9092");
/*
*   Flink 的 Kafka连接器中配置的事务超时时间 transaction.timeout.ms 默认是 1小时，
    而Kafka集群配置的事务最大超时时间 transaction.max.timeout.ms 默认是 15 分钟。
*   这两个超时时间，前者应该小于等于后者。
* */
producerpros.put(ProducerConfig.TRANSACTION_TIMEOUT_CONFIG, 600000);

//创建flinkkafkaProducer
FlinkKafkaProducer flinkKafkaProducer = new FlinkKafkaProducer(
        "topic",
        new KafkaProducerSerializationSchema("topic"),
        producerpros,
        FlinkKafkaProducer.Semantic.EXACTLY_ONCE  //EXACTLY_ONCE语义
);