flink写入kafka默认只写到一个partition

最新推荐文章于 2022-07-04 14:30:21 发布

wuxuyang_7788

最新推荐文章于 2022-07-04 14:30:21 发布

阅读量3.2k

点赞数 1

分类专栏： Flink

本文链接：https://blog.csdn.net/wuxuyang_7788/article/details/89235354

版权

Flink 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

如题使用flink FlinkKafkaProducer0* 时，有一个最常用，也是官方例子的构造方法有三个参数如下

/**
* @param topicId
*        ID of the Kafka topic.
* @param serializationSchema
*        User defined key-less serialization schema.
* @param producerConfig
*        Properties with the producer configuration.
*/
public FlinkKafkaProducer010(String topicId, SerializationSchema<T> serializationSchema, Properties producerConfig) {
   this(topicId, new KeyedSerializationSchemaWrapper<>(serializationSchema), producerConfig, new FlinkFixedPartitioner<T>());
}

运行一段时间后发现所有的数据都写到一个kafka的partition了，这样就不能发挥kafka的并行能力。于是去阅读官方文档发现

官方文档中描述大概意思是

“默认情况下，如果没有为Flink Kafka生成器指定自定义分区器，那么该生成器将使用一个FlinkFixedPartitioner将每个Flink Kafka生成器的并行子任务映射到单个Kafka分区(即，接收子任务接收到的所有记录最终将位于相同的Kafka分区中)。如果没有指定自定义分区程序，则使用FlinkFixedPartitioner。“

如果kafka的partition和和flink 算子的并行度刚好数量一致则没问题，不然就会出现上诉问题。

于是找到找到一个重载方法设置FlinkFixedPartitioner。

new FlinkKafkaProducer010<>(topic, new SimpleStringSchema(), config, (FlinkKafkaPartitioner)null);

public FlinkKafkaProducer010(
      String topicId,
      SerializationSchema<T> serializationSchema,
      Properties producerConfig,
      @Nullable FlinkKafkaPartitioner<T> customPartitioner) {

   this(topicId, new KeyedSerializationSchemaWrapper<>(serializationSchema), producerConfig, customPartitioner);
}

有兴趣的同学可以跟到源码里面去看看flink 是怎么样分配数据去哪个partition的

FlinkFixedPartitioner

wuxuyang_7788

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
flink写入kafka默认只写到一个partition

如题使用flink FlinkKafkaProducer0* 时，有一个最常用，也是官方例子的构造方法有三个参数如下/*** @param topicId* ID of the Kafka topic.* @param serializationSchema* User defined key-less serialization schema.* ...
复制链接

扫一扫

专栏目录