flink消费kafka 并行度和kafka的分区关系

1、从消费端看, 如果source的并行度大于kafka的分区,会导致多余的并行度消费不了数据,进而影响checkpoint,flink做checkpoint失败,所以一定不能大于分区数。

2 、从消费端看, 如果source的并行度小于kafka的分区,会导致一个并行度消费多个kafka分区数据,如果数据量大的时候,吞吐率上不去。

3、sink到kafka时,如果并行度大于kafka的分区数时,则会轮训把数据插入到kafka分区中,数据不会丢失。

      

4、sink到kafka时,如果并行度小于kafka的分区数时,也会轮训把数据插入到kafka分区中,数据不会丢失。 因为如果指定key的情况下,则producer会按照hash规则,把数据hash到相应分区中,

生产者数据写入规则( https://blog.csdn.net/zh2475855601/article/details/115346569).

5、也就是说flink sink的时候对kafka并行度影响不大,不会存在数据丢失或者分区没有写入的情况。

 

6、flink 任务 test_groupy_ttl_wpp

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值