kafka分区策略

最新推荐文章于 2024-08-06 09:09:33 发布

遇见更好的自己、

最新推荐文章于 2024-08-06 09:09:33 发布

阅读量899

点赞数

文章标签： kafka 分布式

本文链接：https://blog.csdn.net/weixin_44399827/article/details/131665156

版权

Kafka的高吞吐量部分归因于其分区设计，包括轮询、随机和按消息键保序策略。轮询策略均匀分配消息，而随机策略可能导致分布不均。按消息键保序策略确保相同键的消息进入同一分区，保证顺序。自定义分区策略允许通过实现Partitioner接口来自定义消息分配逻辑。

摘要由CSDN通过智能技术生成

前言：

我们都知道kafka以高吞吐闻名，那为什么kafka能支持很高的吞吐量勒？其中有一个重要的原因就是使用了分区，我们知道kafka是按照主题存储消息的，其实kafka是按照如下三层结构 主题-分区-消息将通过日志追加的方式存储到磁盘上。每条消息只会保存到某个分区上，不会保存到多个分区上。

分区策略

那既然有分区的概念，分区设计上可以理解为一个负载均衡思想的设计。可以分担单台broker的压力，提供很好的集群伸缩性，从而提供kafka的处理能力。那kafka支持哪些分区策略勒？

轮询策略

也称Round-robin策略，即顺序分配。比如一个主题下有3个分区，那么第一条消息被发送到分区0，第二条被发送到分区1，第三条被发送到分区2，以此类推。当生产第4条消息时又会重新开始，即将其分配到分区0，

这就是所谓的轮询策略。轮询策略是Kafka Java生产者API默认提供的分区策略。如果你未指定partitioner.class参数，那么你的生产者程序会按照轮询的方式在主题的所有分区间均匀地“码放”消息。

随机策略

也称Randomness策略。所谓随机就是我们随意地将消息放置到任意一个分区上。

先计算出该主题总的分区数，然后随机地返回一个小于它的正整数。本质上看随机策略也是力求将数据均匀地打散到各个分区，但从实际表现来看，它要逊于轮询策略，所以如果追求数据的均匀分布，还是使用轮询策略比较好。

按消息键保序策略

Kafka允许为每条消息定义消息键，简称为Key。这个Key的作用非常大，它可以是一个有着明确业务含义的字符串，比如客户代码、部门编号或是业务ID等；也可以用来表征消息元数据。特别是在Kafka不支持时间戳的年代，在一些场景中，工程师们都是直接将消息创建时间封装进Key里面的。一旦消息被定义了Key，那么你就可以保证同一个Key的所有消息都进入到相同的分区里面，由于每个分区下的消息处理都是有顺序的，故这个策略被称为按消息键保序策略。

前面提到的Kafka默认分区策略实际上同时实现了两种策略：如果指定了Key，那么默认实现按消息键保序策略；如果没有指定Key，则使用轮询策略。

自定义分区策略

如果要自定义分区策略，你需要显式地配置生产者端的参数partitioner.class。这个参数该怎么设定呢？方法很简单，在编写生产者程序时，你可以编写一个具体的类实现org.apache.kafka.clients.producer.Partitioner接口。这个接口也很简单，只定义了两个方法：partition()和close()，通常你只需要实现最重要的partition方法。我们来看看这个方法的方法签名：

int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster);

这里的topic、key、keyBytes、value和valueBytes都属于消息数据，cluster则是集群信息（比如当前Kafka集群共有多少主题、多少Broker等）。Kafka给你这么多信息，就是希望让你能够充分地利用这些信息对消息进行分区，计算出它要被发送到哪个分区中。只要你自己的实现类定义好了partition方法，同时设置partitioner.class参数为你自己实现类的Full Qualified Name，那么生产者程序就会按照你的代码逻辑对消息进行分区。

参考资料

参考极客时间课程《kafka核心技术与实战》

生产者分区分区机制原理剖析

遇见更好的自己、

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
kafka分区策略

我们都知道kafka以高吞吐闻名，那为什么kafka能支持很高的吞吐量勒？其中有一个重要的原因就是使用了分区，我们知道kafka是按照主题存储消息的，其实kafka是按照如下三层结构主题-分区-消息将通过日志追加的方式存储到磁盘上。每条消息只会保存到某个分区上，不会保存到多个分区上。如果要自定义分区策略，你需要显式地配置生产者端的参数。这个参数该怎么设定呢？
复制链接

扫一扫