【Kafka】Kafka文件存储，生产者分区策略，ACK机制

最新推荐文章于 2023-07-19 08:33:04 发布

YYtengjian

最新推荐文章于 2023-07-19 08:33:04 发布

阅读量450

点赞数 1

分类专栏：运维 JAVA/Golang 文章标签： kafka java 分布式架构负载均衡

本文链接：https://blog.csdn.net/yaotengjian/article/details/121781310

版权

运维同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

JAVA/Golang

7 篇文章 0 订阅

订阅专栏

7、kafka文件存储：

由于生产者生产的消息会不断追加到 log 文件末尾，为防止 log 文件过大导致数据定位效率低下， Kafka 采取了分片和索引机制，将每个 partition 分为多个 segment。每个 segment对应两个文件——“.index”文件和“.log”文件。这些文件位于一个文件夹下，该文件夹的命名规则为： topic 名称+分区序号。例如， first 这个 topic 有三个分区，则其对应的文件夹为 first-0,first-1,first-2。

index 和 log 文件以当前 segment 的第一条消息的 offset 命名。“.index”文件存储大量的索引信息，“.log”文件存储大量的数据，索引文件中的元数据指向对应数据文件中 message 的物理偏移地址。

8、Kafka生产者分区策略：

Kafka producer在向Kafka集群发送消息时，需要指定topic，Kafka根据topic对消息进行归类（逻辑划分），而一个topic通常会有多个partition分区，落到磁盘上就是多个partition目录。Kafka提供了多种分区策略如RoundRobin（轮询）、Range（按范围），可通过参数partition.assignment.strategy进行配置。

一般情况下，在topic和消费组不发生变化，Kafka会根据topic分区、消费组情况等确定分区策略，但是当发生以下情况时，会触发Kafka的分区重分配：

1. Consumer Group中的consumer发生了新增或者减少。

2. Consumer Group订阅的topic分区发生变化如新增分区。

9、生产者ISR，ACK机制，数据一致性：

kafka对于producer发来的消息如何保证可靠性？给每个partition配上副本，做数据同步，保证数据不丢失。

为保证 producer 发送的数据，能可靠的发送到指定的 topic， topic 的每个 partition 收到producer 发送的数据后，都需要向 producer 发送 ack，如果producer 收到 ack，就会进行下一轮的发送，否则重新发送数据。

什么时候发送ack? 确保有follower与leader同步完成，leader再发送ack，这样才能保证leader挂掉之后，能在follower中选举出新的leader。

多个follower同步完成发送ack? (全部同步完成后发送ack，延迟相对来说较高，容错率高)

什么是ISR？

能够和 leader 保持同步的 follower + leader本身组成的集合。

follower的作用：读写都是由leader处理，follower只是作备份功能，不对外提供服务。Kafka只保证对ISR集合中的所有副本保证完全同步。当 ISR 中的 follower 完成数据的同步之后，就会给 leader 发送 ack。如果 follower长时间未向leader同步数据，则该follower将被踢出ISR，该时间阈值由replica.lag.time.max.ms参数设定。leader 发生故障之后，就会从 ISR 中选举新的 leader。

生产者ACK机制：

acks确认机制：

acks=0，表示生产者在成功写入消息之前不会等待任何来自服务器的响应. 换句话说，一旦出现了问题导致服务器没有收到消息，那么生产者就无从得知，消息也就丢失了. 改配置由于不需要等到服务器的响应，所以可以以网络支持的最大速度发送消息，从而达到很高的吞吐量。

acks=1，表示只要集群的leader分区副本接收到了消息，就会向生产者发送一个成功响应的ack，此时生产者接收到ack之后就可以认为该消息是写入成功的. 一旦消息无法写入leader分区副本(比如网络原因、leader节点崩溃),生产者会收到一个错误响应，当生产者接收到该错误响应之后，为了避免数据丢失，会重新发送数据.这种方式的吞吐量取决于使用的是异步发送还是同步发送。

acks =all（-1）,表示只有所有参与复制的节点(ISR列表的副本)全部收到消息时，生产者才会接收到来自服务器的响应. 这种模式是最高级的，也是最安全的，可以确保不止一个Broker接收到了消息. 该模式的延迟会很高。

Kafka数据一致性：

follower 故障：follower 发生故障后会被临时踢出 ISR，待该 follower 恢复后， follower 会读取本地磁盘记录的上次的 HW，并将 log 文件高于 HW 的部分截取掉，从 HW 开始向 leader 进行同步。等该 follower 的 LEO 大于等于该 Partition 的 HW，即 follower 追上 leader 之后，就可以重新加入 ISR 了。

leader 故障：leader 发生故障之后，会从 ISR 中选出一个新的 leader，之后，为保证多个副本之间的数据一致性，其余的 follower 会先将各自的 log 文件高于 HW 的部分截掉，然后从新的 leader同步数据。

YYtengjian

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【Kafka】Kafka文件存储，生产者分区策略，ACK机制

7、kafka文件存储：由于生产者生产的消息会不断追加到 log 文件末尾，为防止 log 文件过大导致数据定位效率低下， Kafka 采取了分片和索引机制，将每个 partition 分为多个 segment。每个 segment对应两个文件——“.index”文件和“.log”文件。这些文件位于一个文件夹下，该文件夹的命名规则为： topic 名称+分区序号。例如， first 这个 topic 有三个分区，则其对应的文件夹为 first-0,first-1,first-2。...
复制链接

扫一扫