kafka28道简答

最新推荐文章于 2024-01-15 10:16:01 发布

wyju

最新推荐文章于 2024-01-15 10:16:01 发布

阅读量254

点赞数

本文链接：https://blog.csdn.net/weixin_45955039/article/details/107332133

版权

1.Kafka过期数据清理

保证数据没有被引用（没人消费他）
日志清理保存的策略只有delete和compact两种
log.cleanup.policy=delete启用删除策略
log.cleanup.policy=compact启用压缩策略

2，Kafka丢不丢数据

：Ack=0，相当于异步发送，消息发送完毕即offset增加，继续生产。
Ack=1，leader收到leader replica 对一个消息的接受ack才增加offset，然后继续生产。
Ack=-1/ all，leader收到所有replica 对一个消息的接受ack才增加offset，然后继续生产。

3.kafka 的消息包含那些？

CRC32：4个字节，消息的校验码。
magic：1字节，魔数标识，与消息格式有关，取值为0或1。
attributes： 1字节，消息的属性。
timestamp：时间戳，其含义由attributes的第3位确定。
key length：消息key的长度。
key：消息的key。
value length：消息的value长度。
value：消息的内容

4.Kakfa分区数

1）创建一个只有1个分区的topic
2）测试这个topic的producer吞吐量和consumer吞吐量。
3）假设他们的值分别是Tp和Tc，单位可以是MB/s。
4）然后假设总的目标吞吐量是Tt，那么分区数=Tt / min（Tp，Tc）
例如：producer吞吐量=20m/s；consumer吞吐量=50m/s，期望吞吐量100m/s；
分区数=100 / 20 =5分区
分区数一般设置为：3-10个

5.Kafka监控

公司自己开发的监控器；
开源的监控器：KafkaManager、KafkaMonitor、KafkaEagle

6.kafka 组件？

Topic ：消息根据Topic进行归类
Producer：发送消息者
Consumer：消息接受者
broker：每个kafka实例(server)
Zookeeper：依赖集群保存meta信息。

7.kafka 多少个Topic

通常情况：多少个日志类型就多少个Topic。也有对日志类型进行合并的。

8.Kafka的硬盘大小

：每天的数据量100g2个副本3天/70%

9.Kafka压测

Kafka官方自带压力测试脚本（kafka-consumer-perf-test.sh、kafka-producer-perf-test.sh）。Kafka压测时，可以查看到哪个地方出现了瓶颈（CPU，内存，网络IO）。一般都是网络IO达到瓶颈。

10. Kafka消费者角度考虑是拉取数据还是推送数据

拉取数据

11.kafka副本数设定

一般我们设置成2个或3个，很多企业设置为2个。
副本的优势：提高可靠性；副本劣势：增加了网络IO传输

12. 怎么保证数据全局有序？

1)保证生产有充、消费有序、存储有序
2)只能有一个生产者，一个partition，一个consumer
ps:但是这违背分布式系统初衷，因此这是一个伪命题

13.Kafka消息的分发策略？

producer客户端负责消息的分发
1)producer和broker连接，kafka集群中任何一个broker都可以向producer提供metadata信息，这些metadata中包含partitions leader列表等信息
2)producer拿到metadata信息后和Topic下所有partiton leader保持socket连接
3)消息由producer直接通过socket发送到broker，follower向leader同步数据，所以producer生产的消息由producer客户端决定路由到哪一个partition

14. Kafka日志保存时间

默认保存7天；生产环境建议3天

15.Kafka分区分配策略

在 Kafka内部存在两种默认的分区分配策略：Range和 RoundRobin。
Range是默认策略。Range是对每个Topic而言的（即一个Topic一个Topic分），首先对同一个Topic里面的分区按照序号进行排序，并对消费者按照字母顺序进行排序。然后用Partitions分区的个数除以消费者线程的总数来决定每个消费者线程消费几个分区。如果除不尽，那么前面几个消费者线程将会多消费一个分区。
例如：我们有10个分区，两个消费者（C1，C2），3个消费者线程，10 / 3 = 3而且除不尽。
C1-0 将消费 0, 1, 2, 3 分区
C2-0 将消费 4, 5, 6 分区
C2-1 将消费 7, 8, 9 分区
第一步：将所有主题分区组成TopicAndPartition列表，然后对TopicAndPartition列表按照hashCode进行排序，最后按照轮询的方式发给每一个消费线程。

16.Kafka参数优化

1）Broker参数配置（server.properties）
1、日志保留策略配置
保留三天，也可以更短（log.cleaner.delete.retention.ms）
log.retention.hours=72

2、Replica相关配置
default.replication.factor:1 默认副本1个

3、网络通信延时
replica.socket.timeout.ms:30000 #当集群之间网络不稳定时,调大该参数
replica.lag.time.max.ms= 600000# 如果网络不好,或者kafka集群压力较大,会出现副本丢失,然后会频繁复制副本,导致集群压力更大,此时可以调大该参数
2）Producer优化（producer.properties）
compression.type:none
#默认发送不进行压缩，推荐配置一种适合的压缩算法，可以大幅度的减缓网络压力和Broker的存储压力。
3）Kafka内存调整（kafka-server-start.sh）
默认内存1个G，生产环境尽量不要超过6个G。
export KAFKA_HEAP_OPTS="-Xms4g -Xmx4g"

17.Kafka数据重复

幂等性+ack-1+事务
Kafka数据重复，可以再下一级：SparkStreaming、redis或者hive中dwd层去重，去重的手段：分组、按照id开窗只取第一个值；

18.Kafka中的数据是有序的吗

单分区内有序；多分区，分区与分区间无序；

19.Kafka可以按照时间消费数据

Map<TopicPartition, OffsetAndTimestamp> startOffsetMap = KafkaUtil.fetchOffsetsWithTimestamp(topic, sTime, kafkaProp);

20.Kafka挂掉

1）Flume记录
2）日志有记录
3）短期没事

21. Kafka消息数据积压，Kafka消费能力不足怎么处理

1）如果是Kafka消费能力不足，则可以考虑增加Topic的分区数，并且同时提升消费组的消费者数量，消费者数=分区数。（两者缺一不可）
2）如果是下游的数据处理不及时：提高每批次拉取的数量。批次拉取数据过少（拉取数据/处理时间<生产速度），使处理的数据小于生产的数据，也会造成数据积压。

22.Kafka单条日志传输大小

kafka对于消息体的大小默认为单条最大值是1M但是在我们应用场景中, 常常会出现一条消息大于1M，如果不对kafka进行配置。则会出现生产者无法将消息推送到kafka或消费者无法去消费kafka里面的数据, 这时我们就要对kafka进行以下配置：server.properties
replica.fetch.max.bytes: 1048576 broker可复制的消息的最大字节数, 默认为1M
message.max.bytes: 1000012 kafka 会接收单个消息size的最大限制，默认为1M左右
注意：message.max.bytes必须小于等于replica.fetch.max.bytes，否则就会导致replica之间数据同步失败。

23. Kafka中数据量计算

每天总数据量100g，每天产生1亿条日志， 10000万/24/60/60=1150条/每秒钟
平均每秒钟：1150条
低谷每秒钟：50条
高峰每秒钟：1150条*（2-20倍）=2300条-23000条
每条日志大小：0.5k-2k（取1k）
每秒多少数据量：2.0M-20MB

24. Kafka高效读写数据

1）Kafka本身是分布式集群，同时采用分区技术，并发度高。
2）顺序写磁盘
Kafka的producer生产数据，要写入到log文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到600M/s，而随机写只有100K/s。
3）零复制技术

25.Kafka的ISR副本同步队列

：ISR（In-Sync Replicas），副本同步队列。ISR中包括Leader和Follower。如果Leader进程挂掉，会在ISR队列中选择一个服务作为新的Leader。有replica.lag.max.messages（延迟条数）和replica.lag.time.max.ms（延迟时间）两个参数决定一台服务是否可以加入ISR副本队列，在0.10版本移除了replica.lag.max.messages参数，防止服务频繁的进去队列。
任意一个维度超过阈值都会把Follower剔除出ISR，存入OSR（Outof-Sync Replicas）列表，新加入的Follower也会先存放在OSR中。

26. spark Streaming消费kafka数据有两种方式：

1)receiver方式（zk管理偏移量）

2)Kafka Direct方式（自己管理偏移量）

27.如何保证数据不丢失？ ACK机制？

Producer消息发送的应答机制 ACK

设置发送数据是否需要服务端的反馈,有四个值0,1,-1,All
?0: producer不会等待broker发送ack
?1: 当leader接收到消息之后发送ack
?-1: 当所有的follower都同步消息成功后发送ack
?All:等同于-1，现在基本使用all
request.required.acks=0

28. Kafka的机器数量

Kafka机器数量=2*（峰值生产速度*副本数/100）+ 1

wyju

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
kafka28道简答

1.Kafka过期数据清理保证数据没有被引用（没人消费他）日志清理保存的策略只有delete和compact两种log.cleanup.policy=delete启用删除策略log.cleanup.policy=compact启用压缩策略2，Kafka丢不丢数据：Ack=0，相当于异步发送，消息发送完毕即offset增加，继续生产。Ack=1，leader收到leader replica 对一个消息的接受ack才增加offset，然后继续生产。Ack=-1/ all，leader收到所有re
复制链接

扫一扫