Kafka万亿级消息实战干货~持续更新中

置顶 123 黑曼巴

已于 2024-10-06 19:04:02 修改

阅读量1.1w

点赞数 26

分类专栏： Kafka 文章标签： kafka

于 2020-10-17 18:18:26 首次发布

本文链接：https://blog.csdn.net/yangyijun1990/article/details/109136424

版权

Kafka 专栏收录该内容

23 篇文章 5 订阅

订阅专栏

完整文章地址：https://mp.weixin.qq.com/s/4t4k6aO_1P_wSH6pU2geog

在这里插入图片描述

文章目录

一、Kafka应用层面
二、Kafka底层原理层面
三、kafka开源版本功能缺陷
- 1.副本迁移

当前线上集群规模已经超过了 600+broker，入流量超3万亿记录/天，出流量超7万亿记录/天。在巨大的流量实战中，我们遇到了很多麻烦，这里抽了点时间梳理了一下。主要从 应用层面、 底层原理层面、 开源版本功能缺陷三个方面进行了核心知识点的梳理。目前本文只是对核心知识点进行概括，并不会详细描述每个知识点的细节，后续我将抽出时间来继续整理完善细节，希望可以为大家提供一些帮助。

一、Kafka应用层面

1.版本升级

1.1.如何进行版本滚动升级与回退；

2.数据/副本迁移

2.1.broker间数据迁移；
2.2.broker内部磁盘间数据迁移；

3.流量限制

3.1.生产者流量限制；
3.2.消费者流量限制；
3.3.follower副本同步leader副本流量限制；

4.运维监控告警；

4.1.硬件基础监控

4.1.1.网络
网络入流量、网络出流量、网络丢包、网络重传、交换机。

4.1.2.磁盘
磁盘write、磁盘read、磁盘ioutil、磁盘iowait、磁盘存储空间、磁盘坏盘、磁盘坏块/坏道。

4.1.3.CPU
CPU空闲率/负载

4.1.4.内存
内存使用率

4.1.5.缓存命中率
Linux的PageCache缓存命中率，详细内容请阅读下面这篇文章：https://blog.csdn.net/yangyijun1990/article/details/105341785

4.2.Kafka服务监控

4.2.1.broker级别：
broker进程、broker出/入流量、broker连接数、broker网络空闲率、broker生产延时、broker消费延时、broker生产请求数、broker消费请求数、broker上分布leader个数、broker上分布副本个数、broker请求队列

4.2.2.topic级别：
topic副本缺失、topic出/入流量、topic消费者消费延迟记录、topic分区leader切换

4.2.3.用户级别
用户出/入流量、用户出/入流量被限制时间；

4.2.4.服务日志
对server端打印的错误日志进行监控告警；

4.3.客户端应用监控

4.3.1.生产者客户端

维度：客户端ID、客户端IP、topic名称、集群名称、brokerIP；
指标：连接数、io等待时间、生产流量大小、生产记录数、请求次数、请求延时、发送错误/重试次数等；

4.3.2.消费者客户端

维度：客户端ID、客户端IP、topic名称、集群名称、消费组、brokerIP、topic分区
指标：连接数、io等待时间、消费流量大小、消费记录数、消费延时、topic分区消费延迟记录等

4.4.zookeeper监控

4.4.1.zookeeper的进程监控；
4.4.2.zookeeper的leader切换；
4.4.3.zookeeper服务的错误日志监控；

5.资源隔离

5.1.业务资源物理隔离（分资源组，不同资源组之间物理隔离），不同业务互不影响；

6.集群归类

我们根据业务和用途的不同，对集群进行了归类。主要分为以下几类：

日志集群；
监控集群；
计费集群；
商业化集群；
非商业化集群；

7.扩容/缩容

7.1.topic扩容分区；
7.2.集群节点扩容broker（新broker上线）；
7.3.集群缩容（节点下线）；

8.负载均衡

8.1.开发自动负载均衡程序采集metrics指标，生成副本迁移计划，并执行迁移；
8.2.broker间负载均衡、broker内部多块磁盘间负载均衡；

9.安全认证

9.1.生产者权限认证；
9.2.消费者权限认证；
9.3.指定迁移数据目录安全认证；

10.集群容灾

10.1.跨机架容灾；
10.2.跨集群容灾；
10.3.跨机房容灾；

11.参数/配置优化

11.1.服务参数优化；

num.network.threads
建议设置为broker当CPU核心数2，这个值太低经常出现网络空闲太低而缺失副本。
num.io.threads
建议设置为broker磁盘个数2
num.replica.fetchers
建议设置为CPU核心数/4，适当提高可以提升CPU利用率及follower同步leader数据当并行度。
compression.type
建议采用lz4压缩类型，压缩可以提升CPU利用率同时可以减少网络传输数据量。

11.2.生产参数优化；

linger.ms
客户端生产消息等待多久时间才发送到服务端，单位：毫秒。和batch.size参数配合使用；
batch.size
客户端发送到服务端消息批次大小，和linger.ms参数配合使用；
compression.type
建议采用lz4压缩类型，具备较高的压缩比及吞吐量；

11.3.消费参数优化；
11.4.服务器内核参数优化；

11.4.服务器内核参数优化；

Linux的pagecache参数优化。参考地址：http://q.vivo.xyz/?/article/137
vm.max_map_count优化；
/etc/security/limits.con 修改文件句柄；
ulimit -n 2048 这个只是临时生效,想要永久生效需要添加如下行：

          soft    nofile          999000

          hard    nofile          1000000

12.硬件层面优化

12.1.采用SSD固态硬盘代替HDD(机械盘)；
12.2.采用更大内存服务器，比如256GB及以上；
12.3.配置更高的网络带宽，比如 10Gb/s及以上；

12.4.网络隔离打标

由于一个机房可能既部署有离线集群（比如HBase、Spark、Hadoop等）又部署有实时集群（如Kafka）。那么实时集群和离线集群挂载到同一个交换机下的服务器将出现竞争网络带宽的问题，离线集群可能对实时集群造成影响。所以我们需要进行交换机层面的隔离，让离线集群和实时集群不要挂载到相同到交换机下。另外对机房的网络带宽进行金、银、铜、铁优先级打标，实时业务优先级排最高。