大数据面试之Kafka

最新推荐文章于 2024-05-27 10:51:36 发布

谷新龙001

最新推荐文章于 2024-05-27 10:51:36 发布

阅读量169

点赞数

分类专栏： kafka 文章标签： kafka

本文链接：https://blog.csdn.net/zhazhagu/article/details/106753495

版权

kafka 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

大数据面试之Kafka

1.Kafka

说明，感谢亮哥长期对我的帮助，此处多篇文章均为亮哥带我整理。以及参考诸多博主的文章。如果侵权，请及时指出，我会立马停止该行为；如有不足之处，还请大佬不吝指教，以期共同进步。

1.Kafka

1.1 Kafka 架构模型

1、producer：消息的生产者，主要是用于生产消息的。主要是接入一些外部的数据源，从外部获取数据，比如说我们可以从flume获取数据，还可以通过ftp传入数据等，还可以通过kafka的API生产数据，通过push的方式，主动的将数据推送到kafka的topic当中去  
2、topic：主题，里面是一类消息的抽象的集合，说白了这下面就是用来装各种数据的  
3、paritition：消息的分区。为了解决数据保存的横向扩展的问题，所以将一个topic分为多个partition，每个partition保存topic当中的部分部署。为了解决partition丢失的问题，引入了副本机制，可以将一个partition复制多分出来保存  
4、broker：在kafka当中一台服务器，叫做一个broker  
5、consumer：消息的消费者，主要去消费topic当中的数据的，主动会去pull拉取topic当中的消息  
6、zookeeper：为了解决消费者消费的时候，确定一个topic当中有多少个分区，分区分别都在哪一台机器上，引入zk来保存这些数据  
7、kakfa的消费模型，在kakfa当中消费有组的概念。同一时间，一个组当中，只能有一个线程去消费一个paritition当中的数据  
8、kakfa消费必要的三个条件
    第一个条件：确定哪一个topic
    第二个条件：必须知道zk的地址
    第三个条件：消息消费的offset偏移量

参考
 参考
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w5HySJzG-1592146543764)(http://chuantu.xyz/t6/703/1575534472x1031866013.jpg)]

1.2 为什么要使用 kafka，为什么要使用消息队列

缓冲和削峰：上游数据时有突发流量，下游可能扛不住，或者下游没有足够多的机器来保证冗余，kafka在中间可以起到一个缓冲的作用，把消息暂存在kafka中，下游服务就可以按照自己的节奏进行慢慢处理。

解耦和扩展性：项目开始的时候，并不能确定具体需求。消息队列可以作为一个接口层，解耦重要的业务流程。只需要遵守约定，针对数据编程即可获取扩展能力。

冗余：可以采用一对多的方式，一个生产者发布消息，可以被多个订阅topic的服务消费到，供多个毫无关联的业务使用。

健壮性：消息队列可以堆积请求，所以消费端业务即使短时间死掉，也不会影响主要业务的正常进行。

异步通信：很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。

1.3 Kafka中的ISR、AR又代表什么？ISR的伸缩又指什么

ISR:In-Sync Replicas 副本同步队列
AR:Assigned Replicas 所有副本
ISR是由leader维护，follower从leader同步数据有一些延迟（包括延迟时间replica.lag.time.max.ms和延迟条数replica.lag.max.messages两个维度, 当前最新的版本0.10.x中只支持replica.lag.time.max.ms这个维度），任意一个超过阈值都会把follower剔除出ISR, 存入OSR（Outof-Sync Replicas）列表，新加入的follower也会先存放在OSR中。AR=ISR+OSR。

1.4 kafka组成

produer：消息的生产者，往topic当中生产消息  
consumer：消息的消费者，从topic当中消费消息  
broker：kafka的服务器  
zookeeper：kafka依赖于zk保存一些topic以及partition的信息  
topic：一类消息的高度抽象集合，一个topic下面由多个paritition组成  
partition：消息的分区，每个paritition保存了一部分topic的数据，一个partition包含多个segement。一个segement又包含两部分，.log文件和.index文件  
segement：包含两个文件.log 文件   .index文件  
.log：记录了我们的数据，文件是顺序读写的  
.index文件：记录了.log文件的索引  
offset：消息的偏移量，我们消费数据的时候，都要记录消息的offset，下次继续消费的时候，根据上次的offset偏移量就可以确定我们下一条数据从哪里开始消费

1.5 kafka follower如何与leader同步数据

Kafka的复制机制既不是完全的同步复制，也不是单纯的异步复制。完全同步复制要求All Alive Follower都复制完，这条消息才会被认为commit，这种复制方式极大的影响了吞吐率。而异步复制方式下，Follower异步的从Leader复制数据，数据只要被Leader写入log就被认为已经commit，这种情况下，如果leader挂掉，会丢失数据，kafka使用ISR的方式很好的均衡了确保数据不丢失以及吞吐率。Follower可以批量的从Leader复制数据，而且Leader充分利用磁盘顺序读以及send file(zero copy)机制，这样极大的提高复制性能，内部批量写磁盘，大幅减少了Follower与Leader的消息量差。

参考

1.6 Kafka有什么优点和缺点

优点：
①支持跨数据中心的消息复制；
②单机吞吐量：十万级，最大的优点，就是吞吐量高; 
③topic数量都吞吐量的影响：topic从几十个到几百个的时候，吞吐量会大幅度下降。所以在同等机器下，kafka尽量保证topic数量不要过多。如果要支撑大规模topic，需要增加更多的机器资源; 
④时效性：ms级; 
⑤可用性：非常高，kafka是分布式的，一个数据多个副本，少数机器宕机，不会丢失数据，不会导致不可用; 
⑥消息可靠性：经过参数优化配置，消息可以做到0丢失; 
⑦功能支持：功能较为简单，主要支持简单的MQ功能，在大数据领域的实时计算以及日志采集被大规模使用。
缺点： 
①由于是批量发送，数据并非真正的实时； 仅支持统一分区内消息有序，无法实现全局消息有序； 
②有可能消息重复消费； 
③依赖zookeeper进行元数据管理，等等。

参考
 面试题
 面试题
 面试题