kafka简介
kafka是一个分布式、支持分区的、多副本的,基于zookeeper协调的分布式消息系统,它最大的特点就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等,用scala语言编写,Linkedin于2020年贡献并成为顶级的开源系统
kafka产生背景
1.当今社会各种应用系统诸如商业、社交、搜索、浏览等信息工厂一样不断地生产出各种信息,在大数据时代,面临着以下挑战。①如何收集这些信息②如何分析③如何及时做到这一点
2.这些挑战形成了一个业务上的需求模型,即生产各种信息,消费者消费(处理分析)这些信息,而在生产者和消费者之间,需要一个沟通两者地桥梁 信息系统,从一个微观层面来说,这种也可以理解为不同的系统之间如何传递消息
3.Kafka是由linked-in开源
4.Kafka是解决了这类问题的框架,它实现了生产者和消费者之间的无缝连接
5.Kafka高产出的分布式消息系统
kafka的特性
1.高吞吐量、低延迟:Kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒
2.可扩展性:Kafka集群支持热扩展
3.持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失
4.容错性:允许集群中节点失败(若副本数量为n,则允许n-1节点失败)
5.高并发:支持数千个客户端同时读写。
kafka的场景应用
日志收集:一个公司可以用Kafka收集各种服务的log,通过Kafka以统一接口服务的方式开放给各种consumer、例如hadoop、Hbase、solr
kafka的简介
最新推荐文章于 2023-04-06 14:06:33 发布