【kafka_01】

最新推荐文章于 2024-08-14 12:36:02 发布

走多远才算远

最新推荐文章于 2024-08-14 12:36:02 发布

阅读量193

点赞数

文章标签： kafka 大数据 java

本文链接：https://blog.csdn.net/weixin_47922102/article/details/128379970

版权

本文主要介绍了Kafka作为分布式流处理平台的基本概念、特性及应用场景。讲解了Kafka的高吞吐量、可扩展性、持久化等特点，并详细阐述了Kafka的架构，包括生产者、Broker和消费者的角色。还提到了Kafka在大数据和Java环境中的应用，以及如何部署和管理Kafka，包括创建、查看和删除Topic的操作。

摘要由CSDN通过智能技术生成

kafka_01_笔记

https://archive.apache.org/

MQ:消息中间件
java =》 rabbitMQ kafka
大数据 =》 kafka、pular solar

kafka：
1.kafka.apache.org
cdk => cdh

1.distributed event streaming platform kafka是一个流式分布式平台
2.构建实时的数据通道、流式数据分析、流式的app

实时处理/流式处理：
离线处理/批处理：

消息中间件：
1.消息 event =》数据
2.数据存储的地方

2.kafka的特性：
1.HIGH THROUGHPUT 高吞吐量
2.SCALABLE
3.PERMANENT STORAGE 数据过期时间
4.HIGH AVAILABILITY

3.kafka有哪些特点？
1.发布&订阅
2. store 存储
3. process 处理：
1.kafka后面接一个实时计算的框架： spark/flink 正确使用
2. kafkaStreaming 组件【不要使用】

4.部署：
1.版本：
1.apache
2.cdk

2.版本选择： 
	1.稳定版本即可  可以选择最新版本【bug就是多】
	2.根据 Sparkstreaming  来选择kafka的版本 ！！！！
			1.spark对接kafka 的最低版本 0.10版本  【spark 3.x版本】
			2.【spark 2.x版本】

			kafka: 
				0.10 
				0.11
			0.11之后的版本
3.版本选择 
	建议 kafka 2.2.1  或者 最新版

5.kafka的架构
kakfa：
生产者(producer)：消息发送端
broker：kafka本身
消费者(consumer)：消息消费端

flume: 
	source 、channle、sink

6.进一步扩展kafka架构
1.broker：kafka集群里面某一个节点
2.event：表示 produce 发送的一条数据
3.broker：
1.topic 主题
1.负责存储events
2.消息订阅和发送基于topic
消息订阅：
消费者订阅topic：即可以消费topic里面存储的数据
消息发送：
生产者往指定topic发送数据
3.kafka中可以有多个topic

	2.topic： 
		partition:分区 
			1.一个topic可以有多个partition
			2.每个partition是一个有序的队列 =》单分区有序
			3.partition linux上的文件夹

数据：
业务数据
日志数据 => flume =>kafka

部署kafka：
1.单点

2.分布式

bigdata32机器为主：
[hadoop@bigdata32 software]$ tar -zxvf kafka_2.11-2.2.1.tgz -C ~/app/
配置环境变量：
#KAFKA_HOME
export KAFKA_HOME=/home/hadoop/app/kafka
export PATH=

最低0.47元/天解锁文章

走多远才算远

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【kafka_01】

zookeeper.connect= bigdata32:2181,bigdata33:2181,bigdata34:2181/kafka => zookeeper地址。log.dirs=/home/hadoop/data/kafka => kafka存储数据的目录。1.kafka后面接一个实时计算的框架： spark/flink 正确使用。Leader、Replicas、Isr：kafka 机器broker 对应的编号。2.构建实时的数据通道、流式数据分析、流式的app。
复制链接

扫一扫