【kafka_01】

本文主要介绍了Kafka作为分布式流处理平台的基本概念、特性及应用场景。讲解了Kafka的高吞吐量、可扩展性、持久化等特点,并详细阐述了Kafka的架构,包括生产者、Broker和消费者的角色。还提到了Kafka在大数据和Java环境中的应用,以及如何部署和管理Kafka,包括创建、查看和删除Topic的操作。
摘要由CSDN通过智能技术生成

kafka_01_笔记

https://archive.apache.org/

MQ:消息中间件
java =》 rabbitMQ kafka
大数据 =》 kafka、pular solar

kafka:
1.kafka.apache.org
cdk => cdh

1.distributed event streaming platform kafka是一个流式 分布式平台
2.构建 实时的数据通道 、流式数据分析、流式的app

实时处理/流式处理:
离线处理/批处理:

消息中间件:
1.消息 event =》 数据
2.数据存储的地方

2.kafka的特性:
1.HIGH THROUGHPUT 高吞吐量
2.SCALABLE
3.PERMANENT STORAGE 数据过期时间
4.HIGH AVAILABILITY

3.kafka有哪些特点?
1.发布&订阅
2. store 存储
3. process 处理 :
1.kafka后面接一个 实时计算的框架 : spark/flink 正确使用
2. kafkaStreaming 组件 【不要使用】

4.部署:
1.版本:
1.apache
2.cdk

2.版本选择: 
	1.稳定版本即可  可以选择最新版本【bug就是多】
	2.根据 Sparkstreaming  来选择kafka的版本 !!!!
			1.spark对接kafka 的最低版本 0.10版本  【spark 3.x版本】
			2.【spark 2.x版本】

			kafka: 
				0.10 
				0.11
			0.11之后的版本
3.版本选择 
	建议 kafka 2.2.1  或者 最新版 

5.kafka的架构
kakfa:
生产者(producer):消息发送端
broker:kafka本身
消费者(consumer):消息消费端

flume: 
	source 、channle、sink	

6.进一步扩展kafka架构
1.broker:kafka集群里面某一个节点
2.event:表示 produce 发送的一条数据
3.broker:
1.topic 主题
1.负责存储events
2.消息订阅和发送基于topic
消息订阅 :
消费者 订阅topic:即可以消费topic里面存储的数据
消息发送:
生产者 往指定topic发送数据
3.kafka中可以有多个topic

	2.topic: 
		partition:分区 
			1.一个topic可以有多个partition
			2.每个partition是一个有序的队列 =》单分区有序
			3.partition linux上的文件夹 

数据:
业务数据
日志数据 => flume =>kafka

部署kafka:
1.单点

2.分布式

bigdata32机器为主:
[hadoop@bigdata32 software]$ tar -zxvf kafka_2.11-2.2.1.tgz -C ~/app/
配置环境变量:
#KAFKA_HOME
export KAFKA_HOME=/home/hadoop/app/kafka
export PATH= P A T

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值