kafka_01_笔记
https://archive.apache.org/
MQ:消息中间件
java =》 rabbitMQ kafka
大数据 =》 kafka、pular solar
kafka:
1.kafka.apache.org
cdk => cdh
1.distributed event streaming platform kafka是一个流式 分布式平台
2.构建 实时的数据通道 、流式数据分析、流式的app
实时处理/流式处理:
离线处理/批处理:
消息中间件:
1.消息 event =》 数据
2.数据存储的地方
2.kafka的特性:
1.HIGH THROUGHPUT 高吞吐量
2.SCALABLE
3.PERMANENT STORAGE 数据过期时间
4.HIGH AVAILABILITY
3.kafka有哪些特点?
1.发布&订阅
2. store 存储
3. process 处理 :
1.kafka后面接一个 实时计算的框架 : spark/flink 正确使用
2. kafkaStreaming 组件 【不要使用】
4.部署:
1.版本:
1.apache
2.cdk
2.版本选择:
1.稳定版本即可 可以选择最新版本【bug就是多】
2.根据 Sparkstreaming 来选择kafka的版本 !!!!
1.spark对接kafka 的最低版本 0.10版本 【spark 3.x版本】
2.【spark 2.x版本】
kafka:
0.10
0.11
0.11之后的版本
3.版本选择
建议 kafka 2.2.1 或者 最新版
5.kafka的架构
kakfa:
生产者(producer):消息发送端
broker:kafka本身
消费者(consumer):消息消费端
flume:
source 、channle、sink
6.进一步扩展kafka架构
1.broker:kafka集群里面某一个节点
2.event:表示 produce 发送的一条数据
3.broker:
1.topic 主题
1.负责存储events
2.消息订阅和发送基于topic
消息订阅 :
消费者 订阅topic:即可以消费topic里面存储的数据
消息发送:
生产者 往指定topic发送数据
3.kafka中可以有多个topic
2.topic:
partition:分区
1.一个topic可以有多个partition
2.每个partition是一个有序的队列 =》单分区有序
3.partition linux上的文件夹
数据:
业务数据
日志数据 => flume =>kafka
部署kafka:
1.单点
2.分布式
bigdata32机器为主:
[hadoop@bigdata32 software]$ tar -zxvf kafka_2.11-2.2.1.tgz -C ~/app/
配置环境变量:
#KAFKA_HOME
export KAFKA_HOME=/home/hadoop/app/kafka
export PATH= P A T