Flume 基础概述（体系架构、执行流程、事务）

寧三一

已于 2022-06-20 15:08:35 修改

阅读量3.1k

点赞数 2

分类专栏： ETL 工具文章标签： flume 架构 kafka

于 2022-02-09 21:22:47 首次发布

本文链接：https://blog.csdn.net/weixin_51967583/article/details/122849100

版权

2 篇文章 1 订阅

订阅专栏

Flume 基础概述

在这里插入图片描述

在这里插入图片描述

1、Client（客户端）
- 1、Client 生产数据，运行在一个独立的线程
2、Event（事件）
- 1、一个数据单元，由 消息头和消息体组成
- 2、Events 可以是日志记录、 avro 对象等
3、Flow（流）
- 1、 Event 从源点到达目的点的迁移的抽象
4、Agent（代理）
- 1、 一个独立的Flume进程，包含组件Source、 Channel、 Sink
- 2、每台机器运行一个agent，但是可以在一个agent中包含多个 sources和 sinks
- 3、Agent使用 JVM 运行Flume
5、Source（源）
- 1、source从Client收集数据，传递给Channel
- 2、数据收集组件
6、Channel（通道）
- 1、负责接收 source 端的数据，并将其推送到持久系统或者是 sink 端
- 2、中转Event的一个临时存储，保存由Source组件传递过来的 Event
- 3、Channel 连接 sources 和 sinks ，这个有点像一个消息队列
7、Sink（存储）
- 1、从Channel中读取并移除Event，将 Event 传递到 FlowPipeline 中的下一个 Agent
- 2、如果有的话，Sink从Channel收集数据，运行在一个独立线程
8、selector（选择器）
- 1、作用于 source 端，然后决定数据发往哪个目标
9、interceptor（拦截器）
- 1、flume 允许使用拦截器拦截数据
- 2、允许使用拦截器链，作用于 source 和 sink 阶段

1、峰值处理
- 当收集数据的速度超过将写入数据的时候，也就是当收集信息遇到峰值时，
- 这时候收集的信息非常大，甚至超过了系统的写入数据能力，
- 此时，Flume会在数据生产者和数据收容器间做出调整，保证其能够在两者之间提供平稳的数据
2、Flume的管道是基于事务，保证了数据在传送和接收时的一致性
3、 Flume是可靠的，容错性高的，可升级的，易管理的，并且可定制的
- 可以根据生产需要自行定义一个数据来源端或者终点端
4、 支持多路径流量，多管道接入流量，多管道接出流量，上下文路由等

在这里插入图片描述

关注