Flume理论知识：简介-使用场景-架构-执行流程-特性-事务-优点

不待见@DXY

已于 2022-04-06 21:40:34 修改

阅读量611

点赞数

分类专栏： Flume 文章标签：大数据 flume

于 2022-04-06 21:38:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_49334432/article/details/123999024

版权

Flume 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

二、使用场景

三、体系架构

四、执行流程

五、特性-复杂的流动性

一、简介

Flume 是一个分布式的、可靠的、高可用的 海量日志聚合 系统。

支持自定义数据的生产方和接收方，并可以对数据进行简单的处理。

初始版本统称为 Flume OG；重构版本称为 Flume NG。

二、使用场景

对于线上数据，一般是存储到磁盘（落地）或者通过Socket 传输给另一个系统。

但在实际应用中，我们难以通过线上应用或服务去修改端口，从而实现向Kafka里写数据。

于是需要借助 Flume 来实现向Kafka里面写数据。

三、体系架构

（1）数据采集流程

（2）架构组件介绍：

Client 客户端：负责生产数据；运行在一个独立的线程中。

Agent 代理：是Flume的核心组件，通过JVM运行。包含组件：Source、Channel、Sink。

一台机器运行一个Agent，一个 Agent 可以包含多个 Source 和 Sink。

Source 源：是一个数据缓冲区。从 Client 收集数据 - 格式化 - 封装到 Event 。

使用内存存储数据，若超过阈值，则存入文件中。

Event 事件：是一个数据单元，由消息头和消息体组成。

Interceptor 过滤器：位于 Source 和 Channel 之间。

Channel 管道：Event 中转站。负责从 Source 接收数据，传递给 Sinks。

可以将 Event 暂存到内存中或持久化到磁盘上，待Sink处理成功后删除。

Flow 流：Event 流动路径的抽象。

Sink 存储：负责从 Channel 拉取数据，发送给接收方。

四、执行流程

五、特性-复杂的流动性

（1）多个 Agent 横向连接。

（2）第一层存在多个 Agent，在第二层设置一个 Agent 做汇集操作。

（3）事件流复用流向不同的目的地。

六、事务

（1）推送事务流程

先将数据写入临时缓冲区，然后检查 Channel 容量是否充足。

若充足，则将数据推入管道。

若不足，则将数据回滚到缓冲区。

（2）拉取事务流程

先将数据拉去到临时缓冲区，然后检查数据是否发送成功。

若成功，则删除缓冲区数据。

若失败，则回滚缓冲区数据到管道。

（3）可靠

只有当 Sink 接收到数据完成落地的反馈信息后，才会将数据从 Channel 中删除。

（4）可恢复

若将 Event 存储在磁盘上，数据丢失后，可恢复。

七、优点

当收集数据的速度大于写出数据的速度时，Flume可以对数据生产者和数据存放者进行自动调整，使数据得以平稳传输。

Channel 基于事务，保证了数据的一致性。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。