Flume教程(一) Flume入门教程

最新推荐文章于 2024-07-23 08:03:31 发布

_否极泰来_

最新推荐文章于 2024-07-23 08:03:31 发布

阅读量1.5w

点赞数 4

分类专栏： Flume教程

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/yuan_xw/article/details/51143698

版权

Flume是Cloudera提供的日志采集、聚合和传输系统，适用于大规模数据收集。本文介绍了Flume的体系架构，包括Source、Sink和Channel，以及其特点和核心组件的工作原理。Flume在数据流中使用Event作为基本单位，通过Source获取数据，放入Channel缓冲，再由Sink处理并持久化或转发。此外，文章还提到了Flume对Hadoop和Zookeeper的依赖以及学习Flume的相关书籍推荐。

摘要由CSDN通过智能技术生成

Flume教程(一) Flume入门教程

1 Flume入门教程

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

当前Flume有两个版本Flume 0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，与Flume-og有很大不同，使用时请注意区分。

Flume运行环境：机器必须安装JDK6.0以上的版本，并且Flume目前只有Linux系统的启动脚本，没有Windows环境的启动脚本。

1.1 体系架构

Flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Event由Agent外部的Source生成，当Source捕获事件后会进行特定的格式化，然后Source会把事件推入(单个或多个)Channel中。你可以把Channel看作是一个缓冲区，它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。

Flume以agent为最小的独立运行单位。一个agent就是一个JVM。单agent由Source、Sink和Channel三大组件构成，如下图：

图1-1 数据流模型

组件	功能
Agent	使用JVM运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。
Client	生产数据，运行在一个独立的线程。
Source	从Client收集数据，传递给Channel。
Sink	从Chan