Flume系列之:原理和Flume配置文件参数详解
一、认识Apache Flume
Apache Flume是一个分布式,可靠且可用的系统,用于有效地收集,聚合大量日志数据并将其从许多不同的源移动到集中式数据存储中。
Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume可用于传输大量事件数据,包括但不限于网络流量数据,社交媒体生成的数据,电子邮件消息以及几乎所有可能的数据源。
Flume NG 全称是 Flume (Next Generation) ,相对Flume OG (Original Genetration)而言的,Flume NG比Flume OG 要更简单、更轻量、更容易部署。
Flume NG相比Flume OG的变化
- Flume NG 依然使用 sources 和 sinks ,使用 channel 来连接他们
- channels 是可插拔(配置的), in-memory channel 用于快速但非持久事件传递,file-based channel用于持久性事件传递
- 不在区分逻辑节点和物理节点,所有节点都被称为 agent, 每个agent可以运行0个或多个 sources 和 sinks