数据仓库组件之Flume
一、前言
Flume是一个可以收集日志等数据资源,并将这些庞大的数据从各项数据源中集中起来存储的高可用,分布式的工具,其设计的原理也是基于数据流。
二、架构
1 架构示意图
2 架构说明:
- 根据我们公司的业务架构,生产环境的服务器基本上是两台,所产生的日志数据分别存放在自己的本地路径下,并没有在大数据集群的服务器上,所以我们需要Flume子节点将日志数据传输到大数据集群。
- 通过我们大数据集群上的Flume再下沉到Kafka集群
- 在下沉到Kafka集群时,需要遵守Kafka topic的设计规范(详见Kafka使用手册),需要编写flume拦截器。
三、使用规范
1 conf 脚本文件命名规范
1)节点Flume --> 汇总Flume
《项目名》+《kafka+节点》+《kafka+Emr+节点》,中间通过下划线连接
节点