1.flume介绍
1.1 什么是flume?
Apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务.
1.2 Flume特性
- Flume是一个分布式、可靠、和高可用的海量日志采集、汇聚和传输的系统。
- Flume可以采集文件,socket数据包(网络端口)、文件夹、kafka、mysql数据库等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中
- 一般的采集、传输需求,通过对flume的简单配置即可实现;不用开发一行代码!
- Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景
2.Flume核心
2.1.agent
flume采集系统就是由一个个agent连接起来所形成的一个或简单或复杂的数据传输通道。
对于每一个Agent来说,它就是一个独立的守护进程(JVM),它负责从数据源接收数据,并发往下一个目的地,如下图所示:
每一个agent相当于一个数据(被封装成Event对象)传递员,内部有三个组件:
Source:采集组件,用于跟数据源对接,以获取数据;它有各种各样的内置实现;
Sink:下沉组件,用于往下一级agent传递数据或者向最终存储系统传递数据
Channel:传输通道组件,用于从source将数据传递到sink
2.2 Event:flume内部数据封装形式
数据在Flume内会被封装成统一的数据类型Event
Source组件从外部获取原始数据后,将数据封装成Event文件
Sink组件从Channel中取出Event,根据配置文件的要求,将Event以其他形式输出
Event封装对象主要有两部分组成: Headers和 Body
Header是一个集合 Map[String,String],用于携带一些KV形式的元数据(标志、描述等)
Boby: 就是一个字节数组;装载具体的数据内容
2.3.Transaction:事务控制机制
Flume有两个独立的事务分别负责从Soucrce到Channel,以及从Channel到Sink的event传递
从Soucrce到Channel:Channel接收来自Source的数据,当同一个事务中的事件都接收成功后,记录最后的偏移量标记记录成功,进行下一次操作,如果数据接收不成功则事务回滚,重新提交事务
同理,事务以类似的方式处理从Channel到Sink的传递过程
事务机制涉及到如下重要参数:
a1.sources.s1.batchSize =100
a1.sinks.k1.batchSize = 200
a1.channels.c1.transactionCapacity = 300 (应该大于source或者sink的批次大小)
< transactionCapacity 是说,channel中保存的事务的个数>
跟channel的数据缓存空间容量区别开来:
a1.channels.c1.capacity = 10000
3.Flume安装部署
1.准备Hadoop环境
2.将安装包上传到需要采集数据的节点上(例如日志采集节点)
3.解压tar -zxvf apache-flume-1.8.0-bin.tar.gz
4.根据数据采集要求配置采集方案(在配置文件中自定义)
5.根据采集方案配置文件,在对应节点上运行flume agent
启动命令
bin/flume-ng agent -c ./conf ………….
commands: help 显示本帮助信息 agent 启动一个agent进程 avro-client 启动一个用于测试avro source的客户端(能够发送avro序列化流) version 显示当前flume的版本信息
global options: 全局通用选项 --conf,-c <conf> 指定flume的系统配置文件所在目录 --classpath,-C <cp> 添加额外的jar路径 --dryrun,-d 不去真实启动flume agent,而是打印当前命令 --plugins-path <dirs> 指定插件(jar)所在路径
-Dproperty=value 传入java环境参数 -Xproperty=value 传入所需的JVM配置参数
agent options: --name,-n <name> agent的别名(在用户采集方案配置文件中) --conf-file,-f <file> 指定用户采集方案配置文件的路径 --zkConnString,-z <str> 指定zookeeper的连接地址 --zkBasePath,-p <path> 指定用户配置文件所在的zookeeper path,比如:/flume/config --no-reload-conf 关闭配置文件动态加载 --help,-h display help text
avro-client options: --rpcProps,-P <file> RPC client properties file with server connection params --host,-H <host> avro序列化数据所要发往的目标主机(avro source所在机器) --port,-p <port> avro序列化数据所要发往的目标主机的端口号 --dirname <dir> 需要被序列化发走的数据所在目录(提前准备好测试数据放在一个文件中) --filename,-F <file> 需要被序列化发走的数据所在文件(default: std input) --headerFile,-R <file> 存储header key-value的文件 --help,-h 帮助信息
Either --rpcProps or both --host and --port must be specified.
Note that if <conf> directory is specified, then it is always included first in the classpath. |
开启内置监控功能
-Dflume.monitoring.type=http -Dflume.monitoring.port=34545