一.file ->flume1 常用source:
Exec source :适用于监控一个实时追加的文件,但不能保证数据不丢失;(适用于测试环境)
Spooldir Source :能够保证数据不丢失,且能够实现断点续传,但延迟较高,不能实时监控;
- 不要在监控目录中创建并持续修改文件
- 上传完成的文件会以.COMPLETED 结尾
- 被监控文件夹每 500 毫秒扫描一次文件变动
Taildir Source: 既能够实现断点续传,又可以保证数据不丢失,还能够进行实时监控。(适用于开发环境)
二.flume1 ->flume2 常用source:
avro source
三.sink -> flume:
avro sink
四.sink -> hdfs
hdfs sink
五.sink -> 本地文件目录
file roll sink
始终要记住:Source数据的来源、Sink数据的输出到那