扩展Flume按照Time和Size对日志进行hdfs归档

本文介绍了如何配置Apache Flume,以便根据时间和文件大小触发日志数据从源到HDFS的目标归档过程。通过设置自定义触发器,实现了高效的数据流动和管理。
摘要由CSDN通过智能技术生成
    Flume的架构基本agent-->collect-->storage的架构,agent主要负责日志的产生,并把日志传给collector端,collect负责把agent发送的日志收集起来,发送给storage存储,storage负责的存储;其中agent和collect本身都是source,sink架构,所谓source、sink,类似生成者和消费者的架构,他们之间通过queue传输,解耦。
    实际环境中有这样的需求,通过在多个agent端tail日志,发送给collector,collector再把数据收集,统一发送给HDFS存储起来,当HDFS文件大小超过一定的大小或者超过在规定的时间间隔会生成一个文件。
    Flume 实现了两个Trigger,分别为SizeTriger(在调用HDFS输出流写的同时,count该流已经写入的大小总和,若超过一定大小,则创建新的文件和输出流,写入操作指向新的输出流,同时close以前的输出流)和TimeTriger(开启定时器,当到达该点时,自动创建新的文件和输出流,新的写入重定向到该流中,同时close以前的输出流)。
   目前在Flume的配置中只支持TimeTrigger, collectorSink( "fsdir","fsfileprefix",rollmillis),但是在代码中已经实现了按照文件大小进行回滚,同时也实现了OrTrigger实现多个trigger的混合机制。
对collectot定义如下格式 collectorSink( "fsdir","fsfileprefix",rollmillis,maxsize),其中maxsize是HDFS文件的最大大小(M)
如 exec config collector 'collectorSource(35862)' 'collectorSink("hdfs://hostname:9100/syslog","log",300000,200)'
 
CollectorSink
修改 public static SinkBuilder hdfsBuilder(), 支持对maxsize文件大小参数的校验。
增加构造函数,在构造函数中,创建OrTrigger并传入RollSink支持对文件大小和时间间隔Trigger的支持。
CollectorSink(Context ctx, final String snkSpec, final long millis,
			final long size, final Tagger tagger, long checkmillis,
			AckListener ackDest) 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值