扩展Flume按照Time和Size对日志进行hdfs归档

最新推荐文章于 2023-03-16 15:40:23 发布

杨步涛的博客

最新推荐文章于 2023-03-16 15:40:23 发布

阅读量3.5k

点赞数

分类专栏： hadoop(ZK&MRv1&hdfs) 大数据文章标签： flume Trigger trigger

本文链接：https://blog.csdn.net/yangbutao/article/details/8497560

版权

hadoop(ZK&MRv1&hdfs) 同时被 2 个专栏收录

31 篇文章 0 订阅

订阅专栏

大数据

30 篇文章 19 订阅

订阅专栏

本文介绍了如何配置Apache Flume，以便根据时间和文件大小触发日志数据从源到HDFS的目标归档过程。通过设置自定义触发器，实现了高效的数据流动和管理。

摘要由CSDN通过智能技术生成

Flume的架构基本agent-->collect-->storage的架构，agent主要负责日志的产生，并把日志传给collector端，collect负责把agent发送的日志收集起来，发送给storage存储，storage负责的存储；其中agent和collect本身都是source,sink架构，所谓source、sink，类似生成者和消费者的架构，他们之间通过queue传输，解耦。

实际环境中有这样的需求，通过在多个agent端tail日志，发送给collector，collector再把数据收集，统一发送给HDFS存储起来，当HDFS文件大小超过一定的大小或者超过在规定的时间间隔会生成一个文件。

Flume 实现了两个Trigger，分别为SizeTriger（在调用HDFS输出流写的同时，count该流已经写入的大小总和，若超过一定大小，则创建新的文件和输出流，写入操作指向新的输出流，同时close以前的输出流）和TimeTriger（开启定时器，当到达该点时，自动创建新的文件和输出流，新的写入重定向到该流中，同时close以前的输出流）。

目前在Flume的配置中只支持TimeTrigger, collectorSink( "fsdir","fsfileprefix",rollmillis)，但是在代码中已经实现了按照文件大小进行回滚，同时也实现了OrTrigger实现多个trigger的混合机制。

对collectot定义如下格式 collectorSink( "fsdir","fsfileprefix",rollmillis,maxsize)，其中maxsize是HDFS文件的最大大小（M）

如 exec config collector 'collectorSource(35862)' 'collectorSink("hdfs://hostname:9100/syslog","log",300000,200)'

CollectorSink

修改 public static SinkBuilder hdfsBuilder()，支持对maxsize文件大小参数的校验。

增加构造函数，在构造函数中，创建OrTrigger并传入RollSink支持对文件大小和时间间隔Trigger的支持。

CollectorSink(Context ctx, final String snkSpec, final long millis,
			final long size, final Tagger tagger, long checkmillis,
			AckListener ackDest)

杨步涛的博客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
扩展Flume按照Time和Size对日志进行hdfs归档

Flume的架构基本agent-->collect-->storage的架构，agent主要负责日志的产生，并把日志传给collector端，collect负责把agent发送的日志收集起来，发送给storage存储，storage负责的存储；其中agent和collect本身都是source,sink架构，所谓source、sink，类似生成者和消费者的架构，他们之间通过queue传输，解耦。
复制链接

扫一扫

专栏目录